
编订|杜伟
2026 马年注定迎来一个「AI 味」最浓的春节。
一个出类拔萃的玩家参加咱们的视野,它恰是国内最有活东说念主感的生计和破钞社区 —— 小红书,卷起了「感知力」。
小红书围绕着发布、指摘、搜索、外交等高频互动场景,灵通了多种 AI 语音新玩法,包括语音发布、语音指摘、语消息一问、语音私信贺年等。
这些新奇敬爱的语音玩法,带来的直不雅效果是:用户之间的调换弁言不再仅仅图文,而驱动了「动嘴」模式。
语音回帖让以往冷飕飕的指摘区有了「满满的活东说念主感」,涌进寰宇各地的语言、中国各地的方言,还有东说念主秀起歌喉以及各种各样的播音腔、磁性嗓、低音炮。
张开剩余92%图源:@牛角包大王 @别咬我兔耳朵
要是说语音指摘增强了外交兴味兴味性,这两天适应上线的「语消息一问」则是社区搜索形态与功能的一次大变身。
它与传统 AI 搜索最大的区别是将真东说念主告诫与 AI 回来诱导了起来,你搜索到的每一个谜底,皆是实在用户的学问与告诫千里淀。
在小红书里顺利搜「语消息就有活东说念主谜底」参加行为页面,便能开启该功能。这个春节,年货买什么、那处好逛,启齿问就行。
用户还可以参与「语消息一问抽新春小红盒、语音贺年、语音联欢会」等特色迎春行为,互动起来更能感受到年味。
图源:@甜甜圈
声息,让小红书社区「活」起来
动作东说念主类最当然的交流弁言,声息的加入正在将小红书改形成更有「声」命力的社区。
先从语音评讲述起,自开启该功能内测以来,各路网友脑洞打开,有东说念主秀我方的正统步骤发音:
图源:@labalibi
声源:@nagono
上海话让东说念主念念到江南烟雨中的温婉女子:
图源:@基尼斯贝贝.
声源:@琉璃
一些歌手已驱动在指摘区一展歌喉,如杨丞琳:
图源&声源:@杨丞琳
不同曲风的 K 歌接龙以及有数乖癖的声息师法让指摘区充满了欢笑:
图源:@Han(天线短路宝宝)
声源:@yearn
图源:@兜兜有米
声源:@灏-Mioarti
好玩除外,语音指摘还可以很暖心。听障东说念主士向外界展示他们实在的声息,这种东说念主文关注令东说念主动容。
图源:@听障连络生~彤
声源:@! ! !
上线即火爆的「语消息一问」功能,其 AI 增强搜索与问答智商让体验从手动翻阅一篇篇条记进化到一问即得。
许多明星皆参与了进来,比如曾参加过《歌手 2024》的好意思国男歌手 Adam Lambert 操着蹩脚的平庸话提问「动口不起先」的含义,还求教了春节振奋的粤语抒发。
咱们也启齿问了两个问题,第一个是「北京春节有哪些年味浓的所在」,中间还进行了追问。在识别语音之后,AI 很快把柄小红书站内条记生成结构化回来,还进行比物连类,比如经典年味地标、文艺小众去向和老北京大集,临了还附上了出行小贴士。
接着问「腊月 23 小年的寥落含义以及南朔方的互异」。从扫尾来看,AI 一样调取站内条记,将其中脱落的信息重组迂回为一份结构严实的谜底,清爽列出了南朔方小年在日历、习俗、饮食、行为等方面的互异。
当你念念挑一些「看起来比较负责,但又不是确实很贵的礼物」时,出来的这份谜底能否得志你的条款呢?
全新的玩法「语音发布」也还是上线,不少明星用它来共享简单生计、发送祈福。
小雅说,戴某乔认罪认罚,对我们家属说了对不起,何某虎不承认作案,但他没有什么实际的证据。
图源&声源:@王铮亮
从互动到搜索、再到条记,AI 语音的全链路浸透,让 2026 年春节的小红书社区变成了「指摘可发声、搜索语消息」。
AI 语音落地,靠近多重关
在小红书这么用户体量雄壮的社区,开云体育官方网站AI 语音的胜利落地需要处分好以下多少问题。
最初需要处分复杂场景下的音频和会。
小红书的用户散布极广,存在无数地域方言、口音、不同庚级段或用户群体的使用民俗(如私语、中英混杂等情况)。竖立互异、布景声息、嘈杂环境、语速一样会影响识别的准确性。
除了语义内容,模子也需要感知用户语音中的心绪、音色本性;音乐歌声中的心绪、派别、立场;当然界的风声、雨声、海潮声等环境音。
要是说听懂是基础,那么有温度地恢复是灵魂所在,亦然完毕当然交互的要道。这就要靠近第二大问题:如何让音频生成具备活东说念主感。
小红书内容场景立场「千东说念主千面」,条款模子把柄场景活泼切换,隔断一种腔调走天地。心绪抒发要「连贯畅通」,不再是孤就地诵读句子,而是能读懂高下文的继往开来;细节口吻也要精确拿合手,规复语言的「弦外之音」。
这就条款模子在充分消化和会用户高下文的同期,还要具备相应的心绪感知智商。
临了,反馈速率顺利影响用户推行体验。
要是语音交互处理进程很长,用户说完后总要经历几秒钟的「死寂」,系统才有反应。这种非及时性会将原来连贯的对话切得一鳞半瓜,体验相配生硬。
自然上风除外,更有向上语音技艺
关于小红书而言,其打造各种化 AI 语音智商具有自然上风:
一是丰富内容形态,涵盖图文、条记、视频等多种花式,多元内容结构可以齐备承载语音动作交互的中间弁言。二是相较于单纯的短视频平台,在小红书指摘区插入语音不会导致体验上的「打断感」。三是小红书的 AI 语音智商集成于主站中枢场景,为技艺提供了不竭调动与优化的空间。
这些上风使得小红书成为 AI 语音落地的理念念试真金不怕火场,但要达到如今的水平,凤凰彩票官方网站更有坚实的技艺复古。
据了解,这些技艺出自小红书 Super Intelligence-AudioLab团队,负责东说念主为风龙。团队中枢布局了语音识别、语音合成、全双工语音交互及 ALLinOne 基座模子、音乐和会生成四大标的,复古起小红书在各业务场域的讹诈探索。
在语音识别界限,自研 FireRedASR 大模子取得中语语音识别开源 SOTA 效果。近期,团队也准备开源全链路 ASR 系统级处分决策 FireRedASR2S,包含静音检测、语种检测、语音识别、标点集成等模块。
FireRedASR 名目地址:https://github.com/FireRedTeam/FireRedASR FireRedASR2S 名目地址:https://github.com/FireRedTeam/FireRedASR2S在功能上,FireRedASR2 新提拔 20 + 方言和口音,在中语平庸话和方言公开的 24 个测试集上字错率为 9.67%,比较之下,Doubao ASR 和 Qwen3-ASR-1.7B 的字错率辩认为 12.98%、10.12%。
另外,FireRedLID 语种检测模子提拔 100 + 语种和 20 + 中语方言,语种准确率达 97.18%,而 OpenAI Whisper 仅为 79.41%。FireRedVAD 提拔 100 + 语种,在多语言语音 Fleurs 测试集上,它的 F1 分数为 97.57%,开源 Silero-VAD 为 95.95%。
FireRedASR2 不同版块与竞品模子的平均字错率对比。
在语音合成界限,一样作念到中语对话长语音合成 SOTA。自研 FireRedTTS2 大模子提拔 3 分钟以上长对话生成,在多轮对话场景中,其音色牢固性和当然度显贵优于多家竞品,代表了当今开源模子的最高水平。
该模子引入的心绪感知智商是语音「活东说念主感」得以完毕的要道,当感知到用户心绪低垂时,语音中会当然地带有安危的语调,解脱机械感。
更早之前的 FireRedTTS1/1S 主绑架句生成与克隆,能够精确规复参考音频的特色,当今稳居该界限的开源第一梯队。
FireRedTTS1/1S 名目地址:https://github.com/FireRedTeam/FireRedTTS FireRedTTS2 名目地址:https://github.com/FireRedTeam/FireRedTTS2FireRedTTS 系列模子与 OpenStoryline AI 视频编订的诱导,可以提供当然东说念主感的语音生成智商。畴昔,团队将不竭膨胀智商至播客、语音翻译等多个场景。
表 3 为 FireRedTTS-2 在交互式对话场景微调后的热诚阻挡准确率,表 4 为 zero-shot 播客生成的客不雅与主不雅评估。
关于全双工语音交互及 ALLinOne 基座模子,团队推出了业内首个开源、提拔专有化部署的全双工语音交互系统 FireRedChat。
针对传统 AI 反应慢、乱打断的痛点,系统通过自研的 pVAD(辨别声息)和语义判停 EoT(听懂兴味) 技艺,精确判断讲话时机,端到端延伸低至 2 秒,反应又快又稳。其最大亮点是不依赖外部 API,即可完毕一键土产货部署。它让 AI 不再是冷飕飕的机器,而是能共情、有温度的伙伴。
FireRedChat 名目地址:https://github.com/FireRedTeam/FireRedChat
ALLinOne 基座模子完毕语音、音效、音乐的结伙编码,齐备买通泛音频的和会与生成,带来了音频智商的泄漏。同期通过提拔多类型、深档次的标签分析,为语音指摘的音频内容和会提供了坚实的基础智商。据悉团队将于本年上半年和业内共享开源模子。
在音乐和会与生成界限,自研的音乐和会与生成模子完毕了对音乐的多步骤深层和会、创作意图和会与活泼可控创作,将专科音乐创作的学问融入模子的和会 - 迂回 - 生成各阶段,为从音乐疼爱者到专科音乐东说念主的不同用户提供一体化音乐创作处分决策。
模子在音乐曲风、热诚、场景、节律律动等多个维度的和会智商和高品性生成智商已赋能小红书音乐东说念主创作,据悉一样会在上半年和业内共享开源模子。
在拿到模子测试履历后,咱们也小试了一下,生成的一分多钟的音乐效果可以:
恰是有了以上千里淀,小红书构筑起了一套隐敝底层架构优化、高质料语音合成、热诚化语音互动、智能语消息答的完整技艺栈,通过语音主导的东说念主性化抒发和问搜协同,营造一个兼顾交互兴味兴味性与热诚温度的社区生态。
除了语音,通盘这个词 Super Intelligence 团队是小红书面向畴昔内容形态与通用智能的进军技艺引擎,其负责东说念主为汤神,目标是构建业界向上的多模态基础大模子体系,并形成可不竭演进的通用智能智商。
团队包括 Audio Lab、Vision Lab、Foundation Lab 等实验室,在内容和会、视觉与多模态、图像生成与编订、语音和会与生成、Omni Model、殊效渲染与影音体验等标的遥远对标行业 SOTA,同期强调模子智商在推选、搜索、视频 & 直播、电商、交易化告白、外欧化等复杂实在业务中的可用性与限度化落地。
往常两年,汤神偏执团队先后主导了图搜、内容和会、创作用具升级等紧要名目,并负责语音 & 多模态 & 图像生成与编订等大模子。团队在学术与产业两头同步鞭策,累计发表了 40 余篇顶会与期刊论文,千里淀出 InstantID、StoryMaker、FireRedTTS、FireRedASR 等具有行业影响力的开源技艺效果,告捷孵化语音指摘、翰墨大字报、长文、满屏高清等多项站内爆款功能。
结语
小红书的 AI 语音探索,一方面让用户欢快尝试好玩的语音指摘,可以升迁社区活跃度;另一方面,语音搜索让用户赢得信息像聊天一样简便,尤其适用于不民俗或不便捷打字的群体或场景。
这么的履行也考据了:在追求技艺高度除外,体验深度一样进军。就拿最近火热的 Agent 来说,用户敬重的不只单是智商的强弱,也珍惜交互当然度、意图和会进程和事业无感化。
或者,临了拼的是能否以直不雅、亲和、高效的旅途触达用户,让 AI 接地气,在更当然的交互中完毕价值。
文中视频、音频聚集:https://mp.weixin.qq.com/s/DV-JSNHiciR76m_OyoM5tg凤凰彩票官方网站
发布于:北京市