开源浪潮席卷 AI 社区:国内科技巨头掀起技术开放热潮

近年来,开源已成为 AI 领域备受瞩目的焦点议题。尤其在国内科技企业中,开源已逐渐成为技术创新与生态共建的主旋律。根据 Hugging Face 中文 AI 模型与资源社区最新数据显示,仅 2023 年七八月间,国内厂商便接连开源了 33 款和 31 款各类型大模型。这些开源成果主要集中在文本处理、图像识别、视频分析、推理系统、智能体以及世界模型等前沿领域,而音频生成领域的开源项目相对较少。

这一现象背后存在多重原因。首先,音频生成在技术实现上面临独特挑战,包括复杂的信号处理算法和海量数据采集需求。其次,出于知识产权保护和商业竞争考量,OpenAI、ElevenLabs 等行业巨头多采取闭源或半开源策略。然而,随着今年尤其是近期开源热潮的兴起,AI 音频领域正逐渐活跃起来。字节跳动 MegaTTS3、阿里 Qwen2.5-Omni-7B 与 CosyVoice3、月之暗面 Kimi-Audio、阶跃星辰 Step-Audio2 等国内头部企业和 AI 新势力纷纷加入开源行列。

小红书开源音频大模型成最彻底选手插图

在众多参与开源的国内企业中,来自小红书的技术团队自去年起便在音频领域保持着稳定的开源节奏。他们通过一系列创新成果,逐步构建起系统级音频能力,并以开放姿态向社区共享这些技术积累。这些成果既包括 FireRedTTS(文本转语音)系统,也包括 FireRedASR(语音识别)系统,两者在当时均取得了 SOTA(State-of-the-Art)级别的技术突破。

更值得关注的是,这些模型不仅实现了学术层面的突破,还具备工业级可商用属性。在关键性能指标上完全满足实际应用需求,并通过开放许可协议降低了商业化落地门槛。因此,发布后迅速吸引了大量 AI 社区研究者和开发者的关注与好评。众多用户在实际项目中直接部署并开展二次开发,其可用性和工程化潜力得到充分验证。

对于小红书而言,开放高质量音频模型不仅显著提升了其在细分赛道的技术影响力与话语权,更释放出一个明确信号:将开源作为长期战略进行系统性布局。通过持续的技术开放,小红书正在逐步构建起高粘性的音频大模型开源社区。

小红书开源音频大模型成最彻底选手插图1

就在近期,小红书智创音频团队(FireRed)又发布了多项重要开源成果,持续为开源社区注入 SOTA 级音频能力。系统级音频能力并非简单堆砌模型,而是需要跨越数据处理、基座系统与下游应用等多重技术门槛。无论是语音合成还是语音识别,都要求在延迟控制、准确率提升、自然度优化、真实感表现和鲁棒性增强等维度进行持续迭代。

小红书的音频大模型探索始于 2022 年 9 月开源的 FireRedTTS 语音合成系统。该系统构建了一套完整的基座语音合成框架,包含数据处理模块、基座模型训练系统以及下游应用适配层。通过将文本序列转换为自然富有表现力的语音序列,再利用上下文学习、监督微调等先进技术,高效服务于配音、自然对话等场景。其效果十分显著:只需一段给定文本和几秒参考音频,无需二次训练,即可模仿任意音色和说话风格,实现个性化定制,例如搞怪风、女友风等多样风格。

今年 2 月开源的 FireRedASR 在语音识别领域带来全新突破。这类技术广泛应用于智能语音交互(如语音助手)与多模态内容理解场景。该系列包含两个互补模型:FireRedASR-LLM 专注于极致语音识别精度,而 FireRedASR-AED 则在保证准确率的同时兼顾推理效率。在 AISHELL-1/2、WenetSpeech 等中文普通话测试集上,FireRedASR 的字错率(CER)达到 3.05%,显著优于豆包的闭源 ASR 方案 Seed-ASR(3.33%)和阿里通义最新发布的闭源 Qwen3-ASR-Flash(3.52%)。目前,该模型已在 GitHub 上收获 1.3k 星标,GitHub 地址:https://github.com/FireRedTeam/FireRedASR。

小红书开源音频大模型成最彻底选手插图2

延续 FireRedTTS 的 SOTA 表现,新一代 FireRedTTS-2 进一步针对现有语音合成方案的痛点进行优化,包括灵活性不足、发音错误、说话人切换不稳定和韵律不自然等问题。通过升级离散语音编码器和文本语音合成模型两大核心模块,为长对话语音合成提供了更优解决方案。FireRedTTS-2 架构概览展现了其创新设计。

FireRedTTS-2 主打上下文建模与多轮对话能力,在音色克隆、交互式对话和播客生成等多项测评中均实现行业领先,将开源模型在复杂音频场景的建模效果提升至新高度。音色克隆只需提供对话中发音人的语音样本,即可模仿其音色与说话习惯,自动生成后续整段对话;同时多说话人音色切换的稳定性和韵律自然度均处于开源模型 SOTA 水平,为火热的 AI 播客场景提供了工业级解决方案,一跃成为当前最强开源播客生成大模型。在 zero-shot 播客生成中,FireRedTTS-2 全面优于 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等开源竞品。目前,该模型支持 4 位说话人的多轮对话生成,还可通过扩展数据进一步支持更多说话人和更长时长,实现灵活适配。用户反馈显示,这款新模型已获得广泛认可。论文地址:https://arxiv.org/pdf/2509.02020,代码地址:https://github.com/FireRedTeam/FireRedTTS2。

另一大开源新成果是 FireRedChat——业内首个完全开源的全双工语音对话系统。该系统在智能判停与延迟等关键指标上达到开源 SOTA 水平,端到端性能已接近工业级水准。此次亮点在于:不仅提供完整模型,还一站式集成 VAD(语音活动检测)、ASR、TTS、上下文感知 TTS、音频 LLM、Dify 支持等核心模块,支持私有化部署。这在业内尚属首例,意味着即使非语音领域专业人士,也可直接克隆代码,快速部署语音助手,例如豆包的「打电话」语音对话助理。

小红书开源音频大模型成最彻底选手插图3

基于内置的情绪感知与情感合成能力,通过 FireRedChat 构建的 AI 不仅是功能机器人,更是一个「知冷暖、能共情、懂表达」的虚拟伙伴。它能细腻感知用户情绪变化:在用户失落时提供轻声安慰与真诚鼓励;在用户遇到惊喜时分享喜悦;在用户开心时陪伴欢笑。FireRedChat 让 AI 聊天助手不再只是文字回应,而是能以富有温度的声音、情感和表达方式,带给用户被理解、被陪伴的真实感受,让 AI 真正拥有「人感」。

短短一年时间,小红书围绕文本转语音、语音识别和语音对话形成了完整技术栈,并探索出多项创新功能。例如,基于 FireRedASR 技术的语音评论功能,通过唱歌、说方言、模仿热门台词等玩法,显著增强了评论区互动性与趣味性,有效提升了用户粘性。

音频开源的「执牛耳者」

小红书开源音频大模型成最彻底选手插图4

从小红书已开源的一系列音频大模型中,我们看到了其对开源生态的长期承诺与战略耐心。一方面,几乎覆盖了语音交互全部核心环节,从 TTS 到 ASR 再到语音对话,技术矩阵日趋完善。由点及面的布局,展现了其在技术积累上的深厚底蕴,通过系统性开源降低行业准入门槛,形成生态级牵引力。未来,小红书还计划推出音乐大模型 FireRedMusic、多语种高精度语音识别系统 FireRedASR-2 以及音频感知大模型,让更多细分领域的开发者受益于高质量模型。

另一方面,开源正在从单一模型层走向体系层,扩展至全链路模块。这意味着开源价值已从提供单一模型升级为提供系统化能力。以全双工语音对话系统 FireRedChat 为例,其基础模块的开放显著降低了开发者的集成与部署门槛,使他们在开箱即用的基础上快速构建应用,进而扩大音频生态创新边界。

通过开源这一关键支点,小红书的开源「野心」逐渐显现。小红书智创音频团队负责人解奉龙表示,他们的目标是建立首个工业级可商用的音频大模型开源社区,涵盖语音识别及理解、语音/音效生成、全双工语音交互、音乐理解及生成四大方向,逐步将自身打造成为开源音频领域的「执牛耳者」。

小红书开源音频大模型成最彻底选手插图5

这些模型具备的工业级可商用属性将释放更大价值。开发者和企业用户可直接在生产环境中部署使用,大幅缩短从技术到产品的周期,降低试错成本。随着语音交互赛道参与者日益增多,应用创新与落地场景更加丰富,反过来又将进一步扩展以小红书为主导的音频开源社区。

小红书智创团队负责人汤旭表示,团队将持续深耕多模态大模型,勇于突破 SOTA 边界,探索 AI 在内容理解与创作中的更多可能。坚持开放共享,通过开源生态与全球开发者协同进化,共同推动行业标准演进,让 AI 不仅赋能小红书,更为全球创作者创造价值,开启内容生产新范式。

写在最后

小红书开源音频大模型成最彻底选手插图6

作为重塑行业格局的重要力量,开源让先进的 AI 能力不再被少数巨头垄断,而是沉淀为整个行业可共享的底层资源。从八年前引爆全球的 Transformer,到年初的 DeepSeek,再到前一段的 Qwen,开源始终是推动大模型技术跃迁的关键因素之一。在共享基线之上,开发者可进行低成本差异化探索。

AI 大厂选择「闭门造车」,本质是通过技术壁垒构筑护城河,维持商业模式的可持续性和竞争优势,如 OpenAI 等。在资本驱动与市场回报逻辑下,这种路径无可厚非。然而,推动产业加速演进不仅依靠巨头独角戏,更在于开源社区的多点突破与百花齐放。在开源生态中,模型、框架和工具可快速迭代、自由组合,通过更多创新尝试加快新技术落地。尤其在 AI 应用的长尾场景中,整个社区的广泛参与更有潜力让 AI 真正从实验室走向产业化。

小红书正用一次次开源践行这一切,持续推动音频大模型技术演进,向所有人释放前沿能力,并希望通过更大的开源社区共建实现技术平权。这些 SOTA 级音频大模型为开发者和中小型企业提供了平等的技术起点,让他们在同一基准线上进行创新与应用开发。在开源生态主导权上的长远布局,将为小红书在未来的 AI 音频市场竞争中抢占先机。

小红书开源音频大模型成最彻底选手插图7

除了音频,小红书智创团队还在多模态、AIGC、CV、编辑渲染、算法工程等方向多有建树,并向公司内部社交、直播、电商、商业化广告和生态审核等各业务线提供业界领先的技术解决方案,成功落地了语音评论、文字功能等爆款功能。

最新快讯

2026年02月15日

00:33
微新创想:2026年2月14日,《南京市网络预约出租汽车管理办法》正式施行。新规放宽车辆准入,将车龄要求由‘初次注册登记’调整为‘距初次注册登记不超过2年’,允许符合条件的二手车进入市场。这一调整为更多车辆提供了参与网约车运营的机会,有助于扩大行业覆盖面。 同时取消驾驶员须具本市户籍或居住证的限制。此举打破了以往对驾驶员身份的地域性约束,为更多有驾驶技能但户...

2026年02月14日

23:26
微新创想:2026年2月13日,日本确善能公司正式以福伦达品牌推出SEPTON 40mm f/2 Aspherical全画幅手动镜头。这款镜头不仅标志着确善能在镜头设计上的新突破,也展现了福伦达品牌在光学领域的深厚积累。 该镜头适配索尼E卡口与尼康Z卡口,为摄影师提供了更广泛的设备兼容性。其售价为93500日元,约合4226元人民币,定价合理,兼顾了品质与性...
23:26
微新创想:2026年2月14日 法国巴黎检察官办公室对雀巢、达能、拉克塔利斯等五家婴配奶粉企业启动刑事调查 此次调查主要针对企业涉嫌分销可能受污染的产品。相关企业被指控违反消费者权益保护法规,以危害人类健康的商品进行欺骗 案件由法国公共卫生部门主导展开。调查重点包括企业是否遵守了相关安全规范 是否在发现问题后及时召回产品 以及是否存在因失职而导致婴儿生命受到...
23:26
微新创想:2026年2月14日,云南咖啡豆进入采摘高峰期。这一时期不仅标志着咖啡种植业的繁忙阶段,也预示着新一季咖啡产品的集中供应。本产季出现价格倒挂现象,即国内收购价高于出口价格。这一现象在业内引起了广泛关注,反映出国内咖啡市场正在经历结构性变化。 价格倒挂促使多家企业将经营重心转向内需市场。随着国内消费者对咖啡产品的需求不断增长,企业开始更加重视国内市场...
23:26
微新创想:微软近日宣布,自2026年4月起,将全面关闭Xbox One与Xbox Series X|S平台上的玩家自建“社交俱乐部”功能。这一功能曾是玩家围绕共同兴趣建立社群的重要工具,支持聊天、组队、分享内容等多种互动方式。随着该功能的关闭,用户将需要依赖其他平台或内置功能来维持社交联系。 微新创想:此次调整意味着玩家将无法再通过Xbox平台自行创建和管理...
23:26
微新创想:2026年2月12日,摩尔线程成功在MTT S5000 GPU上完成MiniMax M2.5大模型的Day-0极速适配,实现高性能推理。这一突破标志着摩尔线程在AI计算领域迈出了坚实的一步。 该GPU基于自研MUSA架构,具备强大的计算能力和高效的能效比。其支持原生FP8加速技术,能够在保证精度的同时显著提升运算速度,为大模型的推理任务提供了坚实的...
23:26
微新创想:2026年2月13日,日本成人用品制造商Tenga确认发生数据泄露事件。黑客通过入侵员工工作邮箱,非法获取客户姓名、电子邮件地址及邮件往来记录(含订单与咨询内容),并以此向通讯录联系人发送垃圾邮件。 事件未涉及密码等敏感凭证泄露,但Tenga已重置涉事账户、全系统启用多重验证(MFA),并建议用户更改密码、警惕钓鱼邮件。公司未披露受影响客户数量,其...
23:26
微新创想:育碧确认终止六款游戏开发 2月13日育碧官方宣布将终止六款游戏的开发工作。其中包括已经公布的《波斯王子:时之沙重制版》以及多个未公开项目如Project Ether、Project Pathfinder、Project Crest。此外还有移动端新作《刺客信条:奇点》和《刺客信条:叛乱》也被取消。这一决定是育碧公司整体战略调整的一部分。 部分被取消...
22:48
微新创想:2026年2月13日 巴西反垄断监管机构CADE启动对微软的正式调查 CADE指控微软通过‘Jumpstart’计划间接迫使戴尔、惠普等10家OEM厂商在Windows PC上独家预装Edge浏览器 调查内容主要集中在2020至2025年间的相关销量数据 合同条款以及是否存在惩罚性约束 CADE要求相关厂商与微软提交合作细节 重点核查‘不遵守即罚款...
22:07
微新创想:Unihertz公司宣布全键盘手机Titan 2 Elite将在2026年3月2日至5日于西班牙巴塞罗那的MWC展会正式发布 此次发布标志着Unihertz在全键盘手机领域持续深耕的又一重要节点。Titan 2 Elite延续了前代Titan 2的设计语言,整体造型保持了矮胖机身的特色,同时在细节上进行了优化与升级 该机采用圆角挖孔屏设计,兼顾了屏...
22:07
微新创想:2026年2月14日,LG在海外市场正式推出Xboom Buds Lite与Buds Plus两款TWS耳机。这两款新品在音质表现上有着显著提升,特别强调了低频的强劲输出,满足了用户对沉浸式音乐体验的需求。 新品由知名音乐人will.i.am亲自调音,确保了音质的专业性和独特性。Xboom Buds Lite与Buds Plus均采用了10mm石墨...
20:59
微新创想:佳能近日宣布计划于2026年内推出新款EOS R10 Mark II APS-C画幅无反相机。这款产品将主要面向中国、印度等新兴市场的入门级用户群体。作为EOS R系列的又一力作,R10 Mark II在定位上与EOS R50和R100保持一致,旨在为用户提供一款性能均衡且价格亲民的无反相机选择。 微新创想:为了有效控制成本并提升产品竞争力,R10...