开源浪潮席卷 AI 社区:国内科技巨头掀起技术开放热潮
近年来,开源已成为 AI 领域备受瞩目的焦点议题。尤其在国内科技企业中,开源已逐渐成为技术创新与生态共建的主旋律。根据 Hugging Face 中文 AI 模型与资源社区最新数据显示,仅 2023 年七八月间,国内厂商便接连开源了 33 款和 31 款各类型大模型。这些开源成果主要集中在文本处理、图像识别、视频分析、推理系统、智能体以及世界模型等前沿领域,而音频生成领域的开源项目相对较少。
这一现象背后存在多重原因。首先,音频生成在技术实现上面临独特挑战,包括复杂的信号处理算法和海量数据采集需求。其次,出于知识产权保护和商业竞争考量,OpenAI、ElevenLabs 等行业巨头多采取闭源或半开源策略。然而,随着今年尤其是近期开源热潮的兴起,AI 音频领域正逐渐活跃起来。字节跳动 MegaTTS3、阿里 Qwen2.5-Omni-7B 与 CosyVoice3、月之暗面 Kimi-Audio、阶跃星辰 Step-Audio2 等国内头部企业和 AI 新势力纷纷加入开源行列。

在众多参与开源的国内企业中,来自小红书的技术团队自去年起便在音频领域保持着稳定的开源节奏。他们通过一系列创新成果,逐步构建起系统级音频能力,并以开放姿态向社区共享这些技术积累。这些成果既包括 FireRedTTS(文本转语音)系统,也包括 FireRedASR(语音识别)系统,两者在当时均取得了 SOTA(State-of-the-Art)级别的技术突破。
更值得关注的是,这些模型不仅实现了学术层面的突破,还具备工业级可商用属性。在关键性能指标上完全满足实际应用需求,并通过开放许可协议降低了商业化落地门槛。因此,发布后迅速吸引了大量 AI 社区研究者和开发者的关注与好评。众多用户在实际项目中直接部署并开展二次开发,其可用性和工程化潜力得到充分验证。
对于小红书而言,开放高质量音频模型不仅显著提升了其在细分赛道的技术影响力与话语权,更释放出一个明确信号:将开源作为长期战略进行系统性布局。通过持续的技术开放,小红书正在逐步构建起高粘性的音频大模型开源社区。

就在近期,小红书智创音频团队(FireRed)又发布了多项重要开源成果,持续为开源社区注入 SOTA 级音频能力。系统级音频能力并非简单堆砌模型,而是需要跨越数据处理、基座系统与下游应用等多重技术门槛。无论是语音合成还是语音识别,都要求在延迟控制、准确率提升、自然度优化、真实感表现和鲁棒性增强等维度进行持续迭代。
小红书的音频大模型探索始于 2022 年 9 月开源的 FireRedTTS 语音合成系统。该系统构建了一套完整的基座语音合成框架,包含数据处理模块、基座模型训练系统以及下游应用适配层。通过将文本序列转换为自然富有表现力的语音序列,再利用上下文学习、监督微调等先进技术,高效服务于配音、自然对话等场景。其效果十分显著:只需一段给定文本和几秒参考音频,无需二次训练,即可模仿任意音色和说话风格,实现个性化定制,例如搞怪风、女友风等多样风格。
今年 2 月开源的 FireRedASR 在语音识别领域带来全新突破。这类技术广泛应用于智能语音交互(如语音助手)与多模态内容理解场景。该系列包含两个互补模型:FireRedASR-LLM 专注于极致语音识别精度,而 FireRedASR-AED 则在保证准确率的同时兼顾推理效率。在 AISHELL-1/2、WenetSpeech 等中文普通话测试集上,FireRedASR 的字错率(CER)达到 3.05%,显著优于豆包的闭源 ASR 方案 Seed-ASR(3.33%)和阿里通义最新发布的闭源 Qwen3-ASR-Flash(3.52%)。目前,该模型已在 GitHub 上收获 1.3k 星标,GitHub 地址:https://github.com/FireRedTeam/FireRedASR。

延续 FireRedTTS 的 SOTA 表现,新一代 FireRedTTS-2 进一步针对现有语音合成方案的痛点进行优化,包括灵活性不足、发音错误、说话人切换不稳定和韵律不自然等问题。通过升级离散语音编码器和文本语音合成模型两大核心模块,为长对话语音合成提供了更优解决方案。FireRedTTS-2 架构概览展现了其创新设计。
FireRedTTS-2 主打上下文建模与多轮对话能力,在音色克隆、交互式对话和播客生成等多项测评中均实现行业领先,将开源模型在复杂音频场景的建模效果提升至新高度。音色克隆只需提供对话中发音人的语音样本,即可模仿其音色与说话习惯,自动生成后续整段对话;同时多说话人音色切换的稳定性和韵律自然度均处于开源模型 SOTA 水平,为火热的 AI 播客场景提供了工业级解决方案,一跃成为当前最强开源播客生成大模型。在 zero-shot 播客生成中,FireRedTTS-2 全面优于 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等开源竞品。目前,该模型支持 4 位说话人的多轮对话生成,还可通过扩展数据进一步支持更多说话人和更长时长,实现灵活适配。用户反馈显示,这款新模型已获得广泛认可。论文地址:https://arxiv.org/pdf/2509.02020,代码地址:https://github.com/FireRedTeam/FireRedTTS2。
另一大开源新成果是 FireRedChat——业内首个完全开源的全双工语音对话系统。该系统在智能判停与延迟等关键指标上达到开源 SOTA 水平,端到端性能已接近工业级水准。此次亮点在于:不仅提供完整模型,还一站式集成 VAD(语音活动检测)、ASR、TTS、上下文感知 TTS、音频 LLM、Dify 支持等核心模块,支持私有化部署。这在业内尚属首例,意味着即使非语音领域专业人士,也可直接克隆代码,快速部署语音助手,例如豆包的「打电话」语音对话助理。

基于内置的情绪感知与情感合成能力,通过 FireRedChat 构建的 AI 不仅是功能机器人,更是一个「知冷暖、能共情、懂表达」的虚拟伙伴。它能细腻感知用户情绪变化:在用户失落时提供轻声安慰与真诚鼓励;在用户遇到惊喜时分享喜悦;在用户开心时陪伴欢笑。FireRedChat 让 AI 聊天助手不再只是文字回应,而是能以富有温度的声音、情感和表达方式,带给用户被理解、被陪伴的真实感受,让 AI 真正拥有「人感」。
短短一年时间,小红书围绕文本转语音、语音识别和语音对话形成了完整技术栈,并探索出多项创新功能。例如,基于 FireRedASR 技术的语音评论功能,通过唱歌、说方言、模仿热门台词等玩法,显著增强了评论区互动性与趣味性,有效提升了用户粘性。
音频开源的「执牛耳者」

从小红书已开源的一系列音频大模型中,我们看到了其对开源生态的长期承诺与战略耐心。一方面,几乎覆盖了语音交互全部核心环节,从 TTS 到 ASR 再到语音对话,技术矩阵日趋完善。由点及面的布局,展现了其在技术积累上的深厚底蕴,通过系统性开源降低行业准入门槛,形成生态级牵引力。未来,小红书还计划推出音乐大模型 FireRedMusic、多语种高精度语音识别系统 FireRedASR-2 以及音频感知大模型,让更多细分领域的开发者受益于高质量模型。
另一方面,开源正在从单一模型层走向体系层,扩展至全链路模块。这意味着开源价值已从提供单一模型升级为提供系统化能力。以全双工语音对话系统 FireRedChat 为例,其基础模块的开放显著降低了开发者的集成与部署门槛,使他们在开箱即用的基础上快速构建应用,进而扩大音频生态创新边界。
通过开源这一关键支点,小红书的开源「野心」逐渐显现。小红书智创音频团队负责人解奉龙表示,他们的目标是建立首个工业级可商用的音频大模型开源社区,涵盖语音识别及理解、语音/音效生成、全双工语音交互、音乐理解及生成四大方向,逐步将自身打造成为开源音频领域的「执牛耳者」。

这些模型具备的工业级可商用属性将释放更大价值。开发者和企业用户可直接在生产环境中部署使用,大幅缩短从技术到产品的周期,降低试错成本。随着语音交互赛道参与者日益增多,应用创新与落地场景更加丰富,反过来又将进一步扩展以小红书为主导的音频开源社区。
小红书智创团队负责人汤旭表示,团队将持续深耕多模态大模型,勇于突破 SOTA 边界,探索 AI 在内容理解与创作中的更多可能。坚持开放共享,通过开源生态与全球开发者协同进化,共同推动行业标准演进,让 AI 不仅赋能小红书,更为全球创作者创造价值,开启内容生产新范式。
写在最后

作为重塑行业格局的重要力量,开源让先进的 AI 能力不再被少数巨头垄断,而是沉淀为整个行业可共享的底层资源。从八年前引爆全球的 Transformer,到年初的 DeepSeek,再到前一段的 Qwen,开源始终是推动大模型技术跃迁的关键因素之一。在共享基线之上,开发者可进行低成本差异化探索。
AI 大厂选择「闭门造车」,本质是通过技术壁垒构筑护城河,维持商业模式的可持续性和竞争优势,如 OpenAI 等。在资本驱动与市场回报逻辑下,这种路径无可厚非。然而,推动产业加速演进不仅依靠巨头独角戏,更在于开源社区的多点突破与百花齐放。在开源生态中,模型、框架和工具可快速迭代、自由组合,通过更多创新尝试加快新技术落地。尤其在 AI 应用的长尾场景中,整个社区的广泛参与更有潜力让 AI 真正从实验室走向产业化。
小红书正用一次次开源践行这一切,持续推动音频大模型技术演进,向所有人释放前沿能力,并希望通过更大的开源社区共建实现技术平权。这些 SOTA 级音频大模型为开发者和中小型企业提供了平等的技术起点,让他们在同一基准线上进行创新与应用开发。在开源生态主导权上的长远布局,将为小红书在未来的 AI 音频市场竞争中抢占先机。

除了音频,小红书智创团队还在多模态、AIGC、CV、编辑渲染、算法工程等方向多有建树,并向公司内部社交、直播、电商、商业化广告和生态审核等各业务线提供业界领先的技术解决方案,成功落地了语音评论、文字功能等爆款功能。
