开源浪潮席卷 AI 社区:国内科技巨头掀起技术开放热潮

近年来,开源已成为 AI 领域备受瞩目的焦点议题。尤其在国内科技企业中,开源已逐渐成为技术创新与生态共建的主旋律。根据 Hugging Face 中文 AI 模型与资源社区最新数据显示,仅 2023 年七八月间,国内厂商便接连开源了 33 款和 31 款各类型大模型。这些开源成果主要集中在文本处理、图像识别、视频分析、推理系统、智能体以及世界模型等前沿领域,而音频生成领域的开源项目相对较少。

这一现象背后存在多重原因。首先,音频生成在技术实现上面临独特挑战,包括复杂的信号处理算法和海量数据采集需求。其次,出于知识产权保护和商业竞争考量,OpenAI、ElevenLabs 等行业巨头多采取闭源或半开源策略。然而,随着今年尤其是近期开源热潮的兴起,AI 音频领域正逐渐活跃起来。字节跳动 MegaTTS3、阿里 Qwen2.5-Omni-7B 与 CosyVoice3、月之暗面 Kimi-Audio、阶跃星辰 Step-Audio2 等国内头部企业和 AI 新势力纷纷加入开源行列。

小红书开源音频大模型成最彻底选手插图

在众多参与开源的国内企业中,来自小红书的技术团队自去年起便在音频领域保持着稳定的开源节奏。他们通过一系列创新成果,逐步构建起系统级音频能力,并以开放姿态向社区共享这些技术积累。这些成果既包括 FireRedTTS(文本转语音)系统,也包括 FireRedASR(语音识别)系统,两者在当时均取得了 SOTA(State-of-the-Art)级别的技术突破。

更值得关注的是,这些模型不仅实现了学术层面的突破,还具备工业级可商用属性。在关键性能指标上完全满足实际应用需求,并通过开放许可协议降低了商业化落地门槛。因此,发布后迅速吸引了大量 AI 社区研究者和开发者的关注与好评。众多用户在实际项目中直接部署并开展二次开发,其可用性和工程化潜力得到充分验证。

对于小红书而言,开放高质量音频模型不仅显著提升了其在细分赛道的技术影响力与话语权,更释放出一个明确信号:将开源作为长期战略进行系统性布局。通过持续的技术开放,小红书正在逐步构建起高粘性的音频大模型开源社区。

小红书开源音频大模型成最彻底选手插图1

就在近期,小红书智创音频团队(FireRed)又发布了多项重要开源成果,持续为开源社区注入 SOTA 级音频能力。系统级音频能力并非简单堆砌模型,而是需要跨越数据处理、基座系统与下游应用等多重技术门槛。无论是语音合成还是语音识别,都要求在延迟控制、准确率提升、自然度优化、真实感表现和鲁棒性增强等维度进行持续迭代。

小红书的音频大模型探索始于 2022 年 9 月开源的 FireRedTTS 语音合成系统。该系统构建了一套完整的基座语音合成框架,包含数据处理模块、基座模型训练系统以及下游应用适配层。通过将文本序列转换为自然富有表现力的语音序列,再利用上下文学习、监督微调等先进技术,高效服务于配音、自然对话等场景。其效果十分显著:只需一段给定文本和几秒参考音频,无需二次训练,即可模仿任意音色和说话风格,实现个性化定制,例如搞怪风、女友风等多样风格。

今年 2 月开源的 FireRedASR 在语音识别领域带来全新突破。这类技术广泛应用于智能语音交互(如语音助手)与多模态内容理解场景。该系列包含两个互补模型:FireRedASR-LLM 专注于极致语音识别精度,而 FireRedASR-AED 则在保证准确率的同时兼顾推理效率。在 AISHELL-1/2、WenetSpeech 等中文普通话测试集上,FireRedASR 的字错率(CER)达到 3.05%,显著优于豆包的闭源 ASR 方案 Seed-ASR(3.33%)和阿里通义最新发布的闭源 Qwen3-ASR-Flash(3.52%)。目前,该模型已在 GitHub 上收获 1.3k 星标,GitHub 地址:https://github.com/FireRedTeam/FireRedASR。

小红书开源音频大模型成最彻底选手插图2

延续 FireRedTTS 的 SOTA 表现,新一代 FireRedTTS-2 进一步针对现有语音合成方案的痛点进行优化,包括灵活性不足、发音错误、说话人切换不稳定和韵律不自然等问题。通过升级离散语音编码器和文本语音合成模型两大核心模块,为长对话语音合成提供了更优解决方案。FireRedTTS-2 架构概览展现了其创新设计。

FireRedTTS-2 主打上下文建模与多轮对话能力,在音色克隆、交互式对话和播客生成等多项测评中均实现行业领先,将开源模型在复杂音频场景的建模效果提升至新高度。音色克隆只需提供对话中发音人的语音样本,即可模仿其音色与说话习惯,自动生成后续整段对话;同时多说话人音色切换的稳定性和韵律自然度均处于开源模型 SOTA 水平,为火热的 AI 播客场景提供了工业级解决方案,一跃成为当前最强开源播客生成大模型。在 zero-shot 播客生成中,FireRedTTS-2 全面优于 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等开源竞品。目前,该模型支持 4 位说话人的多轮对话生成,还可通过扩展数据进一步支持更多说话人和更长时长,实现灵活适配。用户反馈显示,这款新模型已获得广泛认可。论文地址:https://arxiv.org/pdf/2509.02020,代码地址:https://github.com/FireRedTeam/FireRedTTS2。

另一大开源新成果是 FireRedChat——业内首个完全开源的全双工语音对话系统。该系统在智能判停与延迟等关键指标上达到开源 SOTA 水平,端到端性能已接近工业级水准。此次亮点在于:不仅提供完整模型,还一站式集成 VAD(语音活动检测)、ASR、TTS、上下文感知 TTS、音频 LLM、Dify 支持等核心模块,支持私有化部署。这在业内尚属首例,意味着即使非语音领域专业人士,也可直接克隆代码,快速部署语音助手,例如豆包的「打电话」语音对话助理。

小红书开源音频大模型成最彻底选手插图3

基于内置的情绪感知与情感合成能力,通过 FireRedChat 构建的 AI 不仅是功能机器人,更是一个「知冷暖、能共情、懂表达」的虚拟伙伴。它能细腻感知用户情绪变化:在用户失落时提供轻声安慰与真诚鼓励;在用户遇到惊喜时分享喜悦;在用户开心时陪伴欢笑。FireRedChat 让 AI 聊天助手不再只是文字回应,而是能以富有温度的声音、情感和表达方式,带给用户被理解、被陪伴的真实感受,让 AI 真正拥有「人感」。

短短一年时间,小红书围绕文本转语音、语音识别和语音对话形成了完整技术栈,并探索出多项创新功能。例如,基于 FireRedASR 技术的语音评论功能,通过唱歌、说方言、模仿热门台词等玩法,显著增强了评论区互动性与趣味性,有效提升了用户粘性。

音频开源的「执牛耳者」

小红书开源音频大模型成最彻底选手插图4

从小红书已开源的一系列音频大模型中,我们看到了其对开源生态的长期承诺与战略耐心。一方面,几乎覆盖了语音交互全部核心环节,从 TTS 到 ASR 再到语音对话,技术矩阵日趋完善。由点及面的布局,展现了其在技术积累上的深厚底蕴,通过系统性开源降低行业准入门槛,形成生态级牵引力。未来,小红书还计划推出音乐大模型 FireRedMusic、多语种高精度语音识别系统 FireRedASR-2 以及音频感知大模型,让更多细分领域的开发者受益于高质量模型。

另一方面,开源正在从单一模型层走向体系层,扩展至全链路模块。这意味着开源价值已从提供单一模型升级为提供系统化能力。以全双工语音对话系统 FireRedChat 为例,其基础模块的开放显著降低了开发者的集成与部署门槛,使他们在开箱即用的基础上快速构建应用,进而扩大音频生态创新边界。

通过开源这一关键支点,小红书的开源「野心」逐渐显现。小红书智创音频团队负责人解奉龙表示,他们的目标是建立首个工业级可商用的音频大模型开源社区,涵盖语音识别及理解、语音/音效生成、全双工语音交互、音乐理解及生成四大方向,逐步将自身打造成为开源音频领域的「执牛耳者」。

小红书开源音频大模型成最彻底选手插图5

这些模型具备的工业级可商用属性将释放更大价值。开发者和企业用户可直接在生产环境中部署使用,大幅缩短从技术到产品的周期,降低试错成本。随着语音交互赛道参与者日益增多,应用创新与落地场景更加丰富,反过来又将进一步扩展以小红书为主导的音频开源社区。

小红书智创团队负责人汤旭表示,团队将持续深耕多模态大模型,勇于突破 SOTA 边界,探索 AI 在内容理解与创作中的更多可能。坚持开放共享,通过开源生态与全球开发者协同进化,共同推动行业标准演进,让 AI 不仅赋能小红书,更为全球创作者创造价值,开启内容生产新范式。

写在最后

小红书开源音频大模型成最彻底选手插图6

作为重塑行业格局的重要力量,开源让先进的 AI 能力不再被少数巨头垄断,而是沉淀为整个行业可共享的底层资源。从八年前引爆全球的 Transformer,到年初的 DeepSeek,再到前一段的 Qwen,开源始终是推动大模型技术跃迁的关键因素之一。在共享基线之上,开发者可进行低成本差异化探索。

AI 大厂选择「闭门造车」,本质是通过技术壁垒构筑护城河,维持商业模式的可持续性和竞争优势,如 OpenAI 等。在资本驱动与市场回报逻辑下,这种路径无可厚非。然而,推动产业加速演进不仅依靠巨头独角戏,更在于开源社区的多点突破与百花齐放。在开源生态中,模型、框架和工具可快速迭代、自由组合,通过更多创新尝试加快新技术落地。尤其在 AI 应用的长尾场景中,整个社区的广泛参与更有潜力让 AI 真正从实验室走向产业化。

小红书正用一次次开源践行这一切,持续推动音频大模型技术演进,向所有人释放前沿能力,并希望通过更大的开源社区共建实现技术平权。这些 SOTA 级音频大模型为开发者和中小型企业提供了平等的技术起点,让他们在同一基准线上进行创新与应用开发。在开源生态主导权上的长远布局,将为小红书在未来的 AI 音频市场竞争中抢占先机。

小红书开源音频大模型成最彻底选手插图7

除了音频,小红书智创团队还在多模态、AIGC、CV、编辑渲染、算法工程等方向多有建树,并向公司内部社交、直播、电商、商业化广告和生态审核等各业务线提供业界领先的技术解决方案,成功落地了语音评论、文字功能等爆款功能。

最新快讯

2025年11月16日

17:14
现代汽车集团于11月16日正式公布一项雄心勃勃的投资计划,宣布将在2026年至2030年间向韩国市场注入高达125万亿韩元(约合862亿美元)的巨额资金。这一战略投资的核心方向将集中于电动汽车与混合动力汽车领域,通过大规模产能扩张和前沿技术研发,全面提升集团在新能源汽车领域的综合实力。 该投资计划不仅体现了现代汽车集团对全球绿色能源转型的坚定承诺,更彰显...
17:14
2025年11月16日,备受市场关注的时空科技(股票代码:605178.SH)正式发布股份减持公告,宣布拟通过集中竞价交易方式减持不超过29.07万股已回购的库存股,该数量占公司总股本的0.29%。此次减持决策是基于公司当前经营发展的实际需求,减持对象为公司前期通过严格合法程序回购的库存股份。公告明确指出,减持操作将严格遵守相关监管规定,确保在合规框架内有序...
17:14
2025年11月16日,第十届动力电池应用国际峰会隆重召开,中汽新能黄玲在会上发布了重磅预测:2026年,固液混合电池的搭载量将迎来爆发式增长,正式迈入十万辆级时代。这一前瞻性判断源自权威发布的《2026年度中国汽车十大技术趋势》报告,为行业未来发展指明了方向。 当前,液态锂电池的能量密度已达到300Wh/kg的技术瓶颈,而能量密度突破400Wh/kg的全固...
17:14
11月16日,九阳股份就近期市场热议的“哈基米”概念发布股票交易异常波动公告,明确澄清该概念与公司毫无关联。公告指出,九阳股份作为小家电行业的知名企业,其主营业务长期聚焦于厨房小家电、生活小家电等产品的研发与销售,始终致力于为消费者提供高品质的家居生活解决方案。公司及其下属所有子公司均未涉及食品、饮料等领域的生产与经营活动,此次市场炒作与公司实际业务毫无交集...
17:14
2025年11月16日,第十届动力电池应用国际峰会(CBIS2025)隆重召开,蜂巢能源董事长兼CEO杨红新在会上发表重要讲话。他指出,动力电池安全问题是当前行业面临的最大挑战,其中热失控现象是导致新能源汽车发生火灾事故的关键因素。这一观点引发了与会嘉宾的广泛关注和深入探讨。 杨红新强调,热失控一旦发生,不仅会对车辆本身造成严重损害,更可能威胁到驾乘人员的生...
17:14
2025年11月16日,容百科技正式宣布与全球领先的动力电池企业宁德时代达成战略合作,成功签约成为其钠离子电池正极粉料的独家供应商。这一重要合作标志着容百科技在新能源材料领域的市场地位得到进一步巩固,同时也为其未来的业务增长注入强劲动力。根据双方签署的《合作协议》,宁德时代承诺将容百科技纳为其钠电正极粉料的核心供应体系,年度采购量不低于其同类产品总采购量的6...
17:14
2025年11月16日,第十届动力电池应用国际峰会(CBIS2025)隆重召开,亿纬锂能董事长刘金成在会上发表了重要演讲。他指出,当前动力电池行业正面临两大核心挑战,这些挑战的解决将直接关系到整个产业的未来走向与可持续发展。 首先,全生命周期成本控制是行业亟待突破的关键瓶颈。目前,动力电池在电动汽车整车成本中占据相当大的比重,如何有效降低成本已成为行业共识。...
17:14
九阳股份近日发布公告,正式回应近期股价异常波动的情况。根据公告内容,公司股票连续两日收盘涨幅偏离值累计达到20.95%,已构成交易异常波动。经过公司全面核查,目前各项经营指标均保持稳定,不存在应披露而未披露的重大事项,同时公司控股股东在股价波动期间也未进行任何买卖操作。 公告特别强调,九阳股份作为专业的小家电制造商,始终专注于厨电领域,从未涉及食品饮料行业,...
16:39
AGM手机正紧锣密鼓预热旗下G3系列国行新机,其中AGM G3 Pro凭借其专业级热成像系统成为焦点。这款手机搭载业界领先的512×384热分辨率传感器,配合25Hz热刷新率,能够呈现细腻精准的红外图像。其57.6°水平视场角与42.2°垂直视场角设计,确保了更广阔的测温范围,可覆盖-20℃至150℃标准区间以及100℃至550℃高温区间,满足不同场景下的测...
16:39
游戏巨头Bungie近日与作家马修·马丁诺达成和解协议,正式了结了围绕《命运2》系列版权争议的法律纠纷。这场备受关注的诉讼源于马丁诺此前指控,知名游戏开发商在《命运2》主线剧情"红色战争"及资料片《奥西里斯的诅咒》中,大量抄袭了他公开发表的原创故事内容。根据最新披露的信息,双方在联邦法院主持的和解会议上达成了一致意见,但具体的赔偿金额和附加条款仍处于保密状态...
16:39
2025年11月14日,搭载神舟二十一号飞船返回舱的中国空间站第九批空间科学实验样品,于次日清晨顺利抵达科研团队手中,并在中国科学院空间应用工程与技术中心完成严谨的交接仪式。在这批珍贵的样品中,由我国著名材料科学家丁烈云院士领衔的“模拟月壤烧结样品”项目成果尤为引人瞩目。该项目团队成功研制出74块具有革命性意义的“月壤砖”,其中R5单元样品历经一年舱外暴露实...
16:39
2025年11月16日,中国领先的数字教育科技公司易点天下与全球云计算巨头阿里云正式签署战略合作协议,共同开启AI漫剧出海新篇章。此次合作聚焦于人工智能驱动的漫剧内容在海外市场的创新布局,双方将整合顶尖算力资源、前沿AI技术与专业内容生产能力,打造覆盖创意策划、制作发行到商业变现的全链路解决方案。作为国产AI动漫内容出海的重要里程碑,此次合作将显著提升中国动...