开源浪潮席卷 AI 社区:国内科技巨头掀起技术开放热潮

近年来,开源已成为 AI 领域备受瞩目的焦点议题。尤其在国内科技企业中,开源已逐渐成为技术创新与生态共建的主旋律。根据 Hugging Face 中文 AI 模型与资源社区最新数据显示,仅 2023 年七八月间,国内厂商便接连开源了 33 款和 31 款各类型大模型。这些开源成果主要集中在文本处理、图像识别、视频分析、推理系统、智能体以及世界模型等前沿领域,而音频生成领域的开源项目相对较少。

这一现象背后存在多重原因。首先,音频生成在技术实现上面临独特挑战,包括复杂的信号处理算法和海量数据采集需求。其次,出于知识产权保护和商业竞争考量,OpenAI、ElevenLabs 等行业巨头多采取闭源或半开源策略。然而,随着今年尤其是近期开源热潮的兴起,AI 音频领域正逐渐活跃起来。字节跳动 MegaTTS3、阿里 Qwen2.5-Omni-7B 与 CosyVoice3、月之暗面 Kimi-Audio、阶跃星辰 Step-Audio2 等国内头部企业和 AI 新势力纷纷加入开源行列。

小红书开源音频大模型成最彻底选手插图

在众多参与开源的国内企业中,来自小红书的技术团队自去年起便在音频领域保持着稳定的开源节奏。他们通过一系列创新成果,逐步构建起系统级音频能力,并以开放姿态向社区共享这些技术积累。这些成果既包括 FireRedTTS(文本转语音)系统,也包括 FireRedASR(语音识别)系统,两者在当时均取得了 SOTA(State-of-the-Art)级别的技术突破。

更值得关注的是,这些模型不仅实现了学术层面的突破,还具备工业级可商用属性。在关键性能指标上完全满足实际应用需求,并通过开放许可协议降低了商业化落地门槛。因此,发布后迅速吸引了大量 AI 社区研究者和开发者的关注与好评。众多用户在实际项目中直接部署并开展二次开发,其可用性和工程化潜力得到充分验证。

对于小红书而言,开放高质量音频模型不仅显著提升了其在细分赛道的技术影响力与话语权,更释放出一个明确信号:将开源作为长期战略进行系统性布局。通过持续的技术开放,小红书正在逐步构建起高粘性的音频大模型开源社区。

小红书开源音频大模型成最彻底选手插图1

就在近期,小红书智创音频团队(FireRed)又发布了多项重要开源成果,持续为开源社区注入 SOTA 级音频能力。系统级音频能力并非简单堆砌模型,而是需要跨越数据处理、基座系统与下游应用等多重技术门槛。无论是语音合成还是语音识别,都要求在延迟控制、准确率提升、自然度优化、真实感表现和鲁棒性增强等维度进行持续迭代。

小红书的音频大模型探索始于 2022 年 9 月开源的 FireRedTTS 语音合成系统。该系统构建了一套完整的基座语音合成框架,包含数据处理模块、基座模型训练系统以及下游应用适配层。通过将文本序列转换为自然富有表现力的语音序列,再利用上下文学习、监督微调等先进技术,高效服务于配音、自然对话等场景。其效果十分显著:只需一段给定文本和几秒参考音频,无需二次训练,即可模仿任意音色和说话风格,实现个性化定制,例如搞怪风、女友风等多样风格。

今年 2 月开源的 FireRedASR 在语音识别领域带来全新突破。这类技术广泛应用于智能语音交互(如语音助手)与多模态内容理解场景。该系列包含两个互补模型:FireRedASR-LLM 专注于极致语音识别精度,而 FireRedASR-AED 则在保证准确率的同时兼顾推理效率。在 AISHELL-1/2、WenetSpeech 等中文普通话测试集上,FireRedASR 的字错率(CER)达到 3.05%,显著优于豆包的闭源 ASR 方案 Seed-ASR(3.33%)和阿里通义最新发布的闭源 Qwen3-ASR-Flash(3.52%)。目前,该模型已在 GitHub 上收获 1.3k 星标,GitHub 地址:https://github.com/FireRedTeam/FireRedASR。

小红书开源音频大模型成最彻底选手插图2

延续 FireRedTTS 的 SOTA 表现,新一代 FireRedTTS-2 进一步针对现有语音合成方案的痛点进行优化,包括灵活性不足、发音错误、说话人切换不稳定和韵律不自然等问题。通过升级离散语音编码器和文本语音合成模型两大核心模块,为长对话语音合成提供了更优解决方案。FireRedTTS-2 架构概览展现了其创新设计。

FireRedTTS-2 主打上下文建模与多轮对话能力,在音色克隆、交互式对话和播客生成等多项测评中均实现行业领先,将开源模型在复杂音频场景的建模效果提升至新高度。音色克隆只需提供对话中发音人的语音样本,即可模仿其音色与说话习惯,自动生成后续整段对话;同时多说话人音色切换的稳定性和韵律自然度均处于开源模型 SOTA 水平,为火热的 AI 播客场景提供了工业级解决方案,一跃成为当前最强开源播客生成大模型。在 zero-shot 播客生成中,FireRedTTS-2 全面优于 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等开源竞品。目前,该模型支持 4 位说话人的多轮对话生成,还可通过扩展数据进一步支持更多说话人和更长时长,实现灵活适配。用户反馈显示,这款新模型已获得广泛认可。论文地址:https://arxiv.org/pdf/2509.02020,代码地址:https://github.com/FireRedTeam/FireRedTTS2。

另一大开源新成果是 FireRedChat——业内首个完全开源的全双工语音对话系统。该系统在智能判停与延迟等关键指标上达到开源 SOTA 水平,端到端性能已接近工业级水准。此次亮点在于:不仅提供完整模型,还一站式集成 VAD(语音活动检测)、ASR、TTS、上下文感知 TTS、音频 LLM、Dify 支持等核心模块,支持私有化部署。这在业内尚属首例,意味着即使非语音领域专业人士,也可直接克隆代码,快速部署语音助手,例如豆包的「打电话」语音对话助理。

小红书开源音频大模型成最彻底选手插图3

基于内置的情绪感知与情感合成能力,通过 FireRedChat 构建的 AI 不仅是功能机器人,更是一个「知冷暖、能共情、懂表达」的虚拟伙伴。它能细腻感知用户情绪变化:在用户失落时提供轻声安慰与真诚鼓励;在用户遇到惊喜时分享喜悦;在用户开心时陪伴欢笑。FireRedChat 让 AI 聊天助手不再只是文字回应,而是能以富有温度的声音、情感和表达方式,带给用户被理解、被陪伴的真实感受,让 AI 真正拥有「人感」。

短短一年时间,小红书围绕文本转语音、语音识别和语音对话形成了完整技术栈,并探索出多项创新功能。例如,基于 FireRedASR 技术的语音评论功能,通过唱歌、说方言、模仿热门台词等玩法,显著增强了评论区互动性与趣味性,有效提升了用户粘性。

音频开源的「执牛耳者」

小红书开源音频大模型成最彻底选手插图4

从小红书已开源的一系列音频大模型中,我们看到了其对开源生态的长期承诺与战略耐心。一方面,几乎覆盖了语音交互全部核心环节,从 TTS 到 ASR 再到语音对话,技术矩阵日趋完善。由点及面的布局,展现了其在技术积累上的深厚底蕴,通过系统性开源降低行业准入门槛,形成生态级牵引力。未来,小红书还计划推出音乐大模型 FireRedMusic、多语种高精度语音识别系统 FireRedASR-2 以及音频感知大模型,让更多细分领域的开发者受益于高质量模型。

另一方面,开源正在从单一模型层走向体系层,扩展至全链路模块。这意味着开源价值已从提供单一模型升级为提供系统化能力。以全双工语音对话系统 FireRedChat 为例,其基础模块的开放显著降低了开发者的集成与部署门槛,使他们在开箱即用的基础上快速构建应用,进而扩大音频生态创新边界。

通过开源这一关键支点,小红书的开源「野心」逐渐显现。小红书智创音频团队负责人解奉龙表示,他们的目标是建立首个工业级可商用的音频大模型开源社区,涵盖语音识别及理解、语音/音效生成、全双工语音交互、音乐理解及生成四大方向,逐步将自身打造成为开源音频领域的「执牛耳者」。

小红书开源音频大模型成最彻底选手插图5

这些模型具备的工业级可商用属性将释放更大价值。开发者和企业用户可直接在生产环境中部署使用,大幅缩短从技术到产品的周期,降低试错成本。随着语音交互赛道参与者日益增多,应用创新与落地场景更加丰富,反过来又将进一步扩展以小红书为主导的音频开源社区。

小红书智创团队负责人汤旭表示,团队将持续深耕多模态大模型,勇于突破 SOTA 边界,探索 AI 在内容理解与创作中的更多可能。坚持开放共享,通过开源生态与全球开发者协同进化,共同推动行业标准演进,让 AI 不仅赋能小红书,更为全球创作者创造价值,开启内容生产新范式。

写在最后

小红书开源音频大模型成最彻底选手插图6

作为重塑行业格局的重要力量,开源让先进的 AI 能力不再被少数巨头垄断,而是沉淀为整个行业可共享的底层资源。从八年前引爆全球的 Transformer,到年初的 DeepSeek,再到前一段的 Qwen,开源始终是推动大模型技术跃迁的关键因素之一。在共享基线之上,开发者可进行低成本差异化探索。

AI 大厂选择「闭门造车」,本质是通过技术壁垒构筑护城河,维持商业模式的可持续性和竞争优势,如 OpenAI 等。在资本驱动与市场回报逻辑下,这种路径无可厚非。然而,推动产业加速演进不仅依靠巨头独角戏,更在于开源社区的多点突破与百花齐放。在开源生态中,模型、框架和工具可快速迭代、自由组合,通过更多创新尝试加快新技术落地。尤其在 AI 应用的长尾场景中,整个社区的广泛参与更有潜力让 AI 真正从实验室走向产业化。

小红书正用一次次开源践行这一切,持续推动音频大模型技术演进,向所有人释放前沿能力,并希望通过更大的开源社区共建实现技术平权。这些 SOTA 级音频大模型为开发者和中小型企业提供了平等的技术起点,让他们在同一基准线上进行创新与应用开发。在开源生态主导权上的长远布局,将为小红书在未来的 AI 音频市场竞争中抢占先机。

小红书开源音频大模型成最彻底选手插图7

除了音频,小红书智创团队还在多模态、AIGC、CV、编辑渲染、算法工程等方向多有建树,并向公司内部社交、直播、电商、商业化广告和生态审核等各业务线提供业界领先的技术解决方案,成功落地了语音评论、文字功能等爆款功能。

最新快讯

2025年11月16日

19:40
OPPO官方宣布,Reno15宋雨琦限定款手机将于明日正式发售。这款基于"星光蝴蝶结"配色打造的特别版本全球限量23台,每台均带有专属编号与镌刻符号。该限定款仅提供16GB+1TB顶配规格,延续了Reno系列对工艺美学的极致追求。据悉,OPPO Reno15系列新品发布会已定档11月17日举行。根据此前披露的信息,该系列将配备1.5K直屏与6500mAh大...
19:40
一项基于LOFAR射电望远镜网络的最新研究显示,太阳系在宇宙中的运动速度可能超过现有理论预测值三倍以上。德国比勒费尔德大学团队通过高精度测绘射电星系分布,发现其空间各向异性强度达标准宇宙学模型预测的3.7倍。由于射电波能穿透星际介质,成为测量宇宙大尺度结构的理想探针,而独立的红外类星体观测也得出相近结果,增强了该发现的可信度。研究人员指出,这一偏差或源于对...
19:08
2025年11月16日,深圳证券交易所上市公司创业慧康(股票代码:300451)发布一则备受市场关注的控制权变更公告。公告显示,公司股东葛航计划将其持有的6.23%股份协议转让给杭州更好智投公司,同时委托其行使10.06%的表决权。这一系列操作迅速引发连锁反应,同日,私募机构锦福源私募也将持有的2.58%表决权委托给杭州更好智投,使其合计持股比例达到12.6...
19:08
2025年全球服装市场将迎来历史性发展机遇,市场规模预计突破1.84万亿美元大关。这一重要数据由中国纺织工业联合会会长孙瑞哲在11月16日于广东东莞虎门镇举行的2025世界服装大会上正式揭晓。随着产业规模持续扩张,服装行业对全球GDP的贡献率将显著提升,预计届时将占据1.6%的比重,成为全球经济版图中不可忽视的重要板块。 此次大会以"时尚赋能全球发展"为主题...
19:08
2025年11月16日,中伟新材(股票代码:02579)正式公布其全球发售配发结果,引发资本市场广泛关注。此次全球发售规模达1.04亿股,每股发售价定为34港元,整体表现远超预期。香港公开发售环节更是出现27.9倍的超高认购倍数,国际发售亦获得4.08倍的热烈响应,最终全球发售净筹资金额高达34.33亿港元,充分彰显了市场对中伟新材的强烈信心。 本次全球发售...
19:08
AlphaSense最新研究报告揭示了一项令人震惊的趋势:今年已有418家市值超过10亿美元的上市公司在向美国证券交易委员会提交的年度文件中明确提及人工智能相关风险,这一数字较去年激增46%,更是2023年水平的九倍。这些企业通过年度报告发出的警示,揭示了人工智能可能带来的多重威胁,包括但不限于生成具有偏见的信息、破坏关键数据安全以及侵犯知识产权等风险,这些...
19:08
2025年11月16日,备受瞩目的第十七届海峡两岸茶业博览会在福建武夷山盛大启幕。本届展会以"‘三茶’统筹·融合发展"为核心主题,汇聚了来自全国乃至全球的850多家优质茶企参展,其中台湾企业达173家,较上届增长14.3%,充分彰显了两岸茶产业的紧密联系。特别设置的台湾馆占地200个展位,较往届大幅扩展,成为展示台湾茶文化的重要窗口。 展会精心规划四大主题展...
19:08
2023年11月14日,恒星科技传来振奋人心的消息,其全资子公司赤峰市永金矿业有限公司成功获得了赤峰市自然资源局颁发的《不动产权证书(采矿权)》。这一重要里程碑不仅意味着公司正式取得了龙头山金矿的合法开采资格,更为其在贵金属领域的战略布局增添了浓墨重彩的一笔。 据悉,赤峰市永金矿业有限公司龙头山金矿位于内蒙古赤峰市,地理位置优越,资源潜力巨大。该矿山的主要开...
18:28
布鲁金斯学会最新发布的研究报告揭示了一个令人深思的现象:人工智能的迅猛发展可能正在酝酿一场工资水平的“繁荣—衰退”周期。在技术应用的初期阶段,人工智能通过显著提升生产效率,为企业创造更多利润空间,进而推动员工薪酬的稳步增长。然而随着自动化技术的不断渗透和普及,越来越多的智力型工作岗位被机器所取代,导致大量劳动者不得不转向附加值相对较低的体力劳动领域,例如建筑...
18:28
2025年11月16日,雷军通过微博平台连发多篇动态,就小米汽车的安全设计理念进行郑重重申。他在系列发文中明确指出,尽管在去年4月的某次访谈中曾提及"好看是第一位的",但这一表述必须置于完整语境中理解,绝不能被断章取义。雷军以坚定语气强调:"安全是基础、安全是前提",并郑重声明"安全高于一切"。针对网络上出现的对其言论的片面解读和恶意歪曲,他予以严肃澄清,称...
18:28
2025年11月16日,Bilibili平台盛大举办第八届国创动画作品发布会,正式官宣将推出40部备受期待的2025-2026年度国创动画作品。作为国内领先的文化社区,B站自2018年启动国创扶持计划以来,已累计上线超3000部优质国创内容,构建起庞大的动画生态体系。数据显示,过去一年用户观看国创内容的总时长接近9.7亿小时,这一数字充分印证了国创内容的强大...
18:28
2025年11月16日,三星集团正式公布一项雄心勃勃的五年投资计划,承诺向韩国本土注入高达450万亿韩元(约合3100亿美元)的巨额资金,旨在全面提升其在半导体、电池和显示面板三大核心领域的产能规模。这一战略举措不仅涵盖了对现有研发体系的强化升级,更将同步推进一系列新生产线的建设,以巩固其在全球科技市场的领先地位。 据悉,三星电子将在平泽第2工厂新建的第5条...