字节跳动Seed团队重磅发布其最新研发成果——Seed LiveInterpret 2.0端到端同声传译大模型,这一突破性进展标志着机器同声传译技术迈入全新纪元。该模型不仅实现了接近专业同传译员水平的翻译准确率,更将延迟时间压缩至惊人的3秒,同时具备实时声音复刻功能,能够精准还原说话者的音色特质,极大地提升了跨语言交流的自然度和沉浸感。

同声传译作为翻译领域的巅峰技能,要求译者在极短的时间内完成语言转换,边听边说,这对翻译技术研究者而言始终是一项巨大挑战。Seed LiveInterpret 2.0的出现,不仅在中英同传翻译质量上达到了业界顶尖水平(SOTA),更实现了前所未有的低语音延迟,为同声传译领域树立了新的技术标杆。该模型基于全双工端到端语音生成理解框架,支持中英互译,并能实时处理多人语音输入,如同人类同传译员一般以极低的延迟“边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。此外,该模型还支持零样本声音复刻,无需提前采集声音样本,仅通过实时对话即可合成“原声”语音翻译,让沟通更加流畅自然。

在测试中,Seed LiveInterpret 2.0展现了惊人的能力。面对40秒的大段中文表达,该模型能够低延迟地丝滑输出同款音色的英语翻译。不仅如此,它还能快速学习音色,无论是《西游记》里的猪八戒,还是《红楼梦》中的林黛玉,即便此前未“听”过角色的声音,依然能通过实时交互进行现场演绎,令人惊叹。

相比传统机器同传系统,Seed LiveInterpret 2.0在多个方面展现出显著优势。首先,它具备接近真人同传的翻译准确率,精准的语音理解能力保障了翻译准确度,在多人会议等复杂场景中英双向翻译准确率超70%,单人演讲翻译准确率超80%,接近真人专业同传水平。其次,其极低延迟的“边听边说”能力采用全双工语音理解生成框架,翻译延迟可低至2-3秒,较传统机器同传系统降低超60%,实现了真正的“边听边说”翻译。此外,零样本声音复刻功能让模型能够以说话人的音色特质实时“说出”外语,提升交流的沉浸感和亲和力。最后,该模型还能智能平衡翻译质量、延迟和语音输出节奏,根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性,即使面对超长信息,也能保证传译语音节奏的自然流畅。

字节跳动Seed LiveInterpret 2.0发布 端到端同传模型突破技术巅峰插图

在专业人工评测中,Seed LiveInterpret 2.0的表现尤为突出。评测基于RealSI数据集,这是一个包含中英双向各10个领域的公开测试集。人工评测团队以传达有效信息的占比(Valid Information Proportion)为指标,在中英方向上测试了包括Seed LiveInterpret 2.0在内的多个业界领先的同传系统。评测结果显示,在语音到文本的同传任务中,Seed LiveInterpret 2.0中英互译平均翻译质量的人类评分达到74.8(满分100,评估译文准确率),较排名第二的基准系统(47.3分)超出58%。在语音到语音中英同传任务中,仅3个测评的翻译系统支持该能力,其中Seed LiveInterpret 2.0中英互译平均翻译质量达到66.3分(满分100,除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标),远超其他基准系统,达到接近专业真人同传的水平。同时,大部分基准系统也不支持声音复刻功能。在延迟表现上,Seed LiveInterpret 2.0在语音到文本场景中,输出首字平均延迟仅2.21秒,在语音到语音场景中,输出延时仅2.53秒,做到了对翻译质量以及时延的均衡。

Seed LiveInterpret 2.0的技术突破不仅为跨语言交流带来了革命性变化,更展现了字节跳动在人工智能领域的深厚实力。该模型的技术报告已发布于https://arxiv.org/pdf/2507.17527,项目主页位于https://seed.bytedance.com/seed_liveinterpret,欢迎业界人士进一步了解和探索这一创新成果。

最新快讯

2025年11月08日

01:28
2025年11月8日,科技巨头IBM正式宣布成功晋级美国国防高级研究计划局(DARPA)量子基准试点项目的第二阶段。这一备受瞩目的项目由DARPA主导发起,其核心目标在于构建一套科学严谨、全球通用的量子计算机性能评估标准体系。作为该项目的核心合作伙伴,IBM将充分发挥其在量子硬件研发和软件工程领域的领先优势,深度参与新型基准测试工具的设计开发与实证验证工作。...
00:58
2025年11月7日,全球领先的私募股权机构KKR发布重要声明,正式澄清市场对其投资组合风险的误解。针对近期市场对First Brands和TriColor公司可能存在的风险敞口传闻,KKR明确表示这两家企业均不在其投资组合之内。该机构强调,经过全面核查,上述两家公司从未被纳入KKR旗下任何基金的持仓范围,公司当前的投资项目中不存在任何相关风险敞口。此次主动...
00:58
2025年11月7日,比尔·盖茨基金会首席执行官正式宣布了一项雄心勃勃的计划,将在未来四年内投入高达14亿美元的巨额资金,专项用于帮助全球范围内的小农户有效应对极端天气带来的严峻农业挑战。这一计划的核心目标是通过尖端技术创新、推广气候智能型农业模式以及提供全面的资源支持,全面提升发展中国家农民抵御自然灾害的能力和粮食生产能力。据悉,这笔资金将重点用于三大领域...
00:58
2025年前三季度,湖北省集成电路产业展现出强劲的发展势头,整体营收成功突破千亿元大关,同比增长率超过30%,这一成绩彰显了该产业的蓬勃活力与巨大潜力。作为中部地区集成电路领域的领头羊,湖北正以坚实的步伐引领着区域科技经济的发展浪潮。 该产业覆盖范围广泛,不仅包括高端芯片等核心制造环节,更形成了从芯片设计、晶圆制造、封装测试到关键材料供应、专用设备研发以及终...

2025年11月07日

23:56
科技媒体Windows Latest最新披露,微软正在对Windows 11系统进行一项重要调整,将"连接手机"应用中查看手机照片的核心功能迁移至文件资源管理器。这一决策背后,微软给出了明确的优化逻辑——通过整合系统资源,消除功能冗余,从而为用户带来更流畅、更统一的操作体验。值得注意的是,微软已经通过系统通知机制,提前告知用户这一功能迁移计划,确保用户能够顺...
23:25
2025年11月7日,生物制药企业诺思兰德正式宣布,其自主研发的1类新药NL005项目Ⅱc期临床试验方案已进入最终敲定阶段。这款创新药物聚焦于心肌保护机制,旨在显著降低心肌梗死患者接受再灌注治疗后的损伤风险。值得注意的是,目前全球范围内尚无同类有效的治疗药物问世,NL005的问世有望填补这一重大临床空白,展现出巨大的临床价值与广阔的市场潜力。 作为一款基于全...
23:25
2025年11月7日,农业农村部正式发布《智慧农业标准体系建设指南》,为我国智慧农业发展擘画了清晰的蓝图。这份具有里程碑意义的文件明确提出,到2030年将基本建成一套完整、先进且开放融通的智慧农业标准体系,全面覆盖基础通用标准以及关键技术与应用领域标准,为智慧农业的蓬勃发展提供坚实支撑。 该标准体系将重点服务于智慧农(牧、渔)场建设、技术装备测试认证以及推广...
23:25
2025年10月,龙湖集团合约销售额再创新高,达到50亿元人民币,展现出稳健的市场表现。今年前10个月,公司累计合约销售额已突破550亿元大关,达到557.5亿元人民币,整体销售态势保持稳定增长。这一亮眼成绩充分彰显了龙湖集团在复杂市场环境下的卓越应变能力,通过持续优化项目布局和强化销售策略,有效推动了项目去化和资金回笼,为公司的长期发展奠定了坚实基础。
23:25
2025年11月7日,江苏宿迁中和东线新能源49.8兆瓦电网侧储能电站正式并网投运,标志着江苏省在新能源储能领域迈出重要一步。作为省内首个区域分散式电网侧储能项目,该电站的建成投用将为解决风电、光伏等新能源快速发展带来的消纳难题提供创新方案。 宿迁市新能源发展势头强劲,截至2025年10月底,全市新能源装机容量已达到665.2万千瓦,占全市总装机容量的近八成...
23:25
2025年11月7日,一则引人注目的金融交易消息在业界引发热议。据可靠消息源透露,美国知名私募基金TPG已正式向意大利Nexi SpA提交了一份具有法律约束力的收购要约,目标直指该公司旗下的核心数字银行解决方案部门。根据初步披露的数据,TPG计划斥资约10亿欧元(折合11.5亿美元)完成这笔战略性收购,这一金额不仅体现了TPG对数字银行技术的高度重视,更彰显...
23:25
苹果美国官网近日出现明显标价错误,4件装AirTag售价仅为29美元,与单个装价格相同,较原价99美元大幅降低,相当于三折优惠。科技媒体9To5Mac指出,这极可能是一次罕见的系统乌龙。苹果在海外市场极少对硬件产品进行官方折扣,即便新品发布旧款也难降价,第三方平台同类产品最低亦在60美元以上。目前该商品仍可下单,但据推测,一旦苹果发现错误,相关订单 lik...
23:25
暴雪娱乐正式宣布,《魔兽世界》“至暗之夜”资料片将推出全新虚拟货币体系——"炉缸"。这一创新机制的核心目标在于优化玩家获取装饰性物品的流程,同时为交易环节注入更可靠的财务保障。值得注意的时,该货币可通过战网余额或热门的WoW代币进行兑换,但兑换后的用途将受到严格限制,仅可用于购买特定类别的非游戏进程影响型商品。暴雪方面强调,这一举措并不会动摇游戏内原有的奖励...