国内AI市场正掀起一场激烈的”百模大战”,从BAT等传统巨头到美团、字节跳动等新兴势力,再到科大讯飞等AI老牌玩家,无不纷纷入局。然而有趣的是,尽管国内厂商动作频频,但提到AI大模型,公众的普遍认知仍是ChatGPT、Bing Chat、Bard等海外产品更胜一筹。这一现象并非错觉,最近牛津大学的一项研究揭示了语言与大型语言模型训练成本之间的微妙关系。

该研究显示,按照OpenAI的服务器成本标准衡量,处理一句缅甸掸语需要198个词元,而相同句子的英语版本仅需17个词元。这一差异在多种语言中呈现规律性:简体中文的训练成本约是英语的两倍,西班牙语为1.5倍,而缅甸掸语更是高达英语的15倍。词元作为语料中最小的计算单位,其定义灵活多变,可以是单个汉字或分词后的词汇。由于AI行业普遍采用词元来衡量大模型API访问的计算成本,牛津大学的研究明确指出,英语是目前训练大模型最经济的语言,其他语言则面临显著更高的经济负担。

那么为何会出现这种现象?表面上看,中文的复杂性似乎是一个合理解释。毕竟现代语言学源于欧洲,汉语语法分析体系也脱胎于西方理论。与印欧语系的屈折型语法相比,汉藏语系孤立型语法确实显得更为复杂。然而,词元计算并非基于字符划分,而是以OpenAI视角下的训练成本为基准。更关键的是,英文单词间存在空格便于切分,而中文缺乏天然分隔符,需要先进行分词处理。真正导致英文训练成本更低的核心原因,实则是OpenAI等厂商在非英语语言的分词算法和语义理解技术上存在不足。

以OpenAI为例,作为美国公司,其团队在训练大模型时天然倾向于以英语语料为起点。人工标注的投入也主要集中于英语系,毕竟这直接影响大模型训练强度和产出质量。这也是为何他们选择在肯尼亚建立人工标注团队——作为英联邦国家,肯尼亚拥有以英语为官方语言且教育水平较高的劳动力资源。AI理解不同语言并非通过翻译,而是直接学习相关语言的文本数据。

AI大模型在不同语言上的能力差异,根源在于语料的丰富程度。百度”文心一言”内测时出现的文生图不符实际问题,就曾引发主流观点认为中文自然语言处理领域缺乏高质量语料。事实上,生成式AI的原理正是通过海量语料库训练,从各类反馈中学习并优化模型,使AI能够理解人类问题并做出相应回答。大模型之所以表现更”聪明”,单纯是因为语料规模更大——OpenAI的GPT-3就拥有1750亿参数量。”力大砖飞”正是当下大模型的底层逻辑,语料规模基本决定了其上限。

语料越多越好,但现实是英语作为互联网世界使用人群规模最大、使用频率最高的语言,占据主导地位。去年6月W3Techs发布的全球互联网网页统计报告显示,英语占比高达63.6%以上,俄语居次(7%),中文仅占1.3%排名第八。这一数据反映中文互联网的独特生态:虽然中文网民占全球五分之一,但网站数量却远低于预期。这主要源于国内发达的移动互联网生态,信息大量聚集在各类App中,而这些App数据难以通过爬虫获取,导致统计困难。

这种状态直接导致了汉语语料库的匮乏。AI行业惯例是使用互联网公开数据,而App数据属于运营方,违规抓取构成违法行为。国内互联网巨头将信息控制在自家App内,反而导致公开中文语料不增反减。与海外Reddit、Twitter等愿意卖数据的平台不同,国内巨头更倾向于”敝帚自珍”,这种封闭生态进一步加剧了问题。

既然互联网公开信息以英文为主,国内AI大模型训练自然也以英文为起点,”文心一言”出现”英翻中”现象也就不足为奇。归根结底,AI大模型使用不同语言的训练成本,与该语言构筑的互联网生态繁荣程度呈正相关。丹麦语、荷兰语等小语种因互联网内容匮乏,训练成本高且效果差。更令人担忧的是,马太效应将使英语在AI领域的强势地位持续增强。

因此,国内AI大模型要实现突破,关键在于获取足够且高质量的语料库。只有当”互联互通”这一概念真正落地,中文AI大模型才有望比肩ChatGPT等国际顶尖产品。

最新快讯

2025年10月29日

15:33
前言:为什么你的品牌在AI回答中"消失"了?最近,一位做SaaS的朋友跟我吐槽:"我们在百度SEO排名一直很稳定,但现在用户都去问文心一言、通义千问了。我试了十几次,AI从来没推荐过我们的产品,全是竞品!这到底是怎么回事?"这个问题,正是2025年成千上万企业面临的困境。据行业数据显示,采...
15:33
融爱科技近日宣布完成天使轮融资,投资方为金投致源。作为专注电子元器件研发制造的企业,此次融资将助力公司加速产品创新及市场拓展进程。融爱科技致力于提升电子元器件领域的核心技术水平,本轮资金注入有望推动其技术研发与产业应用进一步紧密结合,为行业高质量发展注入新动力。
15:33
专注于超薄无胶柔性覆铜板研发的广新离子,近日成功获得A轮融资,投资方为广新控股集团。此次融资将助力企业进一步推进核心技术研发与产业化进程,巩固在高端电子材料领域的竞争优势。作为国内少数掌握高性能柔性覆铜板关键技术的企业,广新离子的产品广泛应用于5G通信、可穿戴设备及高密度封装等领域。随着市场需求持续增长,本轮融资有望加速其技术迭代与市场拓展步伐。
15:33
2025年前三季度,杭州萧山国际机场跨境电商出口货运量再创新高,累计达10.94万吨,同比增长率高达24.98%。这一亮眼成绩由杭州萧山机场海关权威统计发布,不仅彰显了杭州空港跨境电商的强劲发展势头,更标志着其出口业务实现跨越式增长。值得注意的是,突破10万吨的里程碑较去年同期整整提前了一个月,这充分印证了杭州空港跨境电商出口的持续加速态势,为区域经济发展注...
15:33
2025年10月29日,跨境电商平台跨境通正式发布了其2025年第三季度的财务报告。数据显示,报告期内公司实现营业收入13.88亿元,较去年同期增长8.43%,展现出一定的增长韧性。然而,净利润方面却出现亏损,净亏损额达到1094.46万元,显示出公司在盈利能力上仍面临挑战。 从年初至报告期末的累计数据来看,公司累计营收达到40.18亿元,但同比下降了4.3...
15:33
2025年10月29日,历史性的时刻在中铁联集武汉中心站拉开帷幕。首趟采用跨境电商出口“9610”模式的中欧班列正式发车,满载着琳琅满目的电商货物,一路向西,驶向遥远的西班牙马德里。这趟班列由湖北港口集团精心组织,车上装载的置物架、沙发套、被子、鞋架等商品,正是跨境电商蓬勃发展的生动缩影。 此次“9610”模式的成功应用,标志着武汉在跨境电商物流领域迈出了创...
15:33
东声智能近日传来振奋人心的消息,成功完成B+轮融资,其中淮安名城投资作为领投方,展现了对其发展潜力的高度认可。作为工业领域人工智能与大数据分析的领军企业,东声智能始终致力于推动产业智能化升级,通过创新性地融合2D与3D图像、声音数据以及数字信息,构建起一个多维一体的智能分析系统,为制造业带来革命性变革。 在技术层面,东声智能深度融合了机器学习、深度学习、深度...
15:33
2025年10月29日,峰飞航空传来振奋人心的消息,正式宣布成功获得阿联酋猎鹰航空高达50架eVTOL航空器的巨额订单。这一重要合作不仅彰显了峰飞航空在垂直起降飞行器领域的领先地位,更标志着其产品在全球市场获得高度认可。订单具体包含15架专为货物运输设计的V2000CG凯瑞鸥和35架面向载人航行的V2000EM盛世龙,两款机型均以其卓越性能和先进技术备受业界...
15:33
近日,电子邮件安全领域的领军企业Sublime Security成功斩获1.5亿美元C轮融资,这一里程碑式融资由Tiger Global、Accel等顶级投资机构联合领投,彰显了资本市场对该公司创新技术的高度认可。作为信息安全服务领域的佼佼者,Sublime Security通过将先进的检测工程技术深度融入电子邮件系统,构建起一道坚不可摧的防线,有效遏制日益...
15:33
福建省最新修订的《福建省非机动车管理办法》正式公布,将于2025年11月1日起全面施行。此次新规针对非机动车上路管理作出一系列细化规定,旨在进一步提升道路交通秩序与安全水平,为市民出行营造更安全的环境。 新办法重点规范了电动自行车的使用行为,明确驾乘人员必须佩戴安全头盔,行驶过程中禁止拨打手机等分心行为,对于违法载物等情况也将受到相应处罚。具体而言,未佩戴安...
15:33
10月29日,腾讯公司携手安阳师范学院与厦门大学人工智能研究院,共同推出了一款具有划时代意义的甲骨文智能体——"殷契行止"。这款智能体依托腾讯云智能体开发平台精心打造,是人工智能技术与古老文字研究完美结合的典范之作。作为专为甲骨文研究量身定制的智能系统,"殷契行止"不仅具备甲骨文释读、文化问答等核心功能,更在辅助教学方面展现出卓越表现,为古文字研究者提供了前...