国内AI市场正掀起一场激烈的”百模大战”,从BAT等传统巨头到美团、字节跳动等新兴势力,再到科大讯飞等AI老牌玩家,无不纷纷入局。然而有趣的是,尽管国内厂商动作频频,但提到AI大模型,公众的普遍认知仍是ChatGPT、Bing Chat、Bard等海外产品更胜一筹。这一现象并非错觉,最近牛津大学的一项研究揭示了语言与大型语言模型训练成本之间的微妙关系。

该研究显示,按照OpenAI的服务器成本标准衡量,处理一句缅甸掸语需要198个词元,而相同句子的英语版本仅需17个词元。这一差异在多种语言中呈现规律性:简体中文的训练成本约是英语的两倍,西班牙语为1.5倍,而缅甸掸语更是高达英语的15倍。词元作为语料中最小的计算单位,其定义灵活多变,可以是单个汉字或分词后的词汇。由于AI行业普遍采用词元来衡量大模型API访问的计算成本,牛津大学的研究明确指出,英语是目前训练大模型最经济的语言,其他语言则面临显著更高的经济负担。

那么为何会出现这种现象?表面上看,中文的复杂性似乎是一个合理解释。毕竟现代语言学源于欧洲,汉语语法分析体系也脱胎于西方理论。与印欧语系的屈折型语法相比,汉藏语系孤立型语法确实显得更为复杂。然而,词元计算并非基于字符划分,而是以OpenAI视角下的训练成本为基准。更关键的是,英文单词间存在空格便于切分,而中文缺乏天然分隔符,需要先进行分词处理。真正导致英文训练成本更低的核心原因,实则是OpenAI等厂商在非英语语言的分词算法和语义理解技术上存在不足。

以OpenAI为例,作为美国公司,其团队在训练大模型时天然倾向于以英语语料为起点。人工标注的投入也主要集中于英语系,毕竟这直接影响大模型训练强度和产出质量。这也是为何他们选择在肯尼亚建立人工标注团队——作为英联邦国家,肯尼亚拥有以英语为官方语言且教育水平较高的劳动力资源。AI理解不同语言并非通过翻译,而是直接学习相关语言的文本数据。

AI大模型在不同语言上的能力差异,根源在于语料的丰富程度。百度”文心一言”内测时出现的文生图不符实际问题,就曾引发主流观点认为中文自然语言处理领域缺乏高质量语料。事实上,生成式AI的原理正是通过海量语料库训练,从各类反馈中学习并优化模型,使AI能够理解人类问题并做出相应回答。大模型之所以表现更”聪明”,单纯是因为语料规模更大——OpenAI的GPT-3就拥有1750亿参数量。”力大砖飞”正是当下大模型的底层逻辑,语料规模基本决定了其上限。

语料越多越好,但现实是英语作为互联网世界使用人群规模最大、使用频率最高的语言,占据主导地位。去年6月W3Techs发布的全球互联网网页统计报告显示,英语占比高达63.6%以上,俄语居次(7%),中文仅占1.3%排名第八。这一数据反映中文互联网的独特生态:虽然中文网民占全球五分之一,但网站数量却远低于预期。这主要源于国内发达的移动互联网生态,信息大量聚集在各类App中,而这些App数据难以通过爬虫获取,导致统计困难。

这种状态直接导致了汉语语料库的匮乏。AI行业惯例是使用互联网公开数据,而App数据属于运营方,违规抓取构成违法行为。国内互联网巨头将信息控制在自家App内,反而导致公开中文语料不增反减。与海外Reddit、Twitter等愿意卖数据的平台不同,国内巨头更倾向于”敝帚自珍”,这种封闭生态进一步加剧了问题。

既然互联网公开信息以英文为主,国内AI大模型训练自然也以英文为起点,”文心一言”出现”英翻中”现象也就不足为奇。归根结底,AI大模型使用不同语言的训练成本,与该语言构筑的互联网生态繁荣程度呈正相关。丹麦语、荷兰语等小语种因互联网内容匮乏,训练成本高且效果差。更令人担忧的是,马太效应将使英语在AI领域的强势地位持续增强。

因此,国内AI大模型要实现突破,关键在于获取足够且高质量的语料库。只有当”互联互通”这一概念真正落地,中文AI大模型才有望比肩ChatGPT等国际顶尖产品。

最新快讯

2025年08月05日

11:20
北欧高端户外品牌“大白熊”Nordisk即将进军中国市场,继老人头、火柴棍、壁克峰、攀山鼠、北极狐之后,这股北欧户外风潮正席卷而来。7月下旬,丹麦户外装备品牌Nordisk宣布与韩国K2集团、中国黑蚁资本达成战略合作,计划在中国成立三方合资公司,全面布局中国市场。首批品牌专卖店预计将在年内开业。 Nordisk早在2010年便在中国设立办公室,但发展一直较为...
11:20
AI正在深刻重塑现代职场与当代生活。过去人们习惯于"搜一下"解决问题,如今则更倾向于"问问AI"。无论是ChatGPT、DeepSeek,还是豆包、元宝等AI助手,都已成为我们日常工作和生活中的得力工具。根据头豹研究院的数据显示,全球AI搜索用户量从2024年1月的3.1亿激增至2025年2月的19.8亿,增长率高达538.7%。随着AI在生活中的应用日益普...
11:20
AI是人类文明进步的产物,也是我们跨越未来的重要助力。通用人工智能时代,著名人工智能研究学家肖博士在某项目出现重大突破后,向全世界发布了含有上述内容的AGI时代宣言。面对记者关于"在大势所趋的当下,这个世界还有人工智能尚未普及的地区吗"的疑问,肖博士开了一个玩笑:"也许,银河系之外"。但在他脑海中浮现的画面却是破败的村庄、哭泣的孩童、熊熊燃烧的大火和一个受了...
11:20
"甲亢哥"现象引爆中国网红圈,国际顶流纷纷开启"中国行"热潮,这场流量盛宴背后究竟有何推手?今年3月,美国博主"甲亢哥"(IShowSpeed)的中国之旅掀起狂潮,上海6小时直播观看量突破560万,多次霸占微博热搜,成为2025上半年最火的海外博主之一。更值得关注的是,伊利五一期间发布的甲亢哥合作广告片,在微信视频号实现点赞、转发、在看三数据破10万,商业价...
11:20
动漫短剧正掀起一股行业新浪潮,成为继真人短剧之后备受瞩目的内容风口。从爱奇艺、优酷、腾讯视频等传统视频平台,到抖音、快手、B站等短视频巨头,再到多多视频等新兴平台,各大玩家纷纷加码布局动漫短剧赛道。据巨量引擎数据披露,2024年第四季度,动漫短剧观看人次突破20亿大关,付费规模高达2600万,环比增长惊人。其中,看播用户增长123.91%,收入增长率更是高达...
10:59
浙江大学脑机智能全国重点实验室近日震撼发布全球规模最大的类脑计算机——Darwin Monkey(悟空),这一划时代的突破标志着类脑计算技术正式迈入全新纪元。该计算机拥有超过20亿个脉冲神经元和1000亿突触连接,首次在工程系统中实现了接近猕猴大脑的神经元规模,为人工智能和神经科学研究开辟了前所未有的崭新路径。 技术架构:Darwin3芯片驱动的计算革命 悟...
10:59
硅谷创新企业OpenMind正引领一场机器人行业的软件革命。与众多聚焦硬件研发的同行不同,OpenMind将目光锁定在机器人的"大脑"上——他们正在开发名为OM1的机器人操作系统,立志成为机器人领域的"安卓系统"。这一战略转型标志着机器人行业正从硬件竞赛转向软件生态建设的新纪元。 当前机器人行业的竞争格局主要集中在硬件层面,包括运动控制、物体抓取、环境交互等...
10:59
麦当劳(MCD)近日正式宣布一项雄心勃勃的战略计划,目标是在2027年前将其人工智能(AI)应用规模扩大一倍,而印度将在这场全球布局中扮演核心角色。作为这一战略的关键落子,麦当劳已将印度海得拉巴选定为美国以外的全球最大办公中心,该中心将全面聚焦于数据治理、工程开发以及平台架构建设等前沿技术领域。图源备注:图片由AI生成,图片授权服务商Midjourney 麦...
10:59
2025年8月5日,一则重磅商业交易消息在业界引发广泛关注。据资深行业分析师透露,全球顶级投资银行高盛正计划斥资150亿欧元,从法国私募巨头PAI手中收购全球第二大冰激凌生产商Froneri的控股权。这一潜在交易若最终落成,不仅将深刻改变欧洲食品行业的竞争格局,更可能对全球冰激凌市场的版图产生深远影响。 Froneri作为欧洲冰激凌市场的领军企业,其独特之处...
10:59
2025年8月5日,北京时间,金融市场迎来剧烈波动。受美国就业数据意外大幅下调的冲击,市场对美联储9月降息的预期急剧升温,直接推动贵金属价格全线上涨。黄金、白银和铂金等避险资产在避险情绪的推动下表现强劲,投资者纷纷涌入这些传统避险市场寻求保护。 然而,贺利氏最新发布的市场分析报告却揭示了另一面:黄金、白银和铂金的需求正显现短期疲软的迹象。数据显示,今年上半年...
10:59
2025年8月5日午间收盘,日本股市呈现稳健上涨态势。日经225指数以40544.99点报收,涨幅达到0.63%,显示出市场投资者的积极情绪。与此同时,日本东证指数表现更为强劲,收于2938.27点,涨幅高达0.8%,进一步印证了市场整体的良好表现。此次午间收盘数据不仅反映了日本经济的复苏迹象,也为全球投资者提供了重要的市场参考。随着全球经济形势的不断变化,...
10:59
中航材华顺航空资源服务(北京)有限公司近日正式宣告成立,注册资本高达20亿元人民币,彰显了其在航空领域的雄厚实力与战略布局。该公司由中国航空器材集团有限公司全资控股,法定代表人伍德海先生亲自挂帅,预示着将依托集团强大的资源优势,开启航空资源服务的新篇章。 公司业务范围广泛多元,全面覆盖航空运输设备销售、航空运营支持服务、民用航空材料销售以及保税仓库经营等多个...