国内AI市场正掀起一场激烈的”百模大战”,从BAT等传统巨头到美团、字节跳动等新兴势力,再到科大讯飞等AI老牌玩家,无不纷纷入局。然而有趣的是,尽管国内厂商动作频频,但提到AI大模型,公众的普遍认知仍是ChatGPT、Bing Chat、Bard等海外产品更胜一筹。这一现象并非错觉,最近牛津大学的一项研究揭示了语言与大型语言模型训练成本之间的微妙关系。

该研究显示,按照OpenAI的服务器成本标准衡量,处理一句缅甸掸语需要198个词元,而相同句子的英语版本仅需17个词元。这一差异在多种语言中呈现规律性:简体中文的训练成本约是英语的两倍,西班牙语为1.5倍,而缅甸掸语更是高达英语的15倍。词元作为语料中最小的计算单位,其定义灵活多变,可以是单个汉字或分词后的词汇。由于AI行业普遍采用词元来衡量大模型API访问的计算成本,牛津大学的研究明确指出,英语是目前训练大模型最经济的语言,其他语言则面临显著更高的经济负担。

那么为何会出现这种现象?表面上看,中文的复杂性似乎是一个合理解释。毕竟现代语言学源于欧洲,汉语语法分析体系也脱胎于西方理论。与印欧语系的屈折型语法相比,汉藏语系孤立型语法确实显得更为复杂。然而,词元计算并非基于字符划分,而是以OpenAI视角下的训练成本为基准。更关键的是,英文单词间存在空格便于切分,而中文缺乏天然分隔符,需要先进行分词处理。真正导致英文训练成本更低的核心原因,实则是OpenAI等厂商在非英语语言的分词算法和语义理解技术上存在不足。

以OpenAI为例,作为美国公司,其团队在训练大模型时天然倾向于以英语语料为起点。人工标注的投入也主要集中于英语系,毕竟这直接影响大模型训练强度和产出质量。这也是为何他们选择在肯尼亚建立人工标注团队——作为英联邦国家,肯尼亚拥有以英语为官方语言且教育水平较高的劳动力资源。AI理解不同语言并非通过翻译,而是直接学习相关语言的文本数据。

AI大模型在不同语言上的能力差异,根源在于语料的丰富程度。百度”文心一言”内测时出现的文生图不符实际问题,就曾引发主流观点认为中文自然语言处理领域缺乏高质量语料。事实上,生成式AI的原理正是通过海量语料库训练,从各类反馈中学习并优化模型,使AI能够理解人类问题并做出相应回答。大模型之所以表现更”聪明”,单纯是因为语料规模更大——OpenAI的GPT-3就拥有1750亿参数量。”力大砖飞”正是当下大模型的底层逻辑,语料规模基本决定了其上限。

语料越多越好,但现实是英语作为互联网世界使用人群规模最大、使用频率最高的语言,占据主导地位。去年6月W3Techs发布的全球互联网网页统计报告显示,英语占比高达63.6%以上,俄语居次(7%),中文仅占1.3%排名第八。这一数据反映中文互联网的独特生态:虽然中文网民占全球五分之一,但网站数量却远低于预期。这主要源于国内发达的移动互联网生态,信息大量聚集在各类App中,而这些App数据难以通过爬虫获取,导致统计困难。

这种状态直接导致了汉语语料库的匮乏。AI行业惯例是使用互联网公开数据,而App数据属于运营方,违规抓取构成违法行为。国内互联网巨头将信息控制在自家App内,反而导致公开中文语料不增反减。与海外Reddit、Twitter等愿意卖数据的平台不同,国内巨头更倾向于”敝帚自珍”,这种封闭生态进一步加剧了问题。

既然互联网公开信息以英文为主,国内AI大模型训练自然也以英文为起点,”文心一言”出现”英翻中”现象也就不足为奇。归根结底,AI大模型使用不同语言的训练成本,与该语言构筑的互联网生态繁荣程度呈正相关。丹麦语、荷兰语等小语种因互联网内容匮乏,训练成本高且效果差。更令人担忧的是,马太效应将使英语在AI领域的强势地位持续增强。

因此,国内AI大模型要实现突破,关键在于获取足够且高质量的语料库。只有当”互联互通”这一概念真正落地,中文AI大模型才有望比肩ChatGPT等国际顶尖产品。

最新快讯

2025年08月05日

13:49
8月4日,知名演员赵露思在一场直播互动中,点了一份备受关注的某品牌沙拉外卖。当她准备食用时,却意外发现餐盒内缺少了酱汁,这让她当场感到十分困惑。面对这一情况,赵露思没有选择沉默,而是直接对着镜头表达了自己的疑问:"这个牌子怎么回事?酱不放怎么吃?"这一幕迅速引起了网友们的热议,大家纷纷猜测是否是商家疏忽导致漏装酱料。 就在大家纷纷议论之际,赵露思却通过仔...
13:49
近日,湖北武汉协和医院手足外科传来一则令人惊叹的康复奇迹:一名6年前因摩托车意外导致4根手指被链条绞断、几乎面临掌部离断的男童,如今已成长为一名8岁健康少年。令人欣慰的是,他的手指不仅恢复活动自如,日常生活也未受到任何影响。这一突破性的康复案例,由该科资深医生陈江海亲自分享,迅速引发了社会各界的广泛关注和赞誉。 据协和医院宣传科工作人员介绍,该男童的断指再植...
13:49
近日,北京一位女士在品尝桃子时,竟遭遇了一件令人匪夷所思的奇事:表面完好如初的桃子,咬开后内部竟藏着满满一腔新鲜碎叶。起初,她以为是桃核发芽,但经过仔细观察,发现只是桃核发生了裂变。当她进一步打开桃核时,更是惊愕地发现里面竟然还藏着更多新鲜叶片。面对如此离奇的景象,这位女士感到十分困惑,于是她将桃子和叶子的照片上传至网络,向广大网友求助。很快,就有热心网友给...
13:49
8月5日中午至傍晚,广州市越秀、天河、海珠等多区突发暴雨,气象部门迅速发布橙色预警信号,其中从化区更是升级至红色预警级别。据气象专家预测,广州今日将迎来大到暴雨天气,局部地区甚至可能出现大暴雨。此次预警自5日11时57分起正式生效,且随着天气系统发展,存在进一步升级的可能性。面对强降雨天气,市民需提高警惕,做好防范措施,确保人身与财产安全。建议减少不必要的外...
13:49
8月5日,帕西尼感知科技(深圳)有限公司正式宣布成功完成A系列融资,此次交易由京东集团战略领投,多家知名资本机构积极跟投。值得注意的是,这已是京东在短短三个月内第六次投资具身智能领域的创新企业,其中有三家企业的注册地均位于深圳,凸显了深圳在具身智能产业中的领先地位。 帕西尼感知科技以自主研发的6D霍尔阵列传感技术为核心竞争力,成功推出了具有高度灵活性的灵巧手...
13:49
2025年8月5日,北京时间周二亚市时段,现货黄金市场呈现窄幅震荡格局,当前价格稳定在3370美元附近波动。从技术面来看,黄金价格正面临关键支撑位3364美元的考验,因其在冲击3387美元阻力位后未能成功突破。据路透社技术分析师分析,3387美元阻力位对应着自3269美元低点以来的C浪61.8%斐波那契扩展水平,一旦该水平失守,3364美元支撑位也岌岌可危,...
13:49
截至2025年7月29日,最新市场数据显示,华商基金在百亿级别混合型基金公司中表现卓越,以高达39.87%的平均收益率独占鳌头,成为行业标杆。紧随其后的是平安基金和财通资管,分别以稳健的业绩位列第三和第四名,展现出强劲的市场竞争力。 华商基金旗下85只混合型基金在过去一年中均取得了骄人正收益,其中多只产品收益率更是突破50%,充分彰显了其卓越的投资能力和风险...
13:49
美国新泽西州近日在备受关注的环境污染案件中取得重大突破,州总检察长马修·普拉特金正式宣布与科慕、杜邦及科迪华三大化工巨头达成历史性的环境和解协议。此次和解不仅涉及高达8.75亿美元的赔偿金,更彰显了地方政府在追究企业环境责任方面的决心与成效。 作为全球有机氟化合物(PFAS)污染治理的重要里程碑,该协议明确要求三家企业承担起污染治理的主体责任。根据协议条款,...
13:49
2025年8月5日,印度尼西亚股市交投活跃,基准股指强势上扬,最终收报7540.20点,涨幅达1%。这一积极表现不仅彰显了市场信心的显著回升,更反映出投资者对印尼经济前景的乐观预期。今日市场整体呈现多头格局,成交量较前期显著放大,多只蓝筹股表现尤为抢眼,成为推动指数上涨的主要动力。分析人士指出,近期印尼政府出台的一系列经济刺激政策以及全球风险资产回暖的利好因...
13:49
2025年8月5日,港股市场资金流向呈现积极态势,南向资金净买入额高达60亿港元。这一显著数据不仅揭示了当日港股市场的资金流入规模,更从侧面印证了投资者对香港市场的持续看好与信心增强。作为国际金融中心,香港股市始终吸引着全球投资者的目光,而南向资金的持续净买入,无疑为市场注入了强劲动力。这一现象反映出市场参与者对港股未来走势的乐观预期,同时也体现了香港市场在...
13:49
2025年8月5日 新加坡统计局发布最新经济数据,显示6月份零售销售总额较去年同期实现2.3%的显著增长。这一积极表现主要得益于电子产品和汽车销售的双重拉动,反映出消费市场的强劲复苏势头。业内专家分析指出,随着经济逐步回暖,消费者信心正逐步恢复,这为零售业带来了明显的利好效应。从行业细分来看,电子产品销售额增长尤为突出,表明消费者在科技产品上的支出意愿增强。...
13:49
8月5日,联诚精密股票在盘中表现抢眼,强势涨停,涨幅高达10.03%,成交额突破3亿元大关。这一亮眼表现不仅彰显了市场对该公司股票的强烈关注,更反映出投资者对其未来发展的短期高度看好情绪。涨停板的出现往往意味着市场对该股的信心急剧提升,无论是机构投资者还是散户投资者都纷纷涌入,推动股价快速拉升。此次成交额的激增,也进一步印证了市场对该股的活跃度和关注度持续攀...