国内AI市场正掀起一场激烈的”百模大战”,从BAT等传统巨头到美团、字节跳动等新兴势力,再到科大讯飞等AI老牌玩家,无不纷纷入局。然而有趣的是,尽管国内厂商动作频频,但提到AI大模型,公众的普遍认知仍是ChatGPT、Bing Chat、Bard等海外产品更胜一筹。这一现象并非错觉,最近牛津大学的一项研究揭示了语言与大型语言模型训练成本之间的微妙关系。

该研究显示,按照OpenAI的服务器成本标准衡量,处理一句缅甸掸语需要198个词元,而相同句子的英语版本仅需17个词元。这一差异在多种语言中呈现规律性:简体中文的训练成本约是英语的两倍,西班牙语为1.5倍,而缅甸掸语更是高达英语的15倍。词元作为语料中最小的计算单位,其定义灵活多变,可以是单个汉字或分词后的词汇。由于AI行业普遍采用词元来衡量大模型API访问的计算成本,牛津大学的研究明确指出,英语是目前训练大模型最经济的语言,其他语言则面临显著更高的经济负担。

那么为何会出现这种现象?表面上看,中文的复杂性似乎是一个合理解释。毕竟现代语言学源于欧洲,汉语语法分析体系也脱胎于西方理论。与印欧语系的屈折型语法相比,汉藏语系孤立型语法确实显得更为复杂。然而,词元计算并非基于字符划分,而是以OpenAI视角下的训练成本为基准。更关键的是,英文单词间存在空格便于切分,而中文缺乏天然分隔符,需要先进行分词处理。真正导致英文训练成本更低的核心原因,实则是OpenAI等厂商在非英语语言的分词算法和语义理解技术上存在不足。

以OpenAI为例,作为美国公司,其团队在训练大模型时天然倾向于以英语语料为起点。人工标注的投入也主要集中于英语系,毕竟这直接影响大模型训练强度和产出质量。这也是为何他们选择在肯尼亚建立人工标注团队——作为英联邦国家,肯尼亚拥有以英语为官方语言且教育水平较高的劳动力资源。AI理解不同语言并非通过翻译,而是直接学习相关语言的文本数据。

AI大模型在不同语言上的能力差异,根源在于语料的丰富程度。百度”文心一言”内测时出现的文生图不符实际问题,就曾引发主流观点认为中文自然语言处理领域缺乏高质量语料。事实上,生成式AI的原理正是通过海量语料库训练,从各类反馈中学习并优化模型,使AI能够理解人类问题并做出相应回答。大模型之所以表现更”聪明”,单纯是因为语料规模更大——OpenAI的GPT-3就拥有1750亿参数量。”力大砖飞”正是当下大模型的底层逻辑,语料规模基本决定了其上限。

语料越多越好,但现实是英语作为互联网世界使用人群规模最大、使用频率最高的语言,占据主导地位。去年6月W3Techs发布的全球互联网网页统计报告显示,英语占比高达63.6%以上,俄语居次(7%),中文仅占1.3%排名第八。这一数据反映中文互联网的独特生态:虽然中文网民占全球五分之一,但网站数量却远低于预期。这主要源于国内发达的移动互联网生态,信息大量聚集在各类App中,而这些App数据难以通过爬虫获取,导致统计困难。

这种状态直接导致了汉语语料库的匮乏。AI行业惯例是使用互联网公开数据,而App数据属于运营方,违规抓取构成违法行为。国内互联网巨头将信息控制在自家App内,反而导致公开中文语料不增反减。与海外Reddit、Twitter等愿意卖数据的平台不同,国内巨头更倾向于”敝帚自珍”,这种封闭生态进一步加剧了问题。

既然互联网公开信息以英文为主,国内AI大模型训练自然也以英文为起点,”文心一言”出现”英翻中”现象也就不足为奇。归根结底,AI大模型使用不同语言的训练成本,与该语言构筑的互联网生态繁荣程度呈正相关。丹麦语、荷兰语等小语种因互联网内容匮乏,训练成本高且效果差。更令人担忧的是,马太效应将使英语在AI领域的强势地位持续增强。

因此,国内AI大模型要实现突破,关键在于获取足够且高质量的语料库。只有当”互联互通”这一概念真正落地,中文AI大模型才有望比肩ChatGPT等国际顶尖产品。

最新快讯

2026年02月10日

12:09
微新创想 伸懒腰竟然能把肺给弄破 这可不是危言耸听 而是实打实发生的事 据媒体报道 近日 17岁的小伙小孙(化名)早上起床伸了个懒腰 没想到右侧胸口突然发生一阵尖锐的刺痛 紧接着感到呼吸有些费劲 还忍不住咳嗽 父母将其送到浙江省人民医院就诊后 医生通过胸部CT检查发现 小孙右侧的肺被压缩了70% 诊断为自发性气胸 医生表示 自发性气胸 通俗讲就是...
12:09
微新创想:2月6日,千问正式上线「春节30亿大免单」活动,用户只需将千问更新至最新版本,即可领取一张25元的无门槛免单卡,用于在千问APP内点奶茶、订餐或购买年货。活动上线仅5小时,用户通过千问APP成功下单超过500万单奶茶。此外,老用户每邀请一名新用户,还能再获得一张免单卡,邀请3位新用户则有机会参与抽取价值10000元的千问AI生活卡。活动页面还预告,...
12:09
声明:本文来自于微信公众号 电商在线,作者:唐果,授权站长之家转载发布。春节红包大战刚“燃”到请客喝奶茶,网红茶饮品牌阿嬷手作却早已不想只卖奶茶了。1月底,阿嬷手作参股投资的餐饮品牌“LUOSHI鑼獅”在上海新天地东台里开门迎客,目前的主要餐品为广西主食和手工广西菜,包括招牌螺蛳粉、吊龙炒螺蛳粉、鑼狮红油卷粉、八妹鸽腿、慢炖玉林...
12:09
微新创想 游戏科学创始人冯骥今天突然发布了《黑神话:钟馗》第一支实机视频。虽然目前只是一个拜年短片,但依然引发了广泛关注。视频中并未包含操作、战斗、玩法等内容,主要展示了部分人物和场景的画面。游戏科学在视频结尾特别说明,此视频仅为马年春节特别制作,与游戏实际剧情并无关联。尽管内容有限,但这一举动至少表明《黑神话:钟馗》项目正在快速推进中,或许在不久的将来,比...
12:09
微新创想:2月10日消息,农历腊月二十三在北方被称为小年,南方则错后一天,在二十四迎来小年。这一传统节日的日期差异源于历史演变和地域风俗的不同。 专家指出,古代“小年”曾被称为“交年节”或“小节夜”。在宋朝时期,皇宫中以腊月二十四为小节夜,三十日为大节夜。这种说法在周密所著的《武林旧事岁除》中有详细记载。随着时间推移,“交年节”逐渐演变为“小年夜”,成为人们...
12:09
微新创想 近日有网友分享了一段令人揪心又暖心的视频。视频中,一名男子骑摩托车带妹妹出行时,不幸被后车追尾。事故导致兄妹两人摔倒在地,妹妹率先爬起,发现哥哥躺在地上不动,随即看到地面上流淌的红色液体,误以为是哥哥受伤流的血,顿时情绪崩溃,放声大哭起来。她扑到哥哥身上,撕心裂肺地哭喊,并跪地哀求哥哥醒来。肇事司机在看到这一幕之后也被吓到,以为自己要面临法律的严惩...
12:00
微新创想:继腾讯元宝分现金、阿里千问送免单后,字节跳动旗下的 AI 助手豆包正式官宣加入春节“红海”大战。豆包宣布将以合作伙伴身份亮相2026年中央广播电视总台春晚,并开启名为“豆包过年”的大型新春活动。此次活动不仅延续了传统红包的玩法,更在科技体验上进行了大胆创新。 本次活动的亮点在于其极具科技感的奖池。与传统的纯现金红包不同,豆包此次准备了超过10万份深...
11:52
微新创想:2026年2月,国雁集团成功完成Pre-A轮融资,该轮融资由亿道基金独家投资。此次融资标志着公司在新材料技术研发与制造领域迈出了重要一步,进一步巩固了其在行业内的领先地位。 微新创想:国雁集团总部设立于中国,致力于新材料技术的创新与应用。公司业务范围广泛,涵盖合成材料、工程塑料、塑料制品以及汽车零部件的研发与生产,同时积极拓展储能技术服务和新能源汽...
11:52
微新创想:2026年2月,湖南株洲鸿星科技有限公司成功完成天使轮融资。此次融资由株洲国投创投与定航资本联合投资,标志着公司在航天科技领域迈出了重要一步。鸿星科技是一家专注于脉冲等离子体推力器工程化应用的高科技企业,致力于将先进的推进技术应用于航天器与运载火箭制造。公司业务范围广泛,涵盖微小卫星的研发与生产,以及火箭发动机的研制等多个核心领域。 微新创想:公司...
11:52
微新创想:2月9日,AI.com在超级碗投放价值1500万美元的广告,并耗资7000万美元购得域名。这一举动标志着AI.com在品牌推广和市场拓展上的重大投入。广告内容呼吁观众立即访问网站注册用户名,以获取更多服务信息。 然而,广告发布后不久便遭遇技术故障。由于系统仅支持Google单点登录,导致大量用户在尝试注册时被Google限流,最终引发全站瘫痪。这一...
11:52
微新创想:2026年2月,工信部发布《减免车辆购置税的新能源汽车车型目录(第二十七批)》,新款腾势Z9与Z9GT正式入选。两款车型均提供102.326kWh和122.496kWh电池版本,CLTC纯电续航最高达1068km(Z9)和1036km(Z9GT)。Z9GT新增三电机版本,单电机最大功率370kW,插混版CLTC纯电续航超400km。新车升级激光雷达...
11:52
微新创想:2026年2月9日,宏碁宣布其2026年1月合并营收达到210.77亿新台币,约合46.56亿元人民币。这一成绩相比去年同期实现了39.8%的同比增长,创下多年同期的新高。 此次营收增长主要得益于商用产品业务的强劲表现,同比增长高达63.4%。电竞及游戏相关业务同样展现出强劲势头,同比增长53.4%。笔记本电脑业务也实现了50.6%的同比增长,成为...