国内AI市场正掀起一场激烈的”百模大战”,从BAT等传统巨头到美团、字节跳动等新兴势力,再到科大讯飞等AI老牌玩家,无不纷纷入局。然而有趣的是,尽管国内厂商动作频频,但提到AI大模型,公众的普遍认知仍是ChatGPT、Bing Chat、Bard等海外产品更胜一筹。这一现象并非错觉,最近牛津大学的一项研究揭示了语言与大型语言模型训练成本之间的微妙关系。

该研究显示,按照OpenAI的服务器成本标准衡量,处理一句缅甸掸语需要198个词元,而相同句子的英语版本仅需17个词元。这一差异在多种语言中呈现规律性:简体中文的训练成本约是英语的两倍,西班牙语为1.5倍,而缅甸掸语更是高达英语的15倍。词元作为语料中最小的计算单位,其定义灵活多变,可以是单个汉字或分词后的词汇。由于AI行业普遍采用词元来衡量大模型API访问的计算成本,牛津大学的研究明确指出,英语是目前训练大模型最经济的语言,其他语言则面临显著更高的经济负担。

那么为何会出现这种现象?表面上看,中文的复杂性似乎是一个合理解释。毕竟现代语言学源于欧洲,汉语语法分析体系也脱胎于西方理论。与印欧语系的屈折型语法相比,汉藏语系孤立型语法确实显得更为复杂。然而,词元计算并非基于字符划分,而是以OpenAI视角下的训练成本为基准。更关键的是,英文单词间存在空格便于切分,而中文缺乏天然分隔符,需要先进行分词处理。真正导致英文训练成本更低的核心原因,实则是OpenAI等厂商在非英语语言的分词算法和语义理解技术上存在不足。

以OpenAI为例,作为美国公司,其团队在训练大模型时天然倾向于以英语语料为起点。人工标注的投入也主要集中于英语系,毕竟这直接影响大模型训练强度和产出质量。这也是为何他们选择在肯尼亚建立人工标注团队——作为英联邦国家,肯尼亚拥有以英语为官方语言且教育水平较高的劳动力资源。AI理解不同语言并非通过翻译,而是直接学习相关语言的文本数据。

AI大模型在不同语言上的能力差异,根源在于语料的丰富程度。百度”文心一言”内测时出现的文生图不符实际问题,就曾引发主流观点认为中文自然语言处理领域缺乏高质量语料。事实上,生成式AI的原理正是通过海量语料库训练,从各类反馈中学习并优化模型,使AI能够理解人类问题并做出相应回答。大模型之所以表现更”聪明”,单纯是因为语料规模更大——OpenAI的GPT-3就拥有1750亿参数量。”力大砖飞”正是当下大模型的底层逻辑,语料规模基本决定了其上限。

语料越多越好,但现实是英语作为互联网世界使用人群规模最大、使用频率最高的语言,占据主导地位。去年6月W3Techs发布的全球互联网网页统计报告显示,英语占比高达63.6%以上,俄语居次(7%),中文仅占1.3%排名第八。这一数据反映中文互联网的独特生态:虽然中文网民占全球五分之一,但网站数量却远低于预期。这主要源于国内发达的移动互联网生态,信息大量聚集在各类App中,而这些App数据难以通过爬虫获取,导致统计困难。

这种状态直接导致了汉语语料库的匮乏。AI行业惯例是使用互联网公开数据,而App数据属于运营方,违规抓取构成违法行为。国内互联网巨头将信息控制在自家App内,反而导致公开中文语料不增反减。与海外Reddit、Twitter等愿意卖数据的平台不同,国内巨头更倾向于”敝帚自珍”,这种封闭生态进一步加剧了问题。

既然互联网公开信息以英文为主,国内AI大模型训练自然也以英文为起点,”文心一言”出现”英翻中”现象也就不足为奇。归根结底,AI大模型使用不同语言的训练成本,与该语言构筑的互联网生态繁荣程度呈正相关。丹麦语、荷兰语等小语种因互联网内容匮乏,训练成本高且效果差。更令人担忧的是,马太效应将使英语在AI领域的强势地位持续增强。

因此,国内AI大模型要实现突破,关键在于获取足够且高质量的语料库。只有当”互联互通”这一概念真正落地,中文AI大模型才有望比肩ChatGPT等国际顶尖产品。

最新快讯

2026年02月10日

14:24
微新创想:2026年2月,HMD Global正式在欧洲部分市场推出Terra M三防手机。这款设备专为专业用户设计,具备出色的耐用性和可靠性。 该机通过了IP68/IP69K以及MIL-STD-810H军标认证,能够在极端环境下稳定运行。它适用于医院、工地、机场、安保及应急救援等多个高要求场景,满足不同行业对设备安全性的需求。 Terra M配备了2.8英...
14:24
微新创想:一项最新研究揭示了屏幕使用时间与儿童心理健康之间的密切关联。根据2月9日发表于《Nature Portfolio》的研究结果,在美国超过5万名6至17岁的儿童中,每天使用屏幕时间达到或超过四小时的群体,其患抑郁症的风险显著上升了61%。此外,该研究还指出,这些儿童的焦虑症、行为问题以及注意力缺陷多动障碍(ADHD)的风险分别增加了45%、24%和2...
14:24
微新创想:2026年2月8日,开源跨平台解压缩工具PeaZip正式发布10.9版本。本次更新由开发团队主导,面向Windows、Linux及macOS用户。新版在文件管理器与多格式查看器方面进行了深度优化,有效降低了内存占用约18%。这一改进显著提升了对超大压缩包的处理能力,尤其是包含数十万文件的压缩包,用户在浏览时将获得更流畅的体验。 界面同步更新Pea/...
14:10
微新创想:近日,一名15岁少年凭借超强臂力在网络上迅速走红,被网友赞誉为“现代版李元霸”,其展现出的惊人力量引发了全网的广泛关注和热烈讨论。这段视频迅速成为热门话题,吸引了大量观众的关注和转发。 在一段网络视频中,这位来自辽宁的15岁少年先是在镜头前神色从容,徒手将一个苹果均匀掰成八瓣,动作轻松自然,仿佛在做一件稀松平常之事。随后,他双手握住一根标称80公斤...
14:10
微新创想:当下,年轻一代正以独特的方式重新定义年货的意义,继整顿职场之后,又将“整顿”之风吹向了年货领域。如今的年轻人不再遵循传统的年货购置模式,而是按照自己的喜好和需求来挑选年货,把年货从以往的“人情负担”转变为“自我犒赏”。 以往过年,酒水、牛奶、糖果、瓜子等是年货清单上的常客,人们购置年货更多是为了满足他人的期待、维持人情往来。然而,现在年轻人的消费偏...
14:10
微新创想:今日,游戏科学官方为玩家们送上了一份特别的新年礼物——时长6分钟的《黑神话:钟馗》贺岁实机小短片。在这段短片中,呈现了人和鬼共同烹制菜肴的奇妙场景,给观众带来了别样的视觉体验。视频发布后,游戏科学创始人兼游戏制作人冯骥也在微博上分享了自己的看法。 他幽默地发问:“不知各位看完后,是会心微笑?一头雾水?还是马上分析出一堆细节隐喻、剧情方向或者新的技术...
14:05
微新创想:2月10日,健康AI应用“蚂蚁阿福”正式成为央视CCTV健康生活合作伙伴。这一合作标志着阿福在健康科技领域的影响力进一步扩大,也体现了其在推动全民健康服务方面的积极作用。 作为一款专业的健康AI应用,蚂蚁阿福自上线以来便受到用户的热烈欢迎。其用户数量迅速增长,单日健康咨询解答量突破1000万次,展现了强大的服务能力与用户需求的契合度。 蚂蚁阿福不仅...
14:05
微新创想:大模型落地端侧的“减脂增肌”迎来重大突破 腾讯混元今日正式发布面向消费级硬件的极小模型 HY-1.8B-2Bit。该模型通过首个产业级2Bit量化方案将等效参数量精简至0.3B 内存占用仅约600MB 体积甚至小于部分常用的手机应用 技术突破 2Bit量化的“不可能任务”在模型部署中 量化位数越低 精度损失通常越大 为攻克这一难题 腾讯混元团队放弃...
13:54
微新创想:2026年2月9日,基于Arch Linux的pearOS 26.2正式发布 pearOS 26.2版本带来了诸多令人期待的更新与改进。此次发布不仅延续了pearOS一贯的简洁与高效风格,还在视觉体验与系统功能上实现了全面升级。该版本深度整合了KDE Plasma 6.5.5桌面环境,为用户提供了更加流畅的操作体验 在界面设计方面,pearOS 2...
13:54
微新创想:2026年2月10日12:00,《明日方舟》PC端技术性开放测试正式上线 本次测试为不限量、不删档模式,所有玩家均可参与。游戏官方特别推出PC端版本,支持Windows 10和Windows 11操作系统,满足不同用户的设备需求 测试内容涵盖多平台数据互通功能,确保玩家在不同设备间可以无缝切换并继续游戏进度。同时,PC端优化了键盘和鼠标的操作体验,...
13:54
微新创想:2026年2月10日,阿里巴巴达摩院正式发布具身智能基础模型RynnBrain并开源全系列7个模型,其中包含业界首个30B MoE架构的具身模型。这一突破标志着具身智能领域迈出了重要的一步,为机器人技术的发展提供了更强大的基础支持。 该模型首次赋予机器人时空记忆与物理空间推理能力,使其在复杂环境中具备更强的自主决策和任务执行能力。通过这些创新功能,...
13:54
微新创想:2026年2月上旬,北京礼达慧凡科技有限公司宣布完成天使轮融资。这一重要里程碑标志着公司在高科技领域的发展迈出了坚实一步。 微新创想:公司主营业务聚焦于人工智能、智能装备及工业软件等前沿科技方向,致力于技术研发与工程应用的深度融合。凭借先进的技术理念和创新的解决方案,礼达慧凡科技正在逐步构建起具有竞争力的科技生态体系。 微新创想:本轮融资将主要用于...