微新创想(idea2003.com) 7月31日讯:一项最新研究揭示了大型语言模型在不同语言处理上的成本差异,这一发现对于全球范围内的AI应用具有重要启示。研究指出,以OpenAI为代表的服务在处理英语输入和输出时成本最低,而其他语言则呈现出显著差异。具体而言,简体中文的处理成本约为英语的两倍,西班牙语则需1.5倍,而掸语更是高达15倍。

牛津大学的研究团队通过实验发现,一个大型语言模型处理一句缅甸语句子需要198个tokens,相比之下,同样的英语句子仅需17个tokens。Token作为衡量API访问大型语言模型(如OpenAI的ChatGPT或Anthropic的Claude 2)计算成本的基本单位,这一数据直观地表明,处理缅甸语句子的成本是英语的11倍。这种「标记化」模型的工作方式意味着,非英语语言在访问和训练时往往面临更高的经济门槛。

语言结构差异是造成成本差异的核心原因。以中文为例,其语法结构和字符数量与英语存在本质区别,导致标记化成本显著提高。OpenAI的GPT3 tokenizer数据显示,「your affection」这一词组在英语中仅需两个tokens,而在简体中文中却需要八个tokens。尽管英语文本有14个字符,但简体中文仅用4个字符就能表达相同含义,这种差异直接影响了计算资源的消耗。

微软在其ChatGPT模型API使用页面上提供了实用的标记化工具,帮助用户测试不同提示的成本。该工具显示,英语中1个token约等于4个字符,100个tokens则相当于75个英文单词。值得注意的是,这种线性关系并不适用于其他语言,微软对此有明确说明。

从成本效益角度来看,英语在人工智能领域展现出无与伦比的优势。以中文为例,其使用成本是英语的两倍。这一现象反映了当前AI公司训练模型时可用数据的分布情况。高质量紧急数据(如生活记录产生的数据)的价值在人工智能爆发期得到充分体现,这也直接关系到AI公司实现递归训练的愿景——即用自身输出训练AI模型。

若要实现这一目标,未来模型仍将延续英语的成本优势。其他语言由于复杂性和基础训练数据的局限性,标记化速率将持续偏高。进一步分析表明,除了标记化之外,其他成本衡量方法(如位数或字符计数)同样无法绕开这一困境。英语凭借其较高的「可压缩性」,在标记数量上始终处于领先地位,这并非货币化方式的问题,而是技术和基础模型训练中的真实局限。

值得注意的是,这一成本差异不仅存在于当前的大型语言模型,未来多语言模型也可能面临相同挑战。毕竟,这些模型大多采用相似的技术架构。考虑到ChatGPT等大型语言模型及Midjourney等生成式图像网络主要诞生于美国,成本差异已促使中国和印度等国家启动本土语言模型的研发计划。这些国家声称此举旨在配合以英语为基础的AI网络实现创新速度,而创新速度本身正受限于访问和训练成本。

在人工智能这一复杂而深远的领域,成本效益始终是关键考量因素。每个决策都需要谨慎权衡,因为微小的变化可能产生巨大的影响。语言处理成本问题不仅关乎经济效率,更反映了全球AI发展的不平衡现状。随着技术的不断进步,如何平衡成本与质量,将成为未来AI领域的重要课题。

最新快讯

2025年10月25日

23:22
2025年10月25日,宁德时代电船科技有限公司自主研发的“6006纯电动多用途运输船”凭借其卓越的创新性和环保性能,成功入选中国交通运输协会评选的“2025年全国交通运输与能源融合创新发展优秀典型案例”。这一成就不仅彰显了该项目的领先地位,更标志着内河航运绿色转型进程中的重大突破。 该项目作为全国首个实现船站整体交付并独立运营的货船换电示范项目,其可复制、...
23:22
10月28日,备受瞩目的第二十一届中国国际煤炭采矿技术交流及设备展览会即将在北京中国国际展览中心(顺义馆)盛大启幕。作为行业权威盛事,本次展会由中国煤炭工业协会主办,中国中煤能源集团鼎力协办,以"科技创新引领未来,绿色发展共筑辉煌"为主题,全面聚焦煤炭采矿领域的最新技术突破与高端装备发展。展会将汇聚全球顶尖企业,集中展示智能化开采、绿色矿山建设等前沿成果,为...
23:22
网络安全公司NCC Group最新研究揭示,人工智能技术正推动语音深度伪造技术实现“实时化”突破,攻击者现能在通话过程中即时模仿目标声音,欺骗成功率高达近100%。这种被称为“深度伪造语音钓鱼”的技术已具备实战能力,仅需中等算力即可运行,在配备RTX A1000显卡的高性能设备上,语音模仿的延迟可控制在0.5秒以内,且模仿出的声音自然度极高,几乎难以分辨真假...
22:37
微新创想10月25日讯,今年9月苹果发布的四款iPhone中,有三款均搭载了12GB内存配置,唯独iPhone 17标准版维持了8GB内存。根据韩国最新市场报告,预计即将推出的iPhone 18标准版将升级至12GB内存,但消费者可能需要等到2027年上半年才能体验这款新机。 据悉,苹果已开始从三星电子采购LPDDR5X内存芯片,此举旨在确保iPhone 1...
22:37
微新创想10月25日讯,苹果近期密集发布了一系列搭载新一代M5芯片的旗舰产品,包括全新MacBook Pro、iPad Pro以及Vision Pro,引发市场广泛关注。在备受瞩目的新品之外,业界普遍猜测苹果正筹备推出一款更具市场竞争力的新MacBook,不少消费者期待其能在节日销售季前正式亮相。 行业资深分析师郭明錤近日释放重要消息,透露苹果正在研发一款定...
22:37
2025年10月25日,备受瞩目的川投泸州天然气发电项目传来捷报,其2号机组成功完成168小时试运行,这一里程碑事件标志着项目双机组已全面竣工并正式投入运营。该项目坐落于四川省泸州市江阳区江北镇,由中能建西南电力设计院承担总承包建设任务,整体规划总装机容量高达1400兆瓦,通过建设两套700兆瓦级燃气—蒸汽联合循环机组,打造区域能源供应的新引擎。 项目引进国...
22:37
2025年10月26日,上海两大机场——浦东国际机场与虹桥国际机场将正式迎来新冬春航季的航班计划调整,这一新安排将持续至2026年3月28日。在全新的航季周期中,上海两场每日计划航班总量将高达2419架次,展现出惊人的航空运输能力。其中,浦东机场作为国际航空枢纽,日均计划航班量达到1643架次,而虹桥机场则承担着重要的国内航线任务,日均计划航班量为776架次...
22:37
Xbox游戏内容与工作室总裁Matt Booty近日在接受《纽约时报》采访时,向外界传递了微软游戏业务战略的重大调整信号。他明确指出,微软正积极重新定义其游戏业务方向,将竞争重心从传统主机游戏逐渐转向短视频、流媒体等多元化的娱乐形式。这一转变背后,是市场趋势的深刻洞察——玩家对特定平台的依赖正在显著减弱,他们更加追求无缝的跨平台体验。为此,微软正致力于在用户...
22:37
2025年英雄联盟全球总决赛四分之一决赛抽签结果正式揭晓,LPL赛区两支顶尖战队将面临前所未有的挑战。TES战队将于10月30日迎战欧洲劲旅G2,展开一场激烈的BO5对决;而AL战队则将在次日挑战三冠王T1,争夺晋级半决赛的资格。此前,TES在LPL内战中以2-1的比分力克BLG强势晋级八强,AL战队更是以全胜战绩早早锁定淘汰赛席位,展现了强大的实力和稳定性...
22:00
据博板堂渠道独家消息,英伟达近期对GeForce RTX 5060 Ti系列显卡实施了一项显著的差异化供货策略,其中16GB显存版本获得了前所未有的资源倾斜。这一决策并非源于传统意义上的产能瓶颈,而是基于对市场需求的精准洞察和前瞻性布局。 随着游戏市场对高画质体验的要求日益严苛,3A大作在纹理细节和场景复杂度上不断突破,显存容量已成为决定游戏流畅度的关键因素...
22:00
2025年10月25日,存储芯片市场迎来重大变化。据产业链深度消息透露,多家存储原厂已紧急暂停DRAM和Flash产品的报价,或采取短期限价策略。这一系列调整主要源于上游供应链持续紧张,价格波动异常剧烈,给整个行业带来巨大挑战。 国内相关企业纷纷表态,各自面临不同局面。江波龙方面表示,当前存货因价格上涨而获益匪浅,预计毛利率将迎来显著提升。而普冉股份则透露,...
22:00
2025年10月25日,备受瞩目的江西医药发展大会在赣州市隆重举行,现场气氛热烈,共达成16个医药重点项目的集中签约。这些项目涵盖了创新药研发、传统中药现代化、高端宠物药品、先进医疗器械制造以及医药科创平台建设等多个前沿领域,全面布局江西省医药产业的未来发展。此次签约不仅标志着江西省在医药领域迈出了重要步伐,更彰显了其推动产业转型升级、实现高质量发展的坚定决...