英语AI使用费便宜15倍中文成本约是英语两倍

2023-07-31 10:51:24 互联网 47 次阅读

微新创想(idea2003.com) 7月31日讯：一项最新研究揭示了大型语言模型在不同语言处理上的成本差异，这一发现对于全球范围内的AI应用具有重要启示。研究指出，以OpenAI为代表的服务在处理英语输入和输出时成本最低，而其他语言则呈现出显著差异。具体而言，简体中文的处理成本约为英语的两倍，西班牙语则需1.5倍，而掸语更是高达15倍。

牛津大学的研究团队通过实验发现，一个大型语言模型处理一句缅甸语句子需要198个tokens，相比之下，同样的英语句子仅需17个tokens。Token作为衡量API访问大型语言模型（如OpenAI的ChatGPT或Anthropic的Claude 2）计算成本的基本单位，这一数据直观地表明，处理缅甸语句子的成本是英语的11倍。这种「标记化」模型的工作方式意味着，非英语语言在访问和训练时往往面临更高的经济门槛。

语言结构差异是造成成本差异的核心原因。以中文为例，其语法结构和字符数量与英语存在本质区别，导致标记化成本显著提高。OpenAI的GPT3 tokenizer数据显示，「your affection」这一词组在英语中仅需两个tokens，而在简体中文中却需要八个tokens。尽管英语文本有14个字符，但简体中文仅用4个字符就能表达相同含义，这种差异直接影响了计算资源的消耗。

微软在其ChatGPT模型API使用页面上提供了实用的标记化工具，帮助用户测试不同提示的成本。该工具显示，英语中1个token约等于4个字符，100个tokens则相当于75个英文单词。值得注意的是，这种线性关系并不适用于其他语言，微软对此有明确说明。

从成本效益角度来看，英语在人工智能领域展现出无与伦比的优势。以中文为例，其使用成本是英语的两倍。这一现象反映了当前AI公司训练模型时可用数据的分布情况。高质量紧急数据（如生活记录产生的数据）的价值在人工智能爆发期得到充分体现，这也直接关系到AI公司实现递归训练的愿景——即用自身输出训练AI模型。

若要实现这一目标，未来模型仍将延续英语的成本优势。其他语言由于复杂性和基础训练数据的局限性，标记化速率将持续偏高。进一步分析表明，除了标记化之外，其他成本衡量方法（如位数或字符计数）同样无法绕开这一困境。英语凭借其较高的「可压缩性」，在标记数量上始终处于领先地位，这并非货币化方式的问题，而是技术和基础模型训练中的真实局限。

值得注意的是，这一成本差异不仅存在于当前的大型语言模型，未来多语言模型也可能面临相同挑战。毕竟，这些模型大多采用相似的技术架构。考虑到ChatGPT等大型语言模型及Midjourney等生成式图像网络主要诞生于美国，成本差异已促使中国和印度等国家启动本土语言模型的研发计划。这些国家声称此举旨在配合以英语为基础的AI网络实现创新速度，而创新速度本身正受限于访问和训练成本。

在人工智能这一复杂而深远的领域，成本效益始终是关键考量因素。每个决策都需要谨慎权衡，因为微小的变化可能产生巨大的影响。语言处理成本问题不仅关乎经济效率，更反映了全球AI发展的不平衡现状。随着技术的不断进步，如何平衡成本与质量，将成为未来AI领域的重要课题。