
Grab,这家在东南亚地区广受欢迎的超级应用程序公司,近日在其官方工程博客上详细分享了其自主研发语言模型的创新实践。文章指出,尽管大型语言模型在处理通用文本方面表现出色,但在理解和识别东南亚地区的语言时却存在明显短板。Grab的超级应用程序集打车、外卖、购物和金融服务于一体,服务网络覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨和缅甸等多个国家。这些地区的文档通常采用非拉丁字母的复杂脚本,给Grab的合规工作带来了巨大挑战。
在客户身份验证等关键合规流程中,Grab需要精准提取身份证、驾照和注册证书等文档上的关键信息。尽管团队尝试过多种光学字符识别(OCR)系统,但发现这些技术在面对多样化的文档模板时效果始终不尽如人意。2025年,Grab开始探索利用大型语言模型解决这一难题。经过测试,市面上一些强大的商业模型虽然功能强大,但在东南亚语言处理上频繁出现错误和延迟。而开源的视觉大型语言模型虽然效率较高,准确性却仍无法满足Grab的需求。面对这些困境,Grab最终决定自主研发一个专门针对东南亚语言的视觉大型语言模型。
Grab的工程师们选择了阿里巴巴云的Qwen2-VL2B模型作为技术基础。这一选择主要基于三个关键优势:模型体积适中、全面支持东南亚语言,以及能够动态处理不同分辨率的图像。为了进一步提升模型对东南亚语言的理解能力,团队从Common Crawl中提取了大量东南亚语言内容,并建立了内部合成数据管道,专门用于生成各种字体和背景条件下的文本图像。通过低秩适配技术对Qwen2-VL模型进行微调,Grab在印尼文档处理上取得了令人瞩目的成果。尽管在泰语和越南语的识别上仍面临挑战,团队最终决定采用完整参数微调方案,通过深度训练让模型掌握东南亚语言的独特视觉特征。

经过不懈努力,Grab成功开发出一个轻量级的视觉大型语言模型。该模型在处理身份证和驾照等文档时的表现不仅超越了多种OCR工具,甚至超过了许多通用模型。Grab团队总结道,战略性地运用高质量数据,能够使小型专业模型在高效性和有效性上实现完美平衡。展望未来,Grab计划继续投入资源开发更多自有模型,以应对日益复杂的文档处理需求。
Grab的这一创新实践再次证明,针对特定场景定制开发专用模型,往往能够带来远超通用解决方案的性能优势。特别是在东南亚这样语言文化多元化的市场,拥有自主可控的语言处理技术,对于超级应用程序的合规运营和服务质量至关重要。随着Grab在文档处理领域的持续深耕,我们有理由相信,这家东南亚科技巨头将在人工智能应用创新上创造更多突破。
