2025年9月3日,来自拉脱维亚的语言技术公司Tilde正式发布了开源基础大语言模型TildeOpen LLM,这一创新举措为欧洲语言平等和数字主权建设注入了强劲动力。作为欧盟在语言领域的重要突破,TildeOpen LLM专注于支持欧洲多语种,尤其致力于提升那些代表性不足的国家和地区语言的使用效率。
TildeOpen LLM是一个拥有300亿参数的稠密解码器模型,采用业界通用的CC-BY-4.0宽松许可证,能够全面支持包括拉脱维亚语、立陶宛语、乌克兰语、土耳其语在内的多种欧洲语言。该模型的研发充分利用了欧洲顶尖计算资源——训练过程在芬兰LUMI超级计算机和JUPITER高性能平台上完成,共消耗欧盟委员会人工智能大奖挑战赛提供的200万GPU小时计算资源。
在技术架构方面,TildeOpen LLM借鉴了EleutherAI的GPT-NeoX训练框架,经过45万次参数更新,累计处理约2万亿个语言令牌。其独特的三阶段采样训练策略值得关注:首先在语言间实现均匀分布,接着针对高数据量语言进行分布增强,最后通过均匀扫查确保整体平衡。模型的核心配置包括60层神经网络、6144维嵌入维度、48个注意力头机制、8192-token上下文窗口,并采用SwiGLU激活函数、RoPE位置编码和RMSNorm层进行规范化处理。
与主流模型过度依赖英语等主要语言不同,TildeOpen LLM通过创新性的”公平的标记器”技术,实现了不同语言文本的均衡表示,显著减少了标记数量,大幅提升了小语种推理效率。在数据主权方面,该模型支持组织在本地数据中心或符合欧盟GDPR要求的安全云环境中自我托管,彻底解决了传统云服务可能引发的数据主权问题。
作为基础模型,TildeOpen LLM未来将衍生出更多专业版本,如经过指令调优的翻译模型等,进一步拓展应用场景。Tilde公司的这一壮举不仅有望帮助拉脱维亚在全球科技领域赢得更多认可,更彰显了保护语言多样性的坚定承诺。
huggingface:https://huggingface.co/TildeAI/TildeOpen-30b
技术:https://tilde.ai/lv/tildeopen-llm/
划重点:
🌍 TildeOpen LLM是首个全面支持欧洲多语种的开源大语言模型,特别关注小型国家语言的数字化需求
💻 模型训练依托欧洲超级计算资源,采用突破性的三阶段采样技术,实现语言间的公平表示
🔒 支持本地化部署,严格遵循GDPR等数据保护法规,为组织提供完整的数据主权解决方案