TildeOpen LLM开源欧洲语言大模型 支持多语种数据主权

2025年9月3日,来自拉脱维亚的语言技术公司Tilde正式发布了开源基础大语言模型TildeOpen LLM,这一创新举措为欧洲语言平等和数字主权建设注入了强劲动力。作为欧盟在语言领域的重要突破,TildeOpen LLM专注于支持欧洲多语种,尤其致力于提升那些代表性不足的国家和地区语言的使用效率。

TildeOpen LLM是一个拥有300亿参数的稠密解码器模型,采用业界通用的CC-BY-4.0宽松许可证,能够全面支持包括拉脱维亚语、立陶宛语、乌克兰语、土耳其语在内的多种欧洲语言。该模型的研发充分利用了欧洲顶尖计算资源——训练过程在芬兰LUMI超级计算机和JUPITER高性能平台上完成,共消耗欧盟委员会人工智能大奖挑战赛提供的200万GPU小时计算资源。

在技术架构方面,TildeOpen LLM借鉴了EleutherAI的GPT-NeoX训练框架,经过45万次参数更新,累计处理约2万亿个语言令牌。其独特的三阶段采样训练策略值得关注:首先在语言间实现均匀分布,接着针对高数据量语言进行分布增强,最后通过均匀扫查确保整体平衡。模型的核心配置包括60层神经网络、6144维嵌入维度、48个注意力头机制、8192-token上下文窗口,并采用SwiGLU激活函数、RoPE位置编码和RMSNorm层进行规范化处理。

与主流模型过度依赖英语等主要语言不同,TildeOpen LLM通过创新性的”公平的标记器”技术,实现了不同语言文本的均衡表示,显著减少了标记数量,大幅提升了小语种推理效率。在数据主权方面,该模型支持组织在本地数据中心或符合欧盟GDPR要求的安全云环境中自我托管,彻底解决了传统云服务可能引发的数据主权问题。

TildeOpen LLM开源欧洲语言大模型 支持多语种数据主权插图1

作为基础模型,TildeOpen LLM未来将衍生出更多专业版本,如经过指令调优的翻译模型等,进一步拓展应用场景。Tilde公司的这一壮举不仅有望帮助拉脱维亚在全球科技领域赢得更多认可,更彰显了保护语言多样性的坚定承诺。

huggingface:https://huggingface.co/TildeAI/TildeOpen-30b
技术:https://tilde.ai/lv/tildeopen-llm/

划重点:
🌍 TildeOpen LLM是首个全面支持欧洲多语种的开源大语言模型,特别关注小型国家语言的数字化需求
💻 模型训练依托欧洲超级计算资源,采用突破性的三阶段采样技术,实现语言间的公平表示
🔒 支持本地化部署,严格遵循GDPR等数据保护法规,为组织提供完整的数据主权解决方案

最新快讯

2025年09月08日

14:33
近日,全球社交媒体顶流“无语哥”(Khaby Lame)宣布将开启中国行,这一消息迅速引爆了餐饮界与社交媒体领域。这位以标志性的“摊手、摇头”表情包风靡全球的意大利籍塞内加尔裔网红,将在2025年夏季至秋季首次踏上中国土地,展开一场备受瞩目的文化之旅。截至目前,他在全平台已积累了高达2.59亿的粉丝,其中TikTok上的粉丝数就达到了惊人的1.6亿,稳居福布...
14:33
近日,一段来自贵州的感人视频在网络上引发热议,画面中一位父亲奋不顾身的救女瞬间,让无数网友为之动容。这位被亲切称为"超人爸爸"的男子,用超越极限的父爱诠释了生命的守护,其英勇事迹迅速收获了数十万网友的点赞与转发。 视频记录了惊心动魄的救援过程。当时,一名小女孩正坐在玩具车内玩耍,突然玩具车失去平衡,孩子连同车辆一起向地面栽倒。千钧一发之际,站在不远处的父亲伍...
14:33
近日,网络上传出小米AI眼镜迎来重要版本升级的消息,官方正式推送了1.2.31.0版本固件更新。据用户反馈,此次更新带来了备受期待的支付宝“看一下支付”功能,实现了发布会中承诺的便捷扫码支付体验。通过唤醒小爱同学,用户可以轻松完成支付流程,极大提升了使用场景的便利性。 收到升级通知的用户无需等待,只需根据系统提示完成眼镜与支付宝的绑定操作,即可解锁这项创新功...
14:33
朋友最近遇到了借贷纠纷,最初尝试在通用大模型上寻求帮助,但得到的回复要么过于笼统的法律常识,要么是法条引用错误,连一个实用的催款模式或有效催款方法都未能提供。这让我深刻意识到,在法律这类需要实际落地的场景中,单纯具备问答能力的大模型远远不够。直到我发现了幂律智能最新推出的吾律,才真正找到了能解决实际问题的法律AI Agent!为了帮助更多有法律需求的朋友,我...
14:27
2025年9月8日,国际知名投资银行Berenberg发布最新研报,将荷兰半导体设备龙头企业阿斯麦(ASML)的股价目标从600欧元下调至560欧元。这一调整不仅体现了市场对阿斯麦近期业绩波动的关注,更折射出该投行对全球半导体设备行业未来发展趋势的重新审视。据Berenberg分析师透露,此次调降主要基于对当前市场环境下行业竞争格局变化以及阿斯麦自身业务增长...
14:27
2025年中国国际服务贸易交易会即将拉开帷幕之际,备受瞩目的北京数据集团将于9月10日至14日期间举行正式揭牌仪式。这一重要举措标志着北京市在数据要素市场化配置和数字经济发展方面迈出关键一步。据悉,该集团已于今年7月22日顺利完成注册成立,初始注册资本高达30亿元人民币,为未来拓展业务规模和提升行业影响力奠定了坚实基础。 在股权结构方面,北京市国有资产经营有...
14:27
中国地震台网最新监测数据显示,9月8日13时50分,台湾花莲县近海区域(北纬23.81度,东经122.39度)发生4.2级地震,震源深度达15千米。此次地震发生在海域地带,具体影响范围及灾害情况仍在持续评估中。作为浅源地震,震中周边海域的地质活动备受关注,相关部门已启动应急监测机制,将密切关注后续动态。此次地震虽未造成明显地面破坏,但专家提醒沿海居民需保持警...
14:27
9月8日,LABUBU迷你版发布仅十日便遭遇市场冷遇,二手价格出现断崖式下跌。千岛App平台最新数据显示,整版二手价格区间已缩水至1400元至1850元,较发布初期大幅缩水。更令人咋舌的是,部分冷门款式如“I”和“N”的二手价格已跌至81元,堪称白菜价。 值得关注的是隐藏款的市场表现同样疲软。以“爱心”为例,近三日成交均价下跌9%,最低成交价仅为670.3元...
14:27
午后,卫星互联网板块迎来强势拉升,中国卫星股价强势涨停,中国联通一度飙升超过5%。这一轮行情的背后,是工信部近日向中国联通集团正式颁发的卫星移动通信业务经营许可,该政策利好消息直接点燃了市场热情,推动整个板块持续升温。受此提振,上海沪工、创远信科、超捷股份等卫星互联网相关个股也纷纷跟涨,展现出强劲的市场活力。随着政策红利的逐步释放,卫星互联网产业有望迎来更广...
14:27
2025年9月7日,台湾台积电高雄楠梓厂区外围惊现一枚早期遗留的空用炸弹残体,这已是该厂区年内第三次发现未爆弹药。台军方未爆弹处理小组经过专业鉴定后确认,该弹体因长期暴露于环境中已严重锈蚀,不再具备即时危险性。根据相关安全规定,台军方将按照废弹处理程序对该弹体进行安全销毁。 此前,该厂区分别在2024年8月27日和11月11日已先后挖出重量分别为1000磅和...
14:27
2025年9月8日,中国工业和信息化部正式向中国联通颁发了卫星移动通信业务经营许可,标志着我国卫星通信领域迈入新的发展阶段。这一重要举措不仅为中国联通打开了依法开展手机直连卫星等创新业务的大门,更为应急通信、海事通信以及偏远地区通信等关键场景的应用提供了强有力的政策支持。通过此次许可,中国联通将能够进一步拓展其服务范围,将卫星通信服务更广泛地覆盖至普通用户群...
14:27
9月8日,随着首对500米长钢轨在西安东至蓝田区间成功铺设,西十高铁全线铺轨工程正式拉开帷幕,标志着这一穿越秦岭山脉的重大交通项目进入最后攻坚阶段。作为一条连接西安、商洛、十堰三市的快速铁路,西十高铁全长512公里,设计时速高达350公里,其地质条件之复杂、施工难度之大,在铁路建设史上堪称挑战。由于线路蜿蜒于秦岭腹地,桥隧比高达95%,相当于每100公里就有...