Liquid AI 近期重磅推出 LFM2-VL 系列视觉语言基础模型,这一创新举措将多模态 AI 技术推向了前所未有的新高度,朝着「精简化、高速化、设备端部署」的演进方向迈出了关键一步。该系列包含两款核心模型:LFM2-VL-450M 和 LFM2-VL-1.6B。前者专为资源受限的硬件环境量身打造,参数量控制在 5 亿以内;后者虽然参数量有所增加,但依然保持轻量化设计,能够直接部署在单个 GPU 或设备上。
LFM2-VL 系列模型继承并扩展了 Liquid AI 之前推出的 LFM2 架构,成功整合了视觉与语言处理能力,支持多分辨率图片输入,能够同时处理文本和图像数据,展现出卓越的灵活性与广泛的兼容性 (liquid.ai,Venturebeat)。在性能表现上,该模型在 GPU 推理速度上实现了高达「两倍」的显著提升,同时在多项常见性能评测中脱颖而出,表现令人瞩目 (Venturebeat,liquid.ai)。
在图像处理方面,LFM2-VL 模型具备独特优势,能够以原始分辨率(最高 512×512)直接输入图像,有效避免了因强制缩放而导致的失真问题。对于更大尺寸的图像,模型会采用非重叠切片方式进行处理,并配合缩略图来获取全局语境信息,确保图像信息的完整性与准确性 (Venturebeat,liquid.ai)。其架构设计由语言模型主干、SigLIP2NaFlex 视觉编码器以及一个多模态投影器三部分构成。投影器特别采用了两层 MLP(结合 pixel unshuffle 技术)来减少图像 token 数量,从而大幅提升处理速度 (Venturebeat,liquid.ai)。
在训练数据方面,LFM2-VL 模型积累了约 1,000 亿多模态训练 token,这些数据来源于开源数据集与公司自有的合成图像数据,为模型的性能奠定了坚实基础 (Venturebeat,liquid.ai)。评测结果显示,LFM2-VL-1.6B 在 RealWorldQA(65.23)、InfoVQA(58.68)、OCRBench(742)等关键任务中均取得了优异成绩,同时在推理效率上超越了同类模型,展现出强大的综合实力 (Venturebeat,liquid.ai)。
目前,这些模型已在 Hugging Face 平台公开发布,并提供了在 Colab 上的微调示例代码,全面兼容 Hugging Face Transformers 与 TRL 库。在授权方面,Liquid AI 推出了一种基于 Apache2.0 原则的新「LFM1.0授权协议」,为学术研究提供开放支持,年收入低于 1,000 万美元的公司可用于商业用途,而年营收更高的企业则需要联系 Liquid AI 获取专属授权 (Venturebeat,liquid.ai)。
Liquid AI 的 LFM2-VL 模型组合为视觉与文本融合 AI 在设备端的部署开辟了全新路径,尤其适用于手机、笔记本电脑、可穿戴设备等场景,有助于显著降低对云端的依赖,提升数据隐私保护水平与响应速度。项目主页:https://huggingface.co/LiquidAI/LFM2-VL-1.6B
划重点:
🆕 两种型号设计:LFM2-VL-450M(极简资源环境适用)和 LFM2-VL-1.6B(更强但依然轻量),完美适配设备端部署需求。
速度与效率兼顾:GPU 推理速度高达 2 倍提升,同时具备卓越的多模态任务表现,实现性能与效率的双重突破。
多平台友好环境:已发布在 Hugging Face,提供灵活的授权选项,全面兼容主流开发工具,既适合学术研究,也支持中小企业商业应用。