百灵Ling-2.6-flash发布：104B参数实现SOTA级Agent仅需1/10 Token消耗

2026-04-23 02:43:37 互联网 4 次阅读

微新创想：今日，蚂蚁百灵正式推出 Ling-2.6-flash 一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。该模型主打 Token 效率（Token Efficiency），在保持竞争力智能水平的同时，更快、更省以及更适合大规模真实应用。

据权威三方评测 Artificial Analysis 数据，Ling-2.6-flash 展现了突出的 Token Efficiency 优势，以 15M output tokens 实现了 26 分的 Intelligence Index。在保持较强智能水平的同时，将输出消耗控制在相对更低的位置。

据了解，Ling-2.6-flash 沿用了 Ling 2.5 的混合线性架构设计，这种高度稀疏化的 MoE 架构在硬件表现上优势明显。在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s，Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍。

在 Output Speed 测评中，Ling-2.6-flash 以 215 tokens/s 的稳定输出速度位列同参数级别模型的第一梯队。从 Token 消耗来看，Ling-2.6-flash 的智效比显著提升。在 Artificial Analysis 完整测评中，Ling-2.6-flash 总消耗为 15M tokens，而 Nemotron-3-Super 等模型达到或超过 110M tokens。这意味着，Ling-2.6-flash 仅用约 1/10 的 token 消耗完成了同类评测任务。

Ling-2.6-flash 面向 Agent 场景进行了定向增强，在控制 Token 消耗的前提下，依然保持了极强的任务执行力。模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等 Agent 相关基准上达到同尺寸 SOTA 水平。

与此同时，Ling-2.6-flash 在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准。API 定价方面，Ling-2.6-flash 输入每百万 tokens 定价 0.1 美元，输出 0.3 美元。

目前，Ling-2.6-flash 的 API 已正式向用户开放，并提供为期一周的限时免费试用。用户可以通过 OpenRouter、百灵大模型 tbox 获取对应服务。据了解，该模型后续将通过蚂蚁数科发布商业版本 LingDT，服务全球开发者及中小企业。