火山引擎发布豆包图像编辑同传模型加速Agent开发落地

2025-07-30 14:37:52 AI动态 45 次阅读

7月30日，火山引擎在FORCE Link AI创新巡展·厦门站上重磅发布豆包系列新模型及AI云原生服务升级成果，为企业与开发者构建Agent、落地AI应用提供全栈支持。火山引擎总裁谭待现场揭晓了包括豆包·图像编辑模型3.0、同声传译模型2.0，以及全新升级的豆包大模型1.6系列在内的系列创新成果，同时推出扣子核心能力开源、企业自有模型托管方案等实用工具，进一步丰富火山引擎的AI生态体系。

图:火山引擎总裁谭待发布最新豆包模型

豆包系列新模型面向企业开放，直击AI图像编辑中的三大痛点——”听不懂指令、误改内容、生成效果差”。火山引擎推出的豆包·图像编辑模型3.0（SeedEdit3.0）通过强化指令遵循能力、图像保持能力及生成质量，让用户仅凭自然语言即可完成消除冗余、调整光影、替换元素等操作，还能实现风格转换、材质变换、姿势调整等创新修图场景。该模型广泛适用于影像创作、广告营销等领域，企业用户可在火山方舟调用其API，个人用户则能通过即梦或豆包app进行体验。

最新发布的豆包·同声传译模型2.0（Seed-LiveInterpret2.0）突破传统”级联模型”局限，采用全双工框架将语音延迟从8-10秒降至2-3秒，实现文本与语音同步生成。更支持0样本声音复刻，无需提前录制即可实时生成同音色外语语音，甚至匹配方言口音，大幅提升跨语言沟通沉浸感。

豆包大模型1.6系列也进行了全面升级。其中，极速版Doubao-Seed-1.6-flash模型在保持强大视觉理解能力的同时，强化了代码、推理、数学等能力，适配智能巡检、手机助手等大规模商业化场景。该模型TPOT（首Token输出时间）低至10ms，为业界领先；成本上，在0-32k输入文本长度区间(企业最常用)，每百万tokens输入仅0.15元、输出1.5元，在客户使用案例中，已实现延迟下降60%、成本降低70%。此外，全模态向量化模型Seed1.6-Embedding首次实现”文本+图像+视频”混合模态融合检索，助力企业构建更强大的多模态知识库，在权威测评中包揽多模态全面任务及中文文本的最优成绩。

为助力Agent端到端开发与落地，火山引擎持续优化AI云原生全栈服务。7月26日，AI Agent开发平台扣子核心能力正式开源，涵盖一站式可视化开发工具”扣子开发平台（Coze Studio）”和全链路管理工具”扣子罗盘(Coze Loop)”，采用Apache2.0许可证，用户可在GitHub下载。开源仅三天，Coze Studio星标数破万，Coze Loop星标数超3000。火山引擎为其提供全面支持，企业AI平台HiAgent可调用其能力，云基础产品支持一键部署。

针对有模型定制需求的企业，火山引擎依托火山方舟模型单元推出自有模型托管方案。企业无需运维底层GPU资源及复杂配置，即可实现自研模型全托管，享受弹性算力，自主选择部署方式与机型，精准控制时延，且无需为业务低谷期付费，目前已开放邀测。同时，火山方舟升级API体系，推出Responses API。该API具备原生上下文管理能力，支持多轮对话链式管理及文本、图像等多模态数据衔接，结合缓存能力可降低80%成本；还支持单次请求联动多工具与模型组合响应，将智能助手Agent开发从460行代码、1-2天，缩减至60行代码、1小时，大幅提升效率。

此次系列发布进一步完善了火山引擎AI生态布局，为企业与开发者提供从基础模型到开发工具的全链条支持，加速AI在各行业的落地应用。