豆包2.1杀到生产现场：Coding/Agent跨过质变点，火山引擎要让AI真干活,搜索豆包包宝宝

出品 | 网易科技《态度》栏目

作者 | 纪川

编辑 | 丁广胜

180万亿 Tokens 的日均调用量、49.5% 的中国公有云 MaaS 市场份额、超过110万企业和个人开发者，这些数字摆在一起，已经足够说明火山引擎在大模型市场的存在感。

但当调用量增长和模型能力提升逐渐成为头部玩家的标配，真正决定下一阶段竞争格局的，开始变成另一个问题：

模型能否从高频使用，走向高价值交付；能否从个人尝鲜和效率辅助，进入企业研发、办公协同、内容生产和产业流程；能否在真实生产环境中稳定完成复杂任务。

火山引擎将这道分水岭称为“质变点”。

在其看来，图像领域的 Nano Banana、视频领域的 Seedance 2.0、语言模型领域的 Claude Opus 4.7，都被视为这一阶段的代表性产品。它们的意义不只是生成效果进一步提升，而是让 AI 开始从“展示能力”走向“交付结果”，逐步进入创作、办公、研发和商业生产流程。

6月23日，火山引擎在北京举办2026夏季 FORCE 原动力大会，正式发布豆包大模型2.1。并宣布豆包视频生成模型Seedance 2.5预计将于7月正式上线。

火山引擎认为，Seedance 2.0已经率先推动视频生成跨过质变点，让视频模型从娱乐化工具进入商业内容生产环节，并开始服务具身智能、自动驾驶等高端制造业；而豆包2.1，则希望在 Coding 和 Agent 领域完成类似跃迁。

它要验证的，不再是模型能否回答问题、生成代码片段或调用几个工具，而是能否理解复杂目标、拆解任务流程、持续协同多种工具，并最终在企业真实研发和业务场景中交付结果。

这背后，也是火山引擎叙事重心的一次转变。

过去几年，大模型行业的核心议题是能力提升；而从今年开始，越来越多厂商开始将关注点转向生产力落地。竞争的焦点，正从模型能力本身，转向结果交付能力。

更长期来看，火山引擎希望将模型、Agent、多模态能力与企业基础设施进一步融合，成为承载下一代 AI 应用和产业智能化的新型生产力平台。

01豆包2.1跨过Coding与Agent门槛，模型开始进入办公现场

豆包大模型2.1这次同步推出两个版本：面向高性能复杂任务的Doubao-Seed-2.1-pro，以及面向高性价比、高频调用场景的Doubao-Seed-2.1-turbo。

其中，豆包2.1 Pro最核心的变化，集中在Coding、Agent和VLM三个方向。尤其是Coding与Agent，直接决定了模型能否进入真实办公和生产流程。

火山引擎披露，豆包2.1 Pro在Terminal Bench 2.1、SWE-Pro、SciCode、GDPval、NL2Repo-Bench等多项评测中进入全球第一梯队。其中，Terminal Bench 2.1接近Claude Opus 4.7；SciCode得分达到59.8，超过Opus 4.7与GPT-5.5；NL2Repo-Bench得分47.0，领先GPT-5.5和Gemini 3.1 Pro。

发布会上，火山引擎还展示了一个芯片设计中的RTL任务案例：豆包2.1 Pro连续运行近18小时，经历9轮迭代，完成1300多行可用代码，并跑通仿真、测试、综合检查等流程。

这个案例真正重要的地方，不是“写了多少行代码”，而是模型完成了一个真实工程任务的闭环：理解目标、拆解模块、生成代码、发现错误、持续调试，最后交付可验证结果。

这也是为什么Coding会成为Agent能力的底座。

过去很多Agent本质上还是“模型加插件”：用户说一步，它做一步；工具调用失败，任务就中断；上下文一复杂，结果就漂移。真正的生产级Agent，需要理解模糊目标、拆解任务、动态调整路径，并在数据缺失、接口报错、权限限制时自我修正，最终交付结果。

豆包2.1 Pro在Agent方向的升级，正是围绕这一点展开。它强化了复杂任务理解和拆解能力，可以在复杂环境中动态调整执行路径，提高真实业务场景中任务的一次性交付完成度。

这一变化会首先体现在豆包App和PC端的“办公任务”模式中。

网易科技实测发现，“办公任务模式”下，豆包专业版可以支持本地电脑操作、浏览器操作、网站生成、Office集成、飞书协同、Skill技能调用和定时任务等能力。

其中，最能体现“干活”属性的，是本地电脑操作。下载豆包电脑版之后，通过授权，豆包可以协助调用电脑里的应用、浏览器和文件，完成文件整理、资料归类、文档处理、表格填写、信息搬运和跨应用协作。

这意味着，用户不再只是让AI“帮我写一段话”或“总结一份材料”，而是可以提出更接近真实办公场景的需求：比如整理一个文件夹里的合同资料，把关键信息汇总到表格；根据网页资料生成一份调研文档；或者把多个来源的信息搬运、整合并输出成结构化报告。

更重要的是，豆包专业版还嵌入了飞书的部分能力，整合了飞书旗下的办公套件，包括在线文档、表格、PPT等常用功能。也就是说，它不仅可以完成文字生成，还可以独立制作满足专业交付要求的在线文档、在线表格和PPT作品。据了解，豆包专业版未来还将进一步与飞书融合。

也就是说，豆包正在从Chatbot升级为办公现场中的任务执行者。

对企业来说，这个变化更加关键。据火山引擎披露，ezona、WPS、沐瞳、OPPO、美的等企业已经完成测试并落地，场景覆盖代码生成、智能体应用等方向。

这也是豆包2.1最重要的意义：它让大模型更接近真实办公现场。

02 Seedance带动视频生成质变，多模态能力走向生产系统

如果说豆包2.1解决的是语言、代码和Agent进入生产的问题，那么Seedance、Seedream和Seed-Audio代表的，则是火山引擎在多模态生产系统上的布局。

其中，视频模型Seedance 2.0是最关键的样本。

谭待在采访中提到，判断一个模型是否跨过质变点，不能只看发布会Demo，而要看用户真实使用方式有没有变化。

他举了Seedance 2.0的例子：在Seedance 2.0之前，视频模型调用更多集中在周末，说明用户主要把它当作UGC和娱乐工具；Seedance 2.0之后，工作日负载和调用次数超过周末，说明它已经开始被用于办公和生产场景。

这是一个很直观的信号。

当视频生成只是“好玩”，用户会在休闲时间使用；当它能够生成具身智能和自动驾驶的合成数据、广告素材、电商视频、影视预览、产品说明、培训内容时，它就会进入工作日的生产流程。

Seedance 2.0实现了原生4K生成能力，支持4K 10-bit高位深原生直出，并已在影视创作、广告、电商营销等领域规模化落地。

即将于7月初上线的Seedance 2.5，则进一步强化三类能力：一是支持30秒单段原生直出，突破行业主流20秒左右的生成时长；二是支持最多50个全模态素材联合输入，包括角色设定、场景参考、实拍片段、脚本分镜、3D资产等；三是支持在维持整体画面不变的情况下进行局部编辑。

这些能力的价值，不只是让视频更精致，而是让视频生成更接近真实制作流程。

商业内容生产并不需要完全随机的“抽卡式生成”，而是需要稳定、可控、可修改、可复用。多素材输入和局部编辑，正是视频模型从玩具走向工具、从工具走向生产系统的关键。

更重要的是，视频模型的价值不只在内容行业。

在制造业，企业可以用它生成产品操作说明、员工培训视频、售后服务内容；在具身智能领域，可以生成机器人操作训练数据；在自动驾驶领域，可以合成极端天气、罕见事故、高速复杂路况等Corner Case，用于训练和测试。

谭待在采访中还提到，视频生成模型是通往世界模型的重要路径之一。因为视频天然包含时间、空间、动作和环境变化。一个能够生成连续、稳定、符合物理关系视频的模型，背后一定具备一定的世界理解和连续推演能力。

因此，Seedance不只是内容生产模型，也可能成为未来机器人、自动驾驶、仿真训练和数据生成的重要基础能力。

除了视频，火山引擎也在图像和音频方向同步推进。

Force大会展示最新的图像模型Seedream 5.0 Pro，该模型将在近日上线，强调的不是单纯“画得更美”，而是交互式编辑、多图层分离、高密度信息表达和多语种文字生成。这些能力更贴近企业设计工作流。商业设计需要的不只是生成一张图，而是能持续修改、拆分图层、承载复杂信息，并适配不同语言市场。

音频模型Seed-Audio 1.0则把语音合成推进到更完整的制作流程。它支持0样本多模态生成、长时一致性，以及多角色、多轨道语音同步合成与混编，适合有声书、播客、影视配音、虚拟人、多语种传播等场景。

当文本、代码、图像、视频、音频模型分别跨过自己的生产力门槛，真正的变化会发生在它们被Agent统一调度之后。

比如，一个企业用户提出：“帮我做一支面向东南亚市场的新品发布视频。”未来的Agent可以自动读取产品资料、提炼卖点、生成脚本、设计分镜、生成视觉素材、调用Seedance生成视频片段、调用Seed-Audio生成多语种配音，并输出适配不同平台的版本。

这类工作过去需要策划、设计、视频制作、配音、翻译、运营等多个角色协作。多模态模型加Agent，正在把它重构成一条自动化生产链。

这就是多模态质变的真正含义：不是单个模型效果提升，而是文本、代码、图像、视频、音频开始共同组成面向真实业务的生产系统。

03火山引擎进入“模型即生产力基础设施”阶段

豆包2.1和Seedance 2.0背后，是火山引擎更大的战略：从提供模型能力，走向提供AI生产力基础设施。

过去，大模型竞争更多围绕“谁的模型更强”。但当模型逐渐跨过生产级门槛后，新的问题变成：企业如何真正用起来？

企业不是在真空中使用AI。它们有既有系统、内部数据、权限体系、安全要求、行业流程和ROI约束。模型能力再强，如果不能接入这些现实环境，也很难真正创造生产力。

这正是火山引擎想切入的地方。

截至2026年6月，豆包大模型日均Tokens调用量突破180万亿，过去一年增长超过10倍；火山方舟已服务超过110万企业和个人；在中国公有云MaaS市场，火山引擎Tokens份额提升至49.5%；年Token调用量超过1万亿的企业超过200家，半年增长一倍，覆盖互联网、制造、金融、汽车等多个行业。

这些数据说明，火山引擎已经不是在验证MaaS市场是否存在，而是在争夺企业AI基础设施入口。

但谭待在采访中也提到，模型进入企业，不能只停留在API调用量增长，而要真正深入业务场景。为此，火山引擎今年专门成立了FDE团队。

FDE不是传统销售，也不是普通售前，而是具备代码落地能力和行业理解能力的工程团队。它的任务是进入客户业务现场，和标杆客户一起找到AI真正能落地的关键环节，把模型能力转化为可运行、可评估、可复制的方案。

这个动作说明，火山引擎已经意识到，大模型商业化不是把API卖给企业就结束了。真正的价值发生在模型进入业务流程之后：进入研发流程、营销流程、金融分析流程、制造仿真流程、教育辅导流程、智能汽车交互流程。

发布会上，火山引擎展示了多个行业案例。

安谋科技采用火山引擎EDA混合云方案，将核心IP和设计数据保留本地，结合TRAE、ArkClaw、HiAgent等产品提升仿真、取数、CAD运维和UVM测试效率；Wind在金融终端集成豆包大模型，用于处理研报、公告等非结构化数据；新东方基于豆包打造AI助教Agent，覆盖口语练习、作文批改和个性化反馈；涂鸦智能将豆包接入AIoT生态，已落地12000多个Agent，每天为全球用户提供超过1.55亿次AI交互。

这些案例共同说明，AI正在从外围工具进入行业内部流程。

与此同时，火山引擎也在升级Agent基础设施。

大会上发布的方舟CLI，支持开发者通过自然语言调用全系列模型，并一键接入Claude Code、Cursor、TRAE等主流Agent。AgentKit也全面升级，新增Policy和Registry模块。

其中，Policy用于明确Agent行为边界，确保Agent在企业身份、权限和策略范围内执行；Registry则负责Agent、Skills和工具能力的统一注册、发现和治理。

这背后的逻辑是，当Agent进入企业，它不再只是聊天窗口，而是一个能访问数据、调用工具、执行动作的“数字员工”。企业必须知道它是谁、能访问什么、能执行什么、不能做什么，以及出了问题如何追溯。

在安全和版权方面，火山引擎也同步补齐底座。

大会发布的AI Trust安全体系，覆盖机密计算、智能体安全和安全运营。谭待在采访中还透露，Seedance 2.0春节前就已经出来，但正式API到4月才开放，中间几个月很重要的工作，就是完善安全策略、商业端安全策略、IP版权保护和用户侧人脸保护。

因此，火山引擎现在做的，不只是发布更强模型，而是搭建一套完整的AI生产力基础设施：底层是豆包、Seedance、Seedream、Seed-Audio等模型；中间是火山方舟、方舟CLI、AgentKit、HiAgent、ArkClaw等平台；上层是汽车、半导体、金融、教育、智能家居、制造、零售、具身智能、自动驾驶等行业场景。

质变点之前，AI主要回答问题。质变点之后，AI开始交付工作。

而火山引擎正在做的，就是把大模型从应用入口，推向企业生产力基础设施。