出品 | 网易科技《态度》栏目

作者 | 纪川

编辑 | 丁广胜

180万亿 Tokens 的日均调用量、49.5% 的中国公有云 MaaS 市场份额、超过110万企业和个人开发者,这些数字摆在一起,已经足够说明火山引擎在大模型市场的存在感。

但当调用量增长和模型能力提升逐渐成为头部玩家的标配,真正决定下一阶段竞争格局的,开始变成另一个问题:

模型能否从高频使用,走向高价值交付;能否从个人尝鲜和效率辅助,进入企业研发、办公协同、内容生产和产业流程;能否在真实生产环境中稳定完成复杂任务。

火山引擎将这道分水岭称为“质变点”。

在其看来,图像领域的 Nano Banana、视频领域的 Seedance 2.0、语言模型领域的 Claude Opus 4.7,都被视为这一阶段的代表性产品。它们的意义不只是生成效果进一步提升,而是让 AI 开始从“展示能力”走向“交付结果”,逐步进入创作、办公、研发和商业生产流程。

6月23日,火山引擎在北京举办2026夏季 FORCE 原动力大会,正式发布豆包大模型2.1。并宣布豆包视频生成模型Seedance 2.5预计将于7月正式上线。

火山引擎认为,Seedance 2.0已经率先推动视频生成跨过质变点,让视频模型从娱乐化工具进入商业内容生产环节,并开始服务具身智能、自动驾驶等高端制造业;而豆包2.1,则希望在 Coding 和 Agent 领域完成类似跃迁。

它要验证的,不再是模型能否回答问题、生成代码片段或调用几个工具,而是能否理解复杂目标、拆解任务流程、持续协同多种工具,并最终在企业真实研发和业务场景中交付结果。

这背后,也是火山引擎叙事重心的一次转变。

过去几年,大模型行业的核心议题是能力提升;而从今年开始,越来越多厂商开始将关注点转向生产力落地。竞争的焦点,正从模型能力本身,转向结果交付能力。

更长期来看,火山引擎希望将模型、Agent、多模态能力与企业基础设施进一步融合,成为承载下一代 AI 应用和产业智能化的新型生产力平台。

01豆包2.1跨过Coding与Agent门槛,模型开始进入办公现场

豆包大模型2.1这次同步推出两个版本:面向高性能复杂任务的Doubao-Seed-2.1-pro,以及面向高性价比、高频调用场景的Doubao-Seed-2.1-turbo。

其中,豆包2.1 Pro最核心的变化,集中在Coding、Agent和VLM三个方向。尤其是Coding与Agent,直接决定了模型能否进入真实办公和生产流程。

火山引擎披露,豆包2.1 Pro在Terminal Bench 2.1、SWE-Pro、SciCode、GDPval、NL2Repo-Bench等多项评测中进入全球第一梯队。其中,Terminal Bench 2.1接近Claude Opus 4.7;SciCode得分达到59.8,超过Opus 4.7与GPT-5.5;NL2Repo-Bench得分47.0,领先GPT-5.5和Gemini 3.1 Pro。

发布会上,火山引擎还展示了一个芯片设计中的RTL任务案例:豆包2.1 Pro连续运行近18小时,经历9轮迭代,完成1300多行可用代码,并跑通仿真、测试、综合检查等流程。

这个案例真正重要的地方,不是“写了多少行代码”,而是模型完成了一个真实工程任务的闭环:理解目标、拆解模块、生成代码、发现错误、持续调试,最后交付可验证结果。

这也是为什么Coding会成为Agent能力的底座。

过去很多Agent本质上还是“模型加插件”:用户说一步,它做一步;工具调用失败,任务就中断;上下文一复杂,结果就漂移。真正的生产级Agent,需要理解模糊目标、拆解任务、动态调整路径,并在数据缺失、接口报错、权限限制时自我修正,最终交付结果。

豆包2.1 Pro在Agent方向的升级,正是围绕这一点展开。它强化了复杂任务理解和拆解能力,可以在复杂环境中动态调整执行路径,提高真实业务场景中任务的一次性交付完成度。

这一变化会首先体现在豆包App和PC端的“办公任务”模式中。

网易科技实测发现,“办公任务模式”下,豆包专业版可以支持本地电脑操作、浏览器操作、网站生成、Office集成、飞书协同、Skill技能调用和定时任务等能力。

其中,最能体现“干活”属性的,是本地电脑操作。下载豆包电脑版之后,通过授权,豆包可以协助调用电脑里的应用、浏览器和文件,完成文件整理、资料归类、文档处理、表格填写、信息搬运和跨应用协作。

这意味着,用户不再只是让AI“帮我写一段话”或“总结一份材料”,而是可以提出更接近真实办公场景的需求:比如整理一个文件夹里的合同资料,把关键信息汇总到表格;根据网页资料生成一份调研文档;或者把多个来源的信息搬运、整合并输出成结构化报告。

更重要的是,豆包专业版还嵌入了飞书的部分能力,整合了飞书旗下的办公套件,包括在线文档、表格、PPT等常用功能。也就是说,它不仅可以完成文字生成,还可以独立制作满足专业交付要求的在线文档、在线表格和PPT作品。据了解,豆包专业版未来还将进一步与飞书融合。

也就是说,豆包正在从Chatbot升级为办公现场中的任务执行者。

对企业来说,这个变化更加关键。据火山引擎披露,ezona、WPS、沐瞳、OPPO、美的等企业已经完成测试并落地,场景覆盖代码生成、智能体应用等方向。

这也是豆包2.1最重要的意义:它让大模型更接近真实办公现场。

02 Seedance带动视频生成质变,多模态能力走向生产系统

如果说豆包2.1解决的是语言、代码和Agent进入生产的问题,那么Seedance、Seedream和Seed-Audio代表的,则是火山引擎在多模态生产系统上的布局。

其中,视频模型Seedance 2.0是最关键的样本。

谭待在采访中提到,判断一个模型是否跨过质变点,不能只看发布会Demo,而要看用户真实使用方式有没有变化。

他举了Seedance 2.0的例子:在Seedance 2.0之前,视频模型调用更多集中在周末,说明用户主要把它当作UGC和娱乐工具;Seedance 2.0之后,工作日负载和调用次数超过周末,说明它已经开始被用于办公和生产场景。

这是一个很直观的信号。

当视频生成只是“好玩”,用户会在休闲时间使用;当它能够生成具身智能和自动驾驶的合成数据、广告素材、电商视频、影视预览、产品说明、培训内容时,它就会进入工作日的生产流程。

Seedance 2.0实现了原生4K生成能力,支持4K 10-bit高位深原生直出,并已在影视创作、广告、电商营销等领域规模化落地。

即将于7月初上线的Seedance 2.5,则进一步强化三类能力:一是支持30秒单段原生直出,突破行业主流20秒左右的生成时长;二是支持最多50个全模态素材联合输入,包括角色设定、场景参考、实拍片段、脚本分镜、3D资产等;三是支持在维持整体画面不变的情况下进行局部编辑。

这些能力的价值,不只是让视频更精致,而是让视频生成更接近真实制作流程。

商业内容生产并不需要完全随机的“抽卡式生成”,而是需要稳定、可控、可修改、可复用。多素材输入和局部编辑,正是视频模型从玩具走向工具、从工具走向生产系统的关键。

更重要的是,视频模型的价值不只在内容行业。

在制造业,企业可以用它生成产品操作说明、员工培训视频、售后服务内容;在具身智能领域,可以生成机器人操作训练数据;在自动驾驶领域,可以合成极端天气、罕见事故、高速复杂路况等Corner Case,用于训练和测试。

谭待在采访中还提到,视频生成模型是通往世界模型的重要路径之一。因为视频天然包含时间、空间、动作和环境变化。一个能够生成连续、稳定、符合物理关系视频的模型,背后一定具备一定的世界理解和连续推演能力。

因此,Seedance不只是内容生产模型,也可能成为未来机器人、自动驾驶、仿真训练和数据生成的重要基础能力。

除了视频,火山引擎也在图像和音频方向同步推进。

Force大会展示最新的图像模型Seedream 5.0 Pro,该模型将在近日上线,强调的不是单纯“画得更美”,而是交互式编辑、多图层分离、高密度信息表达和多语种文字生成。这些能力更贴近企业设计工作流。商业设计需要的不只是生成一张图,而是能持续修改、拆分图层、承载复杂信息,并适配不同语言市场。

音频模型Seed-Audio 1.0则把语音合成推进到更完整的制作流程。它支持0样本多模态生成、长时一致性,以及多角色、多轨道语音同步合成与混编,适合有声书、播客、影视配音、虚拟人、多语种传播等场景。

当文本、代码、图像、视频、音频模型分别跨过自己的生产力门槛,真正的变化会发生在它们被Agent统一调度之后。

比如,一个企业用户提出:“帮我做一支面向东南亚市场的新品发布视频。”未来的Agent可以自动读取产品资料、提炼卖点、生成脚本、设计分镜、生成视觉素材、调用Seedance生成视频片段、调用Seed-Audio生成多语种配音,并输出适配不同平台的版本。

这类工作过去需要策划、设计、视频制作、配音、翻译、运营等多个角色协作。多模态模型加Agent,正在把它重构成一条自动化生产链。

这就是多模态质变的真正含义:不是单个模型效果提升,而是文本、代码、图像、视频、音频开始共同组成面向真实业务的生产系统。

03火山引擎进入“模型即生产力基础设施”阶段

豆包2.1和Seedance 2.0背后,是火山引擎更大的战略:从提供模型能力,走向提供AI生产力基础设施。

过去,大模型竞争更多围绕“谁的模型更强”。但当模型逐渐跨过生产级门槛后,新的问题变成:企业如何真正用起来?

企业不是在真空中使用AI。它们有既有系统、内部数据、权限体系、安全要求、行业流程和ROI约束。模型能力再强,如果不能接入这些现实环境,也很难真正创造生产力。

这正是火山引擎想切入的地方。

截至2026年6月,豆包大模型日均Tokens调用量突破180万亿,过去一年增长超过10倍;火山方舟已服务超过110万企业和个人;在中国公有云MaaS市场,火山引擎Tokens份额提升至49.5%;年Token调用量超过1万亿的企业超过200家,半年增长一倍,覆盖互联网、制造、金融、汽车等多个行业。

这些数据说明,火山引擎已经不是在验证MaaS市场是否存在,而是在争夺企业AI基础设施入口。

但谭待在采访中也提到,模型进入企业,不能只停留在API调用量增长,而要真正深入业务场景。为此,火山引擎今年专门成立了FDE团队。

FDE不是传统销售,也不是普通售前,而是具备代码落地能力和行业理解能力的工程团队。它的任务是进入客户业务现场,和标杆客户一起找到AI真正能落地的关键环节,把模型能力转化为可运行、可评估、可复制的方案。

这个动作说明,火山引擎已经意识到,大模型商业化不是把API卖给企业就结束了。真正的价值发生在模型进入业务流程之后:进入研发流程、营销流程、金融分析流程、制造仿真流程、教育辅导流程、智能汽车交互流程。

发布会上,火山引擎展示了多个行业案例。

安谋科技采用火山引擎EDA混合云方案,将核心IP和设计数据保留本地,结合TRAE、ArkClaw、HiAgent等产品提升仿真、取数、CAD运维和UVM测试效率;Wind在金融终端集成豆包大模型,用于处理研报、公告等非结构化数据;新东方基于豆包打造AI助教Agent,覆盖口语练习、作文批改和个性化反馈;涂鸦智能将豆包接入AIoT生态,已落地12000多个Agent,每天为全球用户提供超过1.55亿次AI交互。

这些案例共同说明,AI正在从外围工具进入行业内部流程。

与此同时,火山引擎也在升级Agent基础设施。

大会上发布的方舟CLI,支持开发者通过自然语言调用全系列模型,并一键接入Claude Code、Cursor、TRAE等主流Agent。AgentKit也全面升级,新增Policy和Registry模块。

其中,Policy用于明确Agent行为边界,确保Agent在企业身份、权限和策略范围内执行;Registry则负责Agent、Skills和工具能力的统一注册、发现和治理。

这背后的逻辑是,当Agent进入企业,它不再只是聊天窗口,而是一个能访问数据、调用工具、执行动作的“数字员工”。企业必须知道它是谁、能访问什么、能执行什么、不能做什么,以及出了问题如何追溯。

在安全和版权方面,火山引擎也同步补齐底座。

大会发布的AI Trust安全体系,覆盖机密计算、智能体安全和安全运营。谭待在采访中还透露,Seedance 2.0春节前就已经出来,但正式API到4月才开放,中间几个月很重要的工作,就是完善安全策略、商业端安全策略、IP版权保护和用户侧人脸保护。

因此,火山引擎现在做的,不只是发布更强模型,而是搭建一套完整的AI生产力基础设施:底层是豆包、Seedance、Seedream、Seed-Audio等模型;中间是火山方舟、方舟CLI、AgentKit、HiAgent、ArkClaw等平台;上层是汽车、半导体、金融、教育、智能家居、制造、零售、具身智能、自动驾驶等行业场景。

质变点之前,AI主要回答问题。质变点之后,AI开始交付工作。

而火山引擎正在做的,就是把大模型从应用入口,推向企业生产力基础设施。