机器之心报道

编辑:杨文

字节拿出了国际顶尖水平的视觉–语言多模态大模型。

5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

其中,全场最吸睛的就是豆包 1.5・视觉深度思考模型(以下称 Seed 1.5-VL)。

相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。

举个例子。仅需一张图,再来个提示词,Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。



视频链接:https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

再比如,喂它一段监控,问一句:「今天小猫干了哪些坏事?」几秒钟后,它就丢过来几段视频,「抓包」了小猫遛弯、玩球、巡视、搞破坏等各种「作案」现场。



视频链接:https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

尽管 Seed1.5-VL 的激活参数仅有 20B,但其性能可达到与 Gemini2.5 Pro 相当的水平,在 60 个公开评测基准中,有 38 个取得 SOTA 表现,在视频理解、视觉推理、多模态智能体能力等方面均处于第一梯队。



Seed1.5-VL 推理性能拉满,但推理成本极具优势。据其官网显示,Seed1.5-VL 推理输入价格仅为每千 tokens 0.003 元,推理输出价格为每千 tokens 0.009 元。



目前,Seed1.5-VL 已在火山引擎全面开放 API,开发者登录后选择 Doubao-1.5-thinking-vision-pro 即可快速调用其能力,构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

  • 官网:

https://seed.bytedance.com/tech/seed1_5_vl

  • API:

https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428

一手实测:视觉定位、推理又快又准

说一千道一万,模型好不好使,还得亲自上手试。接下来,我们就奉上一手实测,检验一下 Seed1.5-VL 真实能力。

先来看看它的视觉定位和推理能力。

我们上传一张摆满各式各样牛奶的货架图片,让它找出图中有几盒黄桃味果粒酸奶优酸乳,并计算它们的价格。



这类任务看似简单,实则非常考验模型的多模态协同能力,需要它同时具备图像理解(识别包装)、文本 OCR(识别价格标签)、语义匹配(产品名称匹配)、数学推理(乘法计算)等能力。



而 Seed1.5-VL 仅用不到 10 秒,就精准识别出货架角落里的黄桃味酸奶优酸乳,还准确数清瓶数、识别单价,并进行正确的价格计算。

除了门店货架巡检的工作,我们还让它找出下图中有几只小猫在生气。



从图像像素级别的变化中提取情绪线索,这对大模型的图像理解精度、注意力机制、细粒度识别能力都是极大的挑战。Seed1.5-VL 面对一整屏表情相似的小猫脸,准确识别出 5 只在「生气」,并给出了相应坐标。



还有下面这个「找不同」测试,Seed1.5-VL 既能精确分析两张相似图片的细微差别,又能清晰描述所有不同点,比如太阳左侧飞鸟数量、沙滩球颜色等,这展示了它在视觉理解、空间关系处理和结构化输出方面的综合能力。



此外,它还可以推理复杂视觉谜题。

比如这道公务员图形推理题目,大部分人看到这些黑白方块一头雾水,但 Seed1.5-VL 仅用 10 秒就捕捉到其中的规律,通过精准识别前两行图形叠加后「去同存异」的变换逻辑,准确推导出第三行的缺失图形。

对于开发者来说,Seed1.5-VL 新增的多模态智能体能力是一大利器。它基于强大的 GUI 定位性能,可在 PC 端、手机端等不同环境中完成复杂交互任务。

比如在测试环境中,Agent 可以识别并点击「点赞」按钮,用于模拟用户行为,验证功能流程是否正常。



视频链接:https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

技术解读:重构视觉理解边界

作为 Seed 系列最新一代多模态模型,Seed1.5-VL 在超过 3T token 的多模态数据上完成预训练,在图像问答、图表理解、视觉推理、视频分析、GUI 智能体等多个任务上表现突出,成为推动多模态交互应用落地的重要引擎。

那么,该模型背后有哪些独门绝技?



  • 论文链接:https://arxiv.org/abs/2505.07062
  • 技术报告:https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf
  • GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL

从模型架构上来说,Seed1.5-VL 由三个核心组件构成:首先是视觉编码模块 SeedViT,模型参数为 532M,用于对图像和视频进行编码,能够处理任意长宽比的图像输入;其次是一个多层感知机(MLP)适配器,负责将视觉特征投影到多模态表征空间;最后是基于 MoE 架构的大语言模型 Seed1.5-LLM,激活参数为 20B,专注于处理融合后的多模态输入。



尽管激活参数规模远小于传统大型模型,但其表现却足以媲美甚至超越当前多项主流方法,在保证性能的同时显著降低了推理成本。

在训练方法上,Seed1.5-VL 并未从一开始就进行联合多模态学习,而是选择了在语言模型基座上进行多模态预训练,以实现灵活的消融实验和快速迭代开发。

整个预训练过程分为三个阶段:初期仅训练 MLP 适配器以初步对齐视觉和语言表征;中期解冻所有参数,在大规模图文数据中强化知识积累、视觉 grounding 和 OCR 能力;后期在更均衡的数据混合中加入视频、编程、三维理解等新领域数据,并将序列长度显著增加,以处理复杂场景和长序列依赖。

到了后训练阶段,Seed1.5-VL 引入了监督微调(SFT)与强化学习(RL)的组合策略。

SFT 训练数据集包含通用指令数据和长链式思考数据,前者用于简洁准确响应,后者用于详细分步推理。其中长链式思考数据是基于强化学习后的模型,通过拒绝采样的方式得到。

强化学习则整合了基于人类和验证器反馈的强化学习(RLHF/RLVR)及多项先进技术。采用混合奖励,区分通用与可验证提示,通用提示仅奖励最终解以激励思考探索;针对不同类型的任务采用差异化 KL 散度系数,平衡奖励利用与探索。



考虑到多模态模型在训练中的异构性挑战,Seed1.5-VL 在 Training Infrastructure 设计上也进行了大量工程创新。

模型采用多模态并行框架,针对视觉编码 / MLP 适配器和语言模型分别使用 ZeRO 数据并行与标准 4D 并行策略,充分发挥各自优势;视觉 token 的重分配采用局部贪心负载均衡算法,将计算负载合理分布在 GPU 集群中,提升吞吐效率;此外,还定制了数据加载器,优化了数据读取和分发过程。

Seed1.5-VL 以其强大的多模态理解与推理能力,正在重塑我们与视觉世界交互的方式。无论是图像定位、视觉推理还是长视频解析,Seed1.5-VL 都展示了行业领先的技术实力,也为通用视觉系统的实际应用拓宽了路径。

结语

在此次上海巡展中,火山引擎展示了其在 AI 领域的多项创新成果。从轻量级视频生成到深度视觉理解,再到音乐创作与全流程数据智能体,火山引擎正逐步构建一个完整的技术生态,不仅为企业提供了更强的技术支撑,也推动了从业务流程到智能体应用的全面落地。

这也意味着,真正的多模态智能时代,正加速走进现实。

ad1 webp
ad2 webp
ad1 webp
ad2 webp