字节最强多模态模型登陆火山引擎！Seed1.5-VL狂揽38项SOTA

机器之心报道

编辑：杨文

字节拿出了国际顶尖水平的视觉–语言多模态大模型。

5 月 13 日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了 5 款模型和产品，包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型，以及新版豆包・音乐模型。同时，Data Agent 和 Trae 等产品也有了新进展。

其中，全场最吸睛的就是豆包 1.5・视觉深度思考模型（以下称 Seed 1.5-VL）。

相比于之前版本，Seed1.5-VL 具备更强的通用多模态理解和推理能力，不仅视觉定位和推理更快更准，还新增了视频理解、多模态智能体能力。

举个例子。仅需一张图，再来个提示词，Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素，还能正确分类并给出坐标。

视频链接：https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

再比如，喂它一段监控，问一句：「今天小猫干了哪些坏事？」几秒钟后，它就丢过来几段视频，「抓包」了小猫遛弯、玩球、巡视、搞破坏等各种「作案」现场。

视频链接：https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

尽管 Seed1.5-VL 的激活参数仅有 20B，但其性能可达到与 Gemini2.5 Pro 相当的水平，在 60 个公开评测基准中，有 38 个取得 SOTA 表现，在视频理解、视觉推理、多模态智能体能力等方面均处于第一梯队。

Seed1.5-VL 推理性能拉满，但推理成本极具优势。据其官网显示，Seed1.5-VL 推理输入价格仅为每千 tokens 0.003 元，推理输出价格为每千 tokens 0.009 元。

目前，Seed1.5-VL 已在火山引擎全面开放 API，开发者登录后选择 Doubao-1.5-thinking-vision-pro 即可快速调用其能力，构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

官网：

https://seed.bytedance.com/tech/seed1_5_vl

API：

https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428

一手实测：视觉定位、推理又快又准

说一千道一万，模型好不好使，还得亲自上手试。接下来，我们就奉上一手实测，检验一下 Seed1.5-VL 真实能力。

先来看看它的视觉定位和推理能力。

我们上传一张摆满各式各样牛奶的货架图片，让它找出图中有几盒黄桃味果粒酸奶优酸乳，并计算它们的价格。

这类任务看似简单，实则非常考验模型的多模态协同能力，需要它同时具备图像理解（识别包装）、文本 OCR（识别价格标签）、语义匹配（产品名称匹配）、数学推理（乘法计算）等能力。

而 Seed1.5-VL 仅用不到 10 秒，就精准识别出货架角落里的黄桃味酸奶优酸乳，还准确数清瓶数、识别单价，并进行正确的价格计算。

除了门店货架巡检的工作，我们还让它找出下图中有几只小猫在生气。

从图像像素级别的变化中提取情绪线索，这对大模型的图像理解精度、注意力机制、细粒度识别能力都是极大的挑战。Seed1.5-VL 面对一整屏表情相似的小猫脸，准确识别出 5 只在「生气」，并给出了相应坐标。

还有下面这个「找不同」测试，Seed1.5-VL 既能精确分析两张相似图片的细微差别，又能清晰描述所有不同点，比如太阳左侧飞鸟数量、沙滩球颜色等，这展示了它在视觉理解、空间关系处理和结构化输出方面的综合能力。

此外，它还可以推理复杂视觉谜题。

比如这道公务员图形推理题目，大部分人看到这些黑白方块一头雾水，但 Seed1.5-VL 仅用 10 秒就捕捉到其中的规律，通过精准识别前两行图形叠加后「去同存异」的变换逻辑，准确推导出第三行的缺失图形。

对于开发者来说，Seed1.5-VL 新增的多模态智能体能力是一大利器。它基于强大的 GUI 定位性能，可在 PC 端、手机端等不同环境中完成复杂交互任务。

比如在测试环境中，Agent 可以识别并点击「点赞」按钮，用于模拟用户行为，验证功能流程是否正常。

视频链接：https://mp.weixin.qq.com/s/GgJVkh8IorB6MvqlxESJLw

技术解读：重构视觉理解边界

作为 Seed 系列最新一代多模态模型，Seed1.5-VL 在超过 3T token 的多模态数据上完成预训练，在图像问答、图表理解、视觉推理、视频分析、GUI 智能体等多个任务上表现突出，成为推动多模态交互应用落地的重要引擎。

那么，该模型背后有哪些独门绝技？

论文链接：https://arxiv.org/abs/2505.07062
技术报告：https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf
GitHub：https://github.com/ByteDance-Seed/Seed1.5-VL

从模型架构上来说，Seed1.5-VL 由三个核心组件构成：首先是视觉编码模块 SeedViT，模型参数为 532M，用于对图像和视频进行编码，能够处理任意长宽比的图像输入；其次是一个多层感知机（MLP）适配器，负责将视觉特征投影到多模态表征空间；最后是基于 MoE 架构的大语言模型 Seed1.5-LLM，激活参数为 20B，专注于处理融合后的多模态输入。