IBM和Hugging Face联合开源多模态小模型SmolDocling

在今年年初麻省理工科技评论将小模型（Small Language Model）评为2025 年十大突破性技术之一，认为随着大模型的边际收益逐渐减小，小模型有望在特定任务中媲美甚至超越大模型。而最近小模型圈子的一系列成果，都在印证这个趋势——从谷歌的 Gemma3、微软的 Phi4-mini 再到 Mistral 的 Small 3.1……小模型一天比一天精悍。

最近 IBM 和 Hugging Face 的研究人员又联合推出了一个新的小型视觉-语言模型 SmolDocling，这款专为文档转换任务而设计的模型，居然只用 256M 的参数就在各项基准测试上超越了更大规模的其他模型。

图丨相关论文（来源：arXiv）

SmolDocling 基于 Hugging Face 的 SmolVLM 架构，可以处理整个页面的内容，并通过生成“DocTags”（一种新型通用标记格式）精确捕捉页面元素及其位置和上下文信息。与依赖手工制作的流水线或大型基础模型不同，SmolDocling 采用端到端的转换方法，只需 256M 参数的规模就能准确捕获文档元素的内容、结构和空间位置。研究团队称，它在各种文档类型中都表现出色，包括商业文档、学术论文、技术报告、专利和表格等，能够正确再现代码列表、表格、方程式、图表和列表等多样化文档特征。

从多项基准测试的结果来看，SmolDocling 的确展现出了与更大模型相当甚至更优的性能。全页文档文本识别任务中，SmolDocling 的编辑距离为 0.48，F1 分数为 0.80，优于参数量为 7B 的 Qwen2.5 VL、580M 的 GOT 和 350M 的 Nougat。

在公式识别方面，SmolDocling 达到了 0.95 的 F1 分数，与 GOT 相当，且明显优于其他模型。该研究还首次对代码列表识别任务进行了评估，SmolDocling 在这一领域设立了初始基准，精确率和召回率分别为 0.94 和 0.91。

布局分析任务中，SmolDocling 在 DocLayNet 测试集上的表现明显超过了 Qwen2.5-VL-7b。不过两个模型的得分都低于人类基线，原因主要在于数据集本身的复杂性。表格结构识别方面，尽管测试数据集的图像质量较低，SmolDocling 仍然表现出与更大模型相当的能力。

图丨基准测试结果（来源：arXiv）

从许多用户的实测表现上来看，模型的表现的确可圈可点。不过有用户反映，对于表格转为 markdown 或 HTML 的任务，SmolDocling 与其他多模态模型一样，偶尔会出现一些幻觉问题，但对于列边界不明确的表格处理表现还算不错。另一位用户评价道，对于如此小体积的模型来说，其表现还是很不错的，虽然相对来说不够准确，但有望成为 PDF 提取的实用工具。

在实际使用中，SmolDocling 处理一页文档仅需 0.35 秒（在单个 A100 上），只占用 489MB 的显存，甚至可以在手机上就能使用。

那么，SmolDocling 究竟是如何做到在如此小的参数规模下实现这种性能表现的呢？这就要谈到它的架构、训练方法和数据处理策略。

从架构上来说，它所基于的 SmolVLM-256M 架构由两大核心部分组成：视觉编码器和语言骨干。视觉编码器采用 SigLIP base patch-16/512（93M 参数）作为视觉骨干，与 2.2B 版本的同一模型相比，其训练数据重新平衡，更加强调文档理解（41%）和图像描述（14%），结合了 Cauldron、Docmatix 数据集并添加了 MathWriting。模型采用比较激进的像素混洗方法，将每个 512x512 图像块压缩为 64 个视觉标记。

图丨 SmolDocling/SmolVLM 架构（来源：arXiv）

语言骨干则使用 SmolLM-2 家族（135M 参数）的轻量级变体，并通过提高像素到标记的比率（每个标记 4096 像素）和引入子图像分隔符的特殊标记，进一步提升了标记化效率。

研究人员开发的 DocTags 标记格式是 SmolDocling 的另一项核心。这是一种基于 XML 风格的结构化词汇，明确分离文本内容和文档结构，从而提高了图像到序列模型的性能。DocTags 使用开放和关闭标签包裹文本块，独立标签表示指令，支持全面的文档结构表示，包括页面、布局和元素位置。每个元素可以嵌套位置标签，使用固定网格坐标系（0-500）指定其在页面上的边界框。

（来源：arXiv）

此外，DocTags 还集成了 OTSL 词汇表用于编码表格结构，支持列表处理、图片和表格的标题、代码格式保留等多种功能，为文档转换提供了统一而高效的表示方式。

对于小模型来说，训练数据的质量尤其重要。而在 SmolDocling 的过程中，研究人员首先在预训练阶段利用了 DocLayNet-PT（140 万页带有弱标注的数据集）和 Docmatix（130 万文档）。

其中，DocLayNet-PT 是从 DocFM 数据集中提取的，包含来自 CommonCrawl、维基百科和商业相关文档的特殊 PDF 文件，专门选择了具有视觉多样性的内容（方程式、表格、代码、图表、彩色布局）。研究团队通过一系列处理步骤添加了弱标注，包括 PDF 解析和增强，为每个页面提供布局元素、表格结构、语言、主题和图形分类的注释。

此外，研究人员还针对布局、表格、图表、代码和公式等特定任务准备了专门的数据集。布局数据包括 DocLayNet v2（6 万页）、WordScape（6.3 万页）和 SynthDocNet（25 万页）；表格数据来自 PubTables-1M、FinTabNet 和 WikiTableSet；图表数据基于 FinTabNet 的 9 万个表格生成，总计 250 万个图表；代码数据集包含 930 万代码片段，覆盖 56 种编程语言；公式数据集则包含 550 万个特殊公式。

图丨数据集构成（来源：arXiv）

训练采用课程学习方法，逐步对齐模型进行文档转换。首先将 DocTags 作为标记添加到分词器中，冻结视觉编码器，只训练网络其余部分，适应新的输出格式。接着解冻视觉编码器，在预训练数据集上训练模型，同时使用所有任务特定的转换数据集。最后，使用所有可用数据集进行微调，确保模型能够全面把握各种文档元素和特征。

由此，SmolDocling 得以在文档处理任务上实现了良好的表现。并且，与传统的集成系统相比，SmolDocling 还展示出独特的鲁棒性优势。由于其转换输出是在单次处理中推断的，避免了错误在模型流水线中累积的问题。例如，即使表格位置识别不准确，SmolDocling 仍能正确重现表格结构和内容，避免了错误在处理流程中的累积。

不过研究团队表示，其页面元素定位识别能力仍有提升空间，这也将是他们未来工作的重点。团队计划公开更多数据集，推动文档理解领域的发展。目前，SmolDocling 已在 HuggingFace 平台上提供预览版（链接：https://huggingface.co/ds4sd/SmolDocling-256M-preview）。

参考资料：

1.https://arxiv.org/abs/2503.11576

2.https://huggingface.co/ds4sd/SmolDocling-256M-preview

运营/排版：何晨龙