在今年年初麻省理工科技评论将小模型(Small Language Model)评为2025 年十大突破性技术之一,认为随着大模型的边际收益逐渐减小,小模型有望在特定任务中媲美甚至超越大模型。而最近小模型圈子的一系列成果,都在印证这个趋势——从谷歌的 Gemma3、微软的 Phi4-mini 再到 Mistral 的 Small 3.1……小模型一天比一天精悍。
最近 IBM 和 Hugging Face 的研究人员又联合推出了一个新的小型视觉-语言模型 SmolDocling,这款专为文档转换任务而设计的模型,居然只用 256M 的参数就在各项基准测试上超越了更大规模的其他模型。
图丨相关论文(来源:arXiv)
SmolDocling 基于 Hugging Face 的 SmolVLM 架构,可以处理整个页面的内容,并通过生成“DocTags”(一种新型通用标记格式)精确捕捉页面元素及其位置和上下文信息。与依赖手工制作的流水线或大型基础模型不同,SmolDocling 采用端到端的转换方法,只需 256M 参数的规模就能准确捕获文档元素的内容、结构和空间位置。研究团队称,它在各种文档类型中都表现出色,包括商业文档、学术论文、技术报告、专利和表格等,能够正确再现代码列表、表格、方程式、图表和列表等多样化文档特征。
从多项基准测试的结果来看,SmolDocling 的确展现出了与更大模型相当甚至更优的性能。全页文档文本识别任务中,SmolDocling 的编辑距离为 0.48,F1 分数为 0.80,优于参数量为 7B 的 Qwen2.5 VL、580M 的 GOT 和 350M 的 Nougat。
在公式识别方面,SmolDocling 达到了 0.95 的 F1 分数,与 GOT 相当,且明显优于其他模型。该研究还首次对代码列表识别任务进行了评估,SmolDocling 在这一领域设立了初始基准,精确率和召回率分别为 0.94 和 0.91。
布局分析任务中,SmolDocling 在 DocLayNet 测试集上的表现明显超过了 Qwen2.5-VL-7b。不过两个模型的得分都低于人类基线,原因主要在于数据集本身的复杂性。表格结构识别方面,尽管测试数据集的图像质量较低,SmolDocling 仍然表现出与更大模型相当的能力。
图丨基准测试结果(来源:arXiv)
从许多用户的实测表现上来看,模型的表现的确可圈可点。不过有用户反映,对于表格转为 markdown 或 HTML 的任务,SmolDocling 与其他多模态模型一样,偶尔会出现一些幻觉问题,但对于列边界不明确的表格处理表现还算不错。另一位用户评价道,对于如此小体积的模型来说,其表现还是很不错的,虽然相对来说不够准确,但有望成为 PDF 提取的实用工具。
在实际使用中,SmolDocling 处理一页文档仅需 0.35 秒(在单个 A100 上),只占用 489MB 的显存,甚至可以在手机上就能使用。
那么,SmolDocling 究竟是如何做到在如此小的参数规模下实现这种性能表现的呢?这就要谈到它的架构、训练方法和数据处理策略。
从架构上来说,它所基于的 SmolVLM-256M 架构由两大核心部分组成:视觉编码器和语言骨干。视觉编码器采用 SigLIP base patch-16/512(93M 参数)作为视觉骨干,与 2.2B 版本的同一模型相比,其训练数据重新平衡,更加强调文档理解(41%)和图像描述(14%),结合了 Cauldron、Docmatix 数据集并添加了 MathWriting。模型采用比较激进的像素混洗方法,将每个 512x512 图像块压缩为 64 个视觉标记。
图丨 SmolDocling/SmolVLM 架构(来源:arXiv)
语言骨干则使用 SmolLM-2 家族(135M 参数)的轻量级变体,并通过提高像素到标记的比率(每个标记 4096 像素)和引入子图像分隔符的特殊标记,进一步提升了标记化效率。
研究人员开发的 DocTags 标记格式是 SmolDocling 的另一项核心。这是一种基于 XML 风格的结构化词汇,明确分离文本内容和文档结构,从而提高了图像到序列模型的性能。DocTags 使用开放和关闭标签包裹文本块,独立标签表示指令,支持全面的文档结构表示,包括页面、布局和元素位置。每个元素可以嵌套位置标签,使用固定网格坐标系(0-500)指定其在页面上的边界框。
(来源:arXiv)
此外,DocTags 还集成了 OTSL 词汇表用于编码表格结构,支持列表处理、图片和表格的标题、代码格式保留等多种功能,为文档转换提供了统一而高效的表示方式。
对于小模型来说,训练数据的质量尤其重要。而在 SmolDocling 的过程中,研究人员首先在预训练阶段利用了 DocLayNet-PT(140 万页带有弱标注的数据集)和 Docmatix(130 万文档)。
其中,DocLayNet-PT 是从 DocFM 数据集中提取的,包含来自 CommonCrawl、维基百科和商业相关文档的特殊 PDF 文件,专门选择了具有视觉多样性的内容(方程式、表格、代码、图表、彩色布局)。研究团队通过一系列处理步骤添加了弱标注,包括 PDF 解析和增强,为每个页面提供布局元素、表格结构、语言、主题和图形分类的注释。
此外,研究人员还针对布局、表格、图表、代码和公式等特定任务准备了专门的数据集。布局数据包括 DocLayNet v2(6 万页)、WordScape(6.3 万页)和 SynthDocNet(25 万页);表格数据来自 PubTables-1M、FinTabNet 和 WikiTableSet;图表数据基于 FinTabNet 的 9 万个表格生成,总计 250 万个图表;代码数据集包含 930 万代码片段,覆盖 56 种编程语言;公式数据集则包含 550 万个特殊公式。
图丨数据集构成(来源:arXiv)
训练采用课程学习方法,逐步对齐模型进行文档转换。首先将 DocTags 作为标记添加到分词器中,冻结视觉编码器,只训练网络其余部分,适应新的输出格式。接着解冻视觉编码器,在预训练数据集上训练模型,同时使用所有任务特定的转换数据集。最后,使用所有可用数据集进行微调,确保模型能够全面把握各种文档元素和特征。
由此,SmolDocling 得以在文档处理任务上实现了良好的表现。并且,与传统的集成系统相比,SmolDocling 还展示出独特的鲁棒性优势。由于其转换输出是在单次处理中推断的,避免了错误在模型流水线中累积的问题。例如,即使表格位置识别不准确,SmolDocling 仍能正确重现表格结构和内容,避免了错误在处理流程中的累积。
不过研究团队表示,其页面元素定位识别能力仍有提升空间,这也将是他们未来工作的重点。团队计划公开更多数据集,推动文档理解领域的发展。目前,SmolDocling 已在 HuggingFace 平台上提供预览版(链接:https://huggingface.co/ds4sd/SmolDocling-256M-preview)。
参考资料:
1.https://arxiv.org/abs/2503.11576
2.https://huggingface.co/ds4sd/SmolDocling-256M-preview
运营/排版:何晨龙