SmolDocling

简介：SmolDocling-256M-preview 是一款轻量级多模态文档处理模型，能将图像文档高效转换为结构化文本，支持文本、公式、图表等多种元素识别。模型参数量仅256M，推理速度快，适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能，并兼容Docling，适用于文档数字化、科学研究及移动环境应用。

AI小编 604 阅读 0 评论 98 点赞

官网地址

SmolDocling简介

SmolDocling（SmolDocling-256M-preview）是一款轻量级的多模态文档处理模型，能够将文档图像高效转换为结构化文本。该模型支持识别文本、公式、图表等多种文档元素，适用于学术论文、技术报告等各类文档处理任务。其参数量仅为256M，在A100 GPU上每页文档的处理时间仅需0.35秒，且显存占用低于500MB，具备出色的推理效率。此外，它与Docling完全兼容，支持多种输出格式。

SmolDocling的核心功能

多模态文档转换：支持图像文档向结构化文本的高效转换，适用于科学和非科学文档。
快速处理能力：在A100 GPU上每页文档处理仅需0.35秒，显存占用低。
OCR与布局识别：提供光学字符识别功能，保留文档结构与元素边界框。
复杂元素识别：可识别代码块、数学公式、图表、表格等复杂内容。
格式兼容性：支持导出Markdown、HTML等多种格式，与Docling无缝集成。
指令支持：支持多种操作指令，如转换为Docling格式、提取图表信息等。

SmolDocling的技术架构

轻量级设计：作为一款仅含256M参数的视觉语言模型，专为文档OCR和转换优化，可在消费级GPU上运行。
视觉骨干网络：采用SigLIP base patch-16/512作为视觉基础，通过像素压缩技术提升计算效率。
文本编码器：使用SmolLM-2进行文本处理，实现与视觉信息的有效融合。
多模态处理能力：支持图像与文本输入，生成结构化输出，包括公式转LaTeX、图表转表格等功能。
训练数据与策略：基于科学与非科学文档数据集进行训练，采用高像素标记率提升处理效率。

项目资源

HuggingFace模型库：https://huggingface.co/ds4sd/SmolDocling-256M-preview
arXiv技术论文：https://arxiv.org/pdf/2503.11576

应用场景

文档数字化：将图像文档转换为结构化文本，保留原始布局与复杂元素，支持多种输出格式。
多类型文档处理：适用于科学和非科学文档，支持公式、图表、表格等内容识别。
OCR与布局分析：提供高效的OCR功能，准确提取文本并保留文档结构。
移动端部署：可在移动设备或资源受限环境中运行，适应多样化应用场景。

本文分类：AI项目与工具
本文标签：AI文档处理多模态模型 OCR识别文档转换轻量级模型结构化文本科学文献处理高效推理格式兼容模型部署
浏览次数：604 次浏览
发布日期：2025-03-22 10:56:54
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8431.html

评论列表共有 0 条评论

暂无评论