SmolDocling简介

SmolDocling(SmolDocling-256M-preview)是一款轻量级的多模态文档处理模型,能够将文档图像高效转换为结构化文本。该模型支持识别文本、公式、图表等多种文档元素,适用于学术论文、技术报告等各类文档处理任务。其参数量仅为256M,在A100 GPU上每页文档的处理时间仅需0.35秒,且显存占用低于500MB,具备出色的推理效率。此外,它与Docling完全兼容,支持多种输出格式。

SmolDocling的核心功能

  • 多模态文档转换:支持图像文档向结构化文本的高效转换,适用于科学和非科学文档。
  • 快速处理能力:在A100 GPU上每页文档处理仅需0.35秒,显存占用低。
  • OCR与布局识别:提供光学字符识别功能,保留文档结构与元素边界框。
  • 复杂元素识别:可识别代码块、数学公式、图表、表格等复杂内容。
  • 格式兼容性:支持导出Markdown、HTML等多种格式,与Docling无缝集成。
  • 指令支持:支持多种操作指令,如转换为Docling格式、提取图表信息等。

SmolDocling的技术架构

  • 轻量级设计:作为一款仅含256M参数的视觉语言模型,专为文档OCR和转换优化,可在消费级GPU上运行。
  • 视觉骨干网络:采用SigLIP base patch-16/512作为视觉基础,通过像素压缩技术提升计算效率。
  • 文本编码器:使用SmolLM-2进行文本处理,实现与视觉信息的有效融合。
  • 多模态处理能力:支持图像与文本输入,生成结构化输出,包括公式转LaTeX、图表转表格等功能。
  • 训练数据与策略:基于科学与非科学文档数据集进行训练,采用高像素标记率提升处理效率。

项目资源

应用场景

  • 文档数字化:将图像文档转换为结构化文本,保留原始布局与复杂元素,支持多种输出格式。
  • 多类型文档处理:适用于科学和非科学文档,支持公式、图表、表格等内容识别。
  • OCR与布局分析:提供高效的OCR功能,准确提取文本并保留文档结构。
  • 移动端部署:可在移动设备或资源受限环境中运行,适应多样化应用场景。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部