OCR - 智狐AI导航

Marker

Marker 是一款开源的高精度文档转换工具，支持 PDF、Word 等多种格式向 Markdown、JSON 和 HTML 的转换。它利用深度学习技术自动去除干扰元素，支持多语言处理，具备表格、代码块、公式识别及图像提取等功能，适用于学术研究、技术文档、教育资料等多种场景。同时支持硬件加速和批量处理，提升转换效率与用户体验。

AI项目与工具 2025年06月12日 26 点赞 0 评论 519 浏览

Mistral OCR

Mistral OCR 是 Mistral AI 推出的高效 OCR 工具，支持多语言、多格式文档处理，准确率高达 99.02%。具备结构化输出、高速处理、多模态识别及 Doc-as-prompt 功能，适用于科研、文化遗产保护及企业文档管理等场景。

AI项目与工具 2025年06月12日 76 点赞 0 评论 522 浏览

SmolDocling

SmolDocling-256M-preview 是一款轻量级多模态文档处理模型，能将图像文档高效转换为结构化文本，支持文本、公式、图表等多种元素识别。模型参数量仅256M，推理速度快，适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能，并兼容Docling，适用于文档数字化、科学研究及移动环境应用。

AI项目与工具 2025年03月22日 98 点赞 0 评论 523 浏览

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型，基于LLaVA架构设计，包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出，适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术，实现了跨模态任务的精准处理与高效输出。

AI项目与工具 2025年06月12日 14 点赞 0 评论 528 浏览

Docling 是一款开源工具，支持多种文档格式的解析与转换，包括 PDF、DOCX、PPTX、图片和 HTML。它通过高级 PDF 理解和 OCR 技术，将文档内容转换为统一的结构化格式（如 Markdown 和 JSON）。Docling 可与 LlamaIndex 和 LangChain 集成，增强文档的检索和问答能力，并提供简洁的命令行界面，适用于自动化文档处理、数据科学、知识管理和信息检

AI项目与工具 2025年06月12日 41 点赞 0 评论 537 浏览

PDF24

一款提供全面的 PDF 解决方案的免费软件。用户可以通过 PDF24 在线和离线工具轻松合并、压缩、编辑和转换 PDF 文件。

格式转换 2025年06月05日 91 点赞 0 评论 542 浏览

Manga Image Translator

Manga Image Translator 是一个开源的漫画图片文字翻译工具，基于 OCR 和机器翻译技术，实现对漫画和图片中文字的自动识别与翻译。它支持多语言翻译，包括日文、中文、英文和韩文，并具备图像合成能力，保持原图风格。工具提供批量处理和在线/离线翻译功能，适用于漫画爱好者、语言学习者以及出版商等用户群体。

AI项目与工具 2025年06月12日 16 点赞 0 评论 545 浏览

OmniParser

OmniParser是一款由微软研究院开发的屏幕解析工具，能够将UI截图转换为结构化数据，通过识别可交互图标和提取功能语义，提升基于大型语言模型的UI代理系统的性能。它支持跨平台应用，无需依赖额外信息，适用于自动化软件测试、虚拟助手、辅助技术等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 546 浏览

掌上识别王

一款功能丰富的文字识别和图片转文字的工具类软件，掌上识别王能够实现高精度的文字识别，支持多种图片格式和文档。

格式转换 2025年06月05日 73 点赞 0 评论 548 浏览

Vision Parse

Vision Parse 是一款开源工具，旨在通过视觉语言模型将 PDF 文件转换为 Markdown 格式。它具备智能识别和提取 PDF 内容的能力，包括文本和表格，并能保持原有格式与结构。此外，Vision Parse 支持多种视觉语言模型，确保解析的高精度与高速度。其应用场景广泛，涵盖学术研究、法律文件处理、技术支持文档以及电子书制作等领域。

AI项目与工具 2025年06月12日 72 点赞 0 评论 562 浏览

OCR

首页

OCR

列表

默认

浏览次数

发布日期