OCR - 智狐AI导航

Umi

Umi-OCR 是一款离线 OCR 工具，支持图片、截图和 PDF 文档的文字识别，具备数学公式与二维码识别功能，可生成可搜索 PDF。支持多语言识别与界面切换，提供命令行和 HTTP 接口调用，适用于文档数字化、数据录入、教育等多个场景。

AI项目与工具 2025年06月12日 51 点赞 0 评论 630 浏览

Tesseract

Tesseract是一款开源的光学字符识别（OCR）引擎，支持多语言识别和多种图像格式。其具备高精度的文字识别能力，适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行，并提供丰富的编程接口和自定义训练功能，便于开发者集成和优化识别效果。

AI项目与工具 2025年06月12日 12 点赞 0 评论 645 浏览

IKI AI

IKI AI 是一款AI驱动的知识管理平台，支持多格式内容整合、AI信息提取、OCR识别和个性化知识组织。用户可通过浏览器扩展快速保存资料，适用于学术研究、专业发展、内容创作及项目管理等场景。平台提供多种版本，满足不同需求，强调信息处理效率与团队协作能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 869 浏览

AI速搭

AI速搭是百度智能云推出的低代码开发平台，支持可视化操作，无需编程即可快速构建智能应用。集成文心一言、人脸识别、OCR等AI能力，提供数据管理、API对接、流程控制等功能，适用于内容创作、智能客服、数据分析等多种场景，提升开发效率与智能化水平。

AI项目与工具 2025年06月12日 85 点赞 0 评论 749 浏览

pdf

pdf-craft 是一款专注于将扫描书籍的 PDF 文件转换为 Markdown 和 EPUB 格式的工具。它结合 DocLayout-YOLO 布局分析与 PaddleOCR 文本识别技术，精准提取正文内容并优化阅读顺序，支持跨页处理与结构化输出。适用于学术研究、电子书制作、文档存档及教育资料整理等多种场景。

AI项目与工具 2025年06月12日 23 点赞 0 评论 690 浏览

DeepPDF

DeepPDF 是一款基于 AI 的在线 PDF 处理工具，支持文档智能问答、自动摘要生成、多语言翻译、图像与公式解析、术语解释及格式转换等功能。其特点在于保留原文排版、支持多种语言、提供高效的文档管理能力，广泛应用于教育、科研和职场场景，提升文档处理效率与信息理解能力。

AI项目与工具 2025年06月12日 61 点赞 0 评论 766 浏览

DocTranslator

DocTranslator是一款支持多格式文档翻译的AI工具，可处理PDF、Word、Excel、PPT等多种文件类型，并保留原始排版。它支持100多种语言，具备OCR功能，能处理图像文件。适用于商业、学术和演示文稿等场景，支持大文件处理，操作便捷高效。

AI项目与工具 2025年06月12日 74 点赞 0 评论 1484 浏览

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具，支持从教育材料中提取文本、公式、表格等结构化数据，输出为JSON或Markdown格式，准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术，支持多语言处理，适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

AI项目与工具 2025年06月11日 77 点赞 0 评论 491 浏览

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型，支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器，具备强大的图像感知、数学推理和OCR能力。在长上下文（128K）和复杂任务中表现优异，尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 508 浏览

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型，基于大规模网络图像数据训练，无需语言监督即可学习有效视觉表示。其包含多个变体，参数规模从3亿到70亿不等，在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据，显著提升特定任务性能。模型具备良好的扩展性，适用于智能客服、文档处理、医疗影像分析等多个领域。

AI项目与工具 2025年06月11日 92 点赞 0 评论 746 浏览

OCR

首页

OCR

列表

默认

浏览次数

发布日期

Umi