OCR - 智狐AI导航

TextIn

TextIn是一款利用OCR技术实现文字识别的AI平台，支持多语言且具备强大的图像处理能力。它可以从各种类型的文档中提取结构化信息，并提供灵活的部署选项，适用于金融、物流、制造业等多个领域。TextIn通过智能算法优化文档处理流程，帮助企业提升效率。

AI项目与工具 2025年06月12日 31 点赞 0 评论 589 浏览

UPDF

UPDF是一款基于AI技术的多功能PDF工具，支持文本编辑、图片编辑、注释、转换、OCR识别、表单填写及签名等功能。其特色包括跨平台兼容性（Windows、Mac、Android、iOS及在线版本）、AI辅助阅读体验（总结、翻译、解释）以及便捷的商务与学术应用场景。适用于文档编辑、学术研究、商务沟通及法律文件处理等多样化需求。

AI项目与工具 2025年06月12日 83 点赞 0 评论 748 浏览

Docling 是一款开源工具，支持多种文档格式的解析与转换，包括 PDF、DOCX、PPTX、图片和 HTML。它通过高级 PDF 理解和 OCR 技术，将文档内容转换为统一的结构化格式（如 Markdown 和 JSON）。Docling 可与 LlamaIndex 和 LangChain 集成，增强文档的检索和问答能力，并提供简洁的命令行界面，适用于自动化文档处理、数据科学、知识管理和信息检

AI项目与工具 2025年06月12日 41 点赞 0 评论 608 浏览

parsio

Parsio是一款利用AI技术的文档解析工具，支持从PDF、电子邮件及发票等多种文档中自动提取结构化数据。它提供PDF解析与OCR功能，支持多语言识别和表格提取，适用于业务流程优化、客户关系管理及财务管理等多个领域，帮助企业提高效率并减少错误。

AI项目与工具 2025年06月12日 21 点赞 0 评论 573 浏览

TextHarmony

TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型，擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术，支持视觉文本生成、编辑、理解及感知等功能，广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练，TextHarmony在视觉与语言生成任务中表现出色。

AI项目与工具 2025年06月12日 47 点赞 0 评论 756 浏览

OmniParser

OmniParser是一款由微软研究院开发的屏幕解析工具，能够将UI截图转换为结构化数据，通过识别可交互图标和提取功能语义，提升基于大型语言模型的UI代理系统的性能。它支持跨平台应用，无需依赖额外信息，适用于自动化软件测试、虚拟助手、辅助技术等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 618 浏览

PaddleOCR 2.9

PaddleOCR 2.9 是一个基于深度学习的开源 OCR 工具库，提供了强大的文本识别、版面分析和信息抽取功能。支持多语言识别和多种硬件平台，通过低代码开发模式简化了模型的部署和定制，广泛应用于文档数字化、智能办公、身份验证、物流管理和金融服务等领域。

AI项目与工具 2025年06月12日 56 点赞 0 评论 794 浏览

OmniAI

OmniAI是一款基于OCR与NLP技术的智能文档处理平台，支持多种文件格式的数据提取与分类。其核心功能包括批量处理、结构化数据输出以及自定义模型开发，适用于财务审计、客户服务、法律合规、医疗健康及保险理赔等多个领域，为企业提供高效的文档智能化解决方案。

AI项目与工具 2025年06月12日 79 点赞 0 评论 599 浏览

Surya

Surya是一款开源OCR工具包，专注于文档识别，支持90多种语言的文本提取与分析。它能够识别文档中的文本、表格、图片及标题等布局元素，并确保文本阅读顺序的准确性。凭借其高效的表格识别能力和优化的算法，Surya在处理复杂文档时表现出色，广泛应用于文档数字化、数据提取、多语言处理以及学术研究等领域。 ---

AI项目与工具 2025年06月12日 16 点赞 0 评论 799 浏览

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型，具备强大的文本与图像理解能力，包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法，实现了从1B到30B参数规模的性能提升，并推出了视频和移动UI专用版本，为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 820 浏览

OCR

首页

OCR

列表

默认

浏览次数

发布日期