Surya Surya是一款开源OCR工具包,专注于文档识别,支持90多种语言的文本提取与分析。它能够识别文档中的文本、表格、图片及标题等布局元素,并确保文本阅读顺序的准确性。凭借其高效的表格识别能力和优化的算法,Surya在处理复杂文档时表现出色,广泛应用于文档数字化、数据提取、多语言处理以及学术研究等领域。 --- AI项目与工具 2025年06月12日 16 点赞 0 评论 400 浏览
pdf pdf-craft 是一款专注于将扫描书籍的 PDF 文件转换为 Markdown 和 EPUB 格式的工具。它结合 DocLayout-YOLO 布局分析与 PaddleOCR 文本识别技术,精准提取正文内容并优化阅读顺序,支持跨页处理与结构化输出。适用于学术研究、电子书制作、文档存档及教育资料整理等多种场景。 AI项目与工具 2025年06月12日 23 点赞 0 评论 330 浏览