OCR技术

AI Comic Translate

只需上传您想要翻译的漫画图片,用户只需上传您想要翻译的漫画图片,AI Comic Translate将自动识别文本并在几分钟内生成高质量的翻译。

AutoConsis

AutoConsis是一款基于深度学习和大型语言模型的UI内容一致性智能检测工具,能够自动识别和提取界面中的关键数据,并对数据一致性进行高效校验。它支持多业务场景适配,具备高泛化性和高置信度,广泛应用于电商、金融、旅游等多个领域,助力提升用户体验和系统可靠性。

Vision Parse

Vision Parse 是一款开源工具,旨在通过视觉语言模型将 PDF 文件转换为 Markdown 格式。它具备智能识别和提取 PDF 内容的能力,包括文本和表格,并能保持原有格式与结构。此外,Vision Parse 支持多种视觉语言模型,确保解析的高精度与高速度。其应用场景广泛,涵盖学术研究、法律文件处理、技术支持文档以及电子书制作等领域。

Marker

Marker 是一款开源的高精度文档转换工具,支持 PDF、Word 等多种格式向 Markdown、JSON 和 HTML 的转换。它利用深度学习技术自动去除干扰元素,支持多语言处理,具备表格、代码块、公式识别及图像提取等功能,适用于学术研究、技术文档、教育资料等多种场景。同时支持硬件加速和批量处理,提升转换效率与用户体验。

TextIn Tools

是一款免费在线OCR工具,包含文字识别、表格识别,PDF转文件等功能,识别率高,体验好,免费。

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型,采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理,强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本,适用于研究、开发及各类应用场景,展现卓越性能。

Manga Image Translator

Manga Image Translator 是一个开源的漫画图片文字翻译工具,基于 OCR 和机器翻译技术,实现对漫画和图片中文字的自动识别与翻译。它支持多语言翻译,包括日文、中文、英文和韩文,并具备图像合成能力,保持原图风格。工具提供批量处理和在线/离线翻译功能,适用于漫画爱好者、语言学习者以及出版商等用户群体。

意表

意表,截屏识别各种类型表格,结果识别到剪贴板。无框线表格、财报、银行流水,轻松提取!

汉王语音王

汉王语音王是一款由汉王科技开发的智能语音应用程序,集成了AI语音记录、翻译和同声传译等功能。基于自主研发的多模态大模型,它支持高精度的语音转写、拍摄与录音同步、智能总结和实时翻译,适用于多语言环境。通过集成OCR技术,它能够生成图文并茂的多媒体记录,显著提高工作效率。

ChatPDF

ChatPDF是一个多功能的PDF处理工具,它通过人工智能技术简化了PDF文件的转换和编辑过程。无论是需要转换格式、编辑内容、提取文本还是保护文档安全,ChatPDF都能提供高效且易于使...