OCR - 智狐AI导航

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 674 浏览

CopyFish

一个免费的 OCR 程序，可从图片、视频和 PDF 文件中提取文本。

格式转换 2025年06月05日 81 点赞 0 评论 667 浏览

UPDF

UPDF是一款基于AI技术的多功能PDF工具，支持文本编辑、图片编辑、注释、转换、OCR识别、表单填写及签名等功能。其特色包括跨平台兼容性（Windows、Mac、Android、iOS及在线版本）、AI辅助阅读体验（总结、翻译、解释）以及便捷的商务与学术应用场景。适用于文档编辑、学术研究、商务沟通及法律文件处理等多样化需求。

AI项目与工具 2025年06月12日 83 点赞 0 评论 666 浏览

Comic Translate

Comic Translate 是一款基于开源框架的漫画翻译工具，支持多语言翻译，涵盖英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语等主流语言。它利用深度学习技术和图像处理库，实现从文本检测、OCR 到翻译渲染的全流程自动化，旨在帮助用户突破语言限制，享受跨文化阅读体验。同时，该工具支持自定义翻译服务，适合个人娱乐、教育学习、翻译本地化及学术研究等多个领域。

AI项目与工具 2025年06月12日 92 点赞 0 评论 664 浏览