OCR

易飞文字识别

免费在线批量图片文字提取,支持中英文等多种语言的高效准确识别,一键复制文本导出Word。

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型,基于大规模网络图像数据训练,无需语言监督即可学习有效视觉表示。其包含多个变体,参数规模从3亿到70亿不等,在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据,显著提升特定任务性能。模型具备良好的扩展性,适用于智能客服、文档处理、医疗影像分析等多个领域。

ChatPDFLocal

一款专为Mac用户设计的本地PDF阅读和处理工具,它结合了原生 macOS 界面和强大的大型语言模型(LLM),能够快速、安全地处理 PDF 文件。

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型,具备强大的文本与图像理解能力,包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法,实现了从1B到30B参数规模的性能提升,并推出了视频和移动UI专用版本,为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

ShareX

ShareX是一款免费且开源的高级截图工具和屏幕记录器,不仅可以截图,还可以录屏,自动添加水印和阴影,适用于Windows系统。

AI速搭

AI速搭是百度智能云推出的低代码开发平台,支持可视化操作,无需编程即可快速构建智能应用。集成文心一言、人脸识别、OCR等AI能力,提供数据管理、API对接、流程控制等功能,适用于内容创作、智能客服、数据分析等多种场景,提升开发效率与智能化水平。

小虫快读

小虫快读(BugQR)是一款集成OCR技术和AI大语言模型的高效阅读工具,支持拍照识别、文字提取、核心内容总结及语音播放等功能。其三大总结模式(Summary、Explain、Note)满足多样化阅读需求,适用于学生、教师、研究人员、商业分析人士及法律专业人士等多个领域。免费版提供基础功能,高级版本支持内容导出。

千鹿AI

一款轻量级、功能丰富的AI工具合集。通过接入AI功能,千鹿AI可以和多个设计软件联动,能够快速生成用户需要的图像内容,节省用户手动设计、编辑图像和处理日常任务的时间,从而提高工作效率。

Math.Now

一个由Math GPT提供支持的免费AI数学解题工具,它专为解决各种数学难题而设计,覆盖了代数、几何、微积分等多个领域。

PaddleOCR 2.9

PaddleOCR 2.9 是一个基于深度学习的开源 OCR 工具库,提供了强大的文本识别、版面分析和信息抽取功能。支持多语言识别和多种硬件平台,通过低代码开发模式简化了模型的部署和定制,广泛应用于文档数字化、智能办公、身份验证、物流管理和金融服务等领域。