开源工具 - 智狐AI导航

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具，支持从教育材料中提取文本、公式、表格等结构化数据，输出为JSON或Markdown格式，准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术，支持多语言处理，适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

AI项目与工具 2025年06月11日 77 点赞 0 评论 534 浏览

SleepFM

SleepFM是一款由斯坦福大学开发的开源多模态睡眠分析模型，利用脑电图（EEG）、心电图（ECG）和呼吸信号等数据，实现睡眠阶段分类、睡眠呼吸障碍检测及人口统计属性预测等功能。它通过对比学习技术和自监督预训练方法提升分析精度，并支持临床诊断、药物开发、健康管理等多个应用场景，为睡眠医学研究提供重要工具。

AI项目与工具 2025年06月12日 50 点赞 0 评论 534 浏览

OCRmyPDF

OCRmyPDF 是一款开源的命令行工具，用于将扫描 PDF 转换为可搜索、可编辑的文档。基于 Tesseract OCR 引擎，支持 100 多种语言，具备图像优化、纠偏、清洁等功能，提升识别准确率。支持多核处理与批量操作，适合高效处理大量文件，且完全离线运行，保障数据安全。

AI项目与工具 2025年06月12日 39 点赞 0 评论 527 浏览

Zerox

Zerox是一款基于GPT-4o-mini模型的开源OCR工具，支持多种文件格式，具备零样本识别能力，可高效处理扫描文档和复杂布局内容。其输出为Markdown格式，便于编辑与使用，同时提供API接口，适用于企业文档管理、学术研究、法律金融等多个场景，显著提升文档处理效率和准确性。

AI项目与工具 2025年06月12日 20 点赞 0 评论 518 浏览

Audio Decomposition

Audio Decomposition 是一款基于傅里叶变换和信封匹配技术的开源音频处理工具，能够分离音乐中的不同乐器声音并生成乐谱。它支持音乐转录、教育、制作及分析，通过深度音频处理为用户提供了强大的音乐解析能力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 517 浏览

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型，具备高效计算能力和紧凑结构，支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构，结合高效与精准优势，支持无位置编码（NoPE）处理128K tokens上下文。内存需求降低72%，推理时仅激活1B参数，适用于边缘设备部署、长文本分析及企业级应用开发，适合资源受限环境下的AI研究与

AI项目与工具 2025年06月11日 42 点赞 0 评论 516 浏览

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型，采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理，强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本，适用于研究、开发及各类应用场景，展现卓越性能。

AI项目与工具 2025年06月12日 67 点赞 0 评论 515 浏览

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具，基于超10万小时播客数据训练，支持零样本语音合成与说话人适配，可在0.33秒内生成1秒音频，适合实时与长内容合成。支持本地部署与API调用，应用于播客、有声书、视频配音、AI角色及新闻播报等领域，兼具高效性与灵活性。

AI项目与工具 2025年06月11日 94 点赞 0 评论 510 浏览

Devika

Devika是一款开源的AI编程工具，支持自然语言指令解析、复杂任务分解以及跨平台代码生成。凭借其先进的AI搜索与推理能力，Devika能够协助开发者高效完成从概念到实现的全过程，涵盖新功能开发、代码重构、Bug修复及自动化测试等多个应用场景。同时，其模块化架构便于扩展，确保了在不同项目中的灵活性与实用性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 509 浏览

Aligner

Aligner是由北京大学团队开发的大语言模型对齐工具，通过学习对齐答案与未对齐答案之间的差异来提升模型性能。采用自回归seq2seq结构，在Q-A-C数据集上训练，无需RLHF流程。具备高效、灵活、即插即用等特点，支持多模型兼容，提升模型帮助性和安全性。适用于多轮对话、价值观对齐及MoE架构优化等场景。

AI项目与工具 2025年06月12日 44 点赞 0 评论 506 浏览

开源工具

首页

开源工具

列表

默认

浏览次数

发布日期