开源工具 - 智狐AI导航

ClearerVoice

ClearerVoice-Studio 是一个基于复数域深度学习算法的开源语音处理框架，集成了语音增强、分离及音视频说话人提取等功能。它通过先进的 FRCRN 和 MossFormer 系列模型，实现了高效的语音信号处理，并具备强大的预训练能力和灵活的接口设计。该框架广泛应用于智能助手、会议记录、电话会议、公共安全等领域，助力提升语音处理技术的实际应用价值。

AI项目与工具 2025年06月12日 81 点赞 0 评论 713 浏览

StreamRAG

一个视频搜索和流媒体代理工具，能让您在 ChatGPT 中与您的视频库聊天并观看视频流。

Ai开源项目 2025年06月05日 81 点赞 0 评论 713 浏览

s1

S1是由斯坦福大学和华盛顿大学联合开发的低成本、高性能AI推理模型，采用知识蒸馏技术从大型模型中提取推理能力。通过1000个高质量问题训练，成本低于50美元，训练时间短于30分钟。S1在数学和编程领域表现卓越，支持测试时扩展技术以优化推理效果，并已在GitHub开源，适用于科学问题解决、智能辅导、自动问答等多种场景。

AI项目与工具 2025年06月12日 33 点赞 0 评论 723 浏览

Surya

Surya是一款开源OCR工具包，专注于文档识别，支持90多种语言的文本提取与分析。它能够识别文档中的文本、表格、图片及标题等布局元素，并确保文本阅读顺序的准确性。凭借其高效的表格识别能力和优化的算法，Surya在处理复杂文档时表现出色，广泛应用于文档数字化、数据提取、多语言处理以及学术研究等领域。 ---

AI项目与工具 2025年06月12日 16 点赞 0 评论 724 浏览

GitDiagram

GitDiagram是一款开源工具，能够将GitHub仓库自动转换为交互式系统架构图。它基于AI技术分析代码库，生成包含组件关系的图表，并支持点击跳转到源文件。该工具支持私有仓库访问、自定义图表样式，并可导出为PNG图片或Mermaid.js代码。适用于新项目上手、团队协作、文档编写等多种场景，提升代码理解和沟通效率。

AI项目与工具 2025年06月11日 50 点赞 0 评论 726 浏览

TurboSeek

TurboSeek 是一款基于开源技术的 AI 搜索引擎，融合了 Bing 搜索 API 和先进语言模型（如 Mixtral 8x7B 和 Llama-3），为用户提供快速、智能的搜索体验。其核心功能包括智能搜索、AI 模型生成答案、后续问题推荐以及本地部署支持。TurboSeek 可广泛应用于学术研究、新闻追踪、技术文档查询、市场分析和个人知识管理等领域。

AI项目与工具 2025年06月12日 65 点赞 0 评论 729 浏览

FunASR

FunASR是一个由阿里巴巴达摩院开源的多功能语音识别工具包，涵盖语音识别（ASR）、语音活动检测（VAD）、标点恢复、说话人验证及分离等功能。它支持工业级模型的训练与微调，并提供预训练模型和易用接口，便于快速部署。新增的Whisper-large-v3-turbo模型进一步提升了其性能，广泛应用于智能助手、会议记录、客服系统和语音搜索等领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 731 浏览

Awesome

一个用于实时监控和检测 Ollama 服务可用性和性能的系统。支持多语言，能够方便用户进行服务检测和性能监控。

Ai开源项目 2025年06月05日 87 点赞 0 评论 736 浏览

ICEdit

ICEdit是由浙江大学与哈佛大学联合开发的指令式图像编辑框架，基于扩散变换器实现自然语言驱动的图像修改。支持多轮编辑、风格转换、对象替换等功能，具有高效处理能力（单张图像约9秒）。采用LoRA-MoE混合微调策略，降低资源需求，适用于创意设计、影视制作、社交媒体等多个领域。开源且提供在线体验，便于研究与应用。

AI项目与工具 2025年06月11日 85 点赞 0 评论 738 浏览

QA

QA-MDT是一款基于文本生成高质量音乐的开源工具，其核心技术包括质量感知训练、掩蔽扩散变换器以及音乐与文本的同步优化。它能够根据用户提供的文本描述生成多样化的音乐作品，并通过质量控制确保输出结果的高保真度。此外，QA-MDT支持音乐与文本的一致性增强，适用于广告、影视配乐、音乐教育及智能设备等多个领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 738 浏览

开源工具

首页

开源工具

列表

默认

浏览次数

发布日期