开源 - 智狐AI导航

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型（MLLMs），能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能，并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外，OpenEMMA支持人类可读的输出，适用于多种驾驶环境，包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

AI项目与工具 2025年06月12日 36 点赞 0 评论 762 浏览

Voila

Voila是一款开源的端到端语音大模型，支持实时语音交互与多轮对话，具备高保真、低延迟的音频处理能力。集成语音与语言建模功能，支持百万级预设声音及个性化定制，适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构，提升语音理解与生成质量，降低开发成本，提高通用性与灵活性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 763 浏览

AutoAgent

AutoAgent是香港大学开发的零代码LLM智能体框架，支持自然语言交互创建智能助手，适用于搜索、分析和报告生成等场景。提供三种使用模式和双交互模式，兼容多种LLM模型，具备自管理向量数据库和多代理协作能力，部署便捷，适合各类用户高效完成复杂任务。

AI项目与工具 2025年06月12日 68 点赞 0 评论 763 浏览

MeloTTS

MeloTTS是一个高质量的多语言文本转语音（TTS）库，由MyShell AI开发。该工具支持多种语言的文本转语音任务，包括英语（含不同口音）、西班牙语、法语、中文、日语和韩语，并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音，还易于安装和使用，适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。

AI项目与工具 2024年01月01日 57 点赞 0 评论 763 浏览

ReasonGraph

ReasonGraph 是一个开源平台，用于可视化和分析大语言模型（LLM）的推理过程。它支持多种主流模型和推理方法，提供直观的图表展示和交互式功能，帮助用户理解 AI 思考逻辑、优化模型表现。模块化设计使其易于扩展，适用于学术研究、教育、开发等多个领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 765 浏览

Stagehand

Stagehand 是一款基于自然语言处理的 AI 工具，专注于网页自动化操作。其核心功能包括自然语言驱动的 `act`、`extract` 和 `observe` API，支持原子化指令执行和多模型适配。Stagehand 可实现网页测试、数据抓取、表单操作及内容监控等多样化任务，广泛应用于网页测试、数据分析、办公自动化等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 766 浏览

HiDream

HiDream-I1是一款由HiDream.ai团队开发的开源AI图像生成模型，具备17亿参数，支持多种图像风格生成，包括真实、卡通和艺术风格。其在提示词理解、细节渲染和图像一致性方面表现出色，适用于艺术创作、商业设计、教育科研等领域。模型采用扩散模型和混合专家架构（MoE），并集成多种文本编码器，实现高质量与高效率的图像生成。项目已在GitHub和HuggingFace开源，便于研究与应用。

AI项目与工具 2025年06月12日 64 点赞 0 评论 767 浏览

MCP Course

MCP Course是Hugging Face推出的免费开源课程，专注于教授如何利用模型上下文协议（MCP）构建具有上下文感知能力的AI应用。课程涵盖理论学习、实践操作、用例训练和行业合作等内容，适合不同层次的开发者。学员可获得认证，提升在AI系统集成方面的专业能力。课程内容结构清晰，注重实际应用，助力开发者掌握MCP技术并应用于真实场景。

AI项目与工具 2025年06月11日 79 点赞 0 评论 767 浏览

ComfyFlow

ComfyFlow 是一个强大的应用程序创建和分享平台，它通过提供全托管服务和用户友好的界面，简化了从设计到分享的整个流程。

创作工具 1970年01月01日 0 点赞 0 评论 768 浏览

DUIX

硅基智能打造的AI数字人智能交互平台。通过将数字人交互能力开源，开发者可自行接入多方大模型、语音识别（ASR）、语音合成（TTS）能力，实现数字人实时交互。

Ai开源项目 2025年06月05日 84 点赞 0 评论 769 浏览

开源

首页

开源

列表

默认

浏览次数

发布日期