模型 - 智狐AI导航

Anus

Anus是一个开源自主智能体项目，支持自然语言指令执行、多代理协作、网络交互、文档处理、代码执行及多模态输入处理。其采用混合架构设计，兼容多种模型和部署方式，提供丰富的工具生态系统，适用于教育、原型开发、任务自动化等多个场景，为开发者和研究人员提供高效、灵活的AI开发平台。

AI项目与工具 2025年03月12日 32 点赞 0 评论 793 浏览

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 793 浏览

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型，结合Whisper编码器与Qwen2 LLM，支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略，提升模型泛化能力和稳定性。基于约5万小时语音数据训练，性能优异，适用于智能客服、教育、心理健康监测等多个领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 792 浏览

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 792 浏览

InftyThink

InftyThink是一种创新的大模型推理范式，通过分段迭代和阶段性总结的方式，突破传统模型在长推理任务中的上下文窗口限制，显著降低计算复杂度并提升推理性能。它适用于数学问题求解、逻辑推理、代码生成、智能辅导及药物研发等多个领域，具备良好的工程可落地性和广泛的适用性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 791 浏览

DeepFaceLab

DeepFaceLab 是一种利用深度学习识别来交换图片和视频中的人脸的工具。

Ai开源项目 2025年06月05日 59 点赞 0 评论 791 浏览

薏米AI

一个AI平台，使用者可以提出问题、获得即时答案，可以与各种先进的人工智慧机器人进行自由对话，它可在WEB和客户端上使用。

AI写作对话 2025年06月05日 18 点赞 0 评论 791 浏览

DiffSplat

DiffSplat是一款高效的3D生成工具，能够根据文本或图像快速生成高质量的3D高斯点云。它基于预训练的文本到图像扩散模型，结合2D先验知识和3D渲染损失机制，确保生成内容在多视角下保持一致。支持文本、图像或组合输入，具备可控生成能力，适用于3D内容创作、图像重建及多种下游应用。

AI项目与工具 2025年06月12日 72 点赞 0 评论 791 浏览

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型，通过“扩展-压缩”策略优化处理高分辨率图像和长视频，兼具效率与准确性。它在图像和视频基准测试中表现优异，支持时间定位、机器人导航和医疗成像等应用场景，并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

AI项目与工具 2025年06月12日 68 点赞 0 评论 791 浏览

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型，通过逐步细化噪声生成文本，具备快速响应、生成更连贯文本和迭代细化等能力。与传统自回归模型不同，它能并行生成文本，提高效率。在外部基准测试中表现优异，速度更快，适用于内容创作、代码生成、数学问题解答和文本编辑等场景。用户需加入等待名单获取访问权限。

AI项目与工具 2025年06月11日 48 点赞 0 评论 790 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期