模型 - 智狐AI导航

VITA

VITA-Audio 是一款开源的端到端多模态语音大模型，具备低延迟、高推理效率和多模态交互能力。其核心创新包括轻量级 MCTP 模块和四阶段渐进式训练策略，使模型在语音识别、文本转语音和口语问答等任务中表现优异。支持实时对话、智能客服、教育辅助、医疗辅助及内容创作等多种应用场景，适用于各类语音交互系统。

AI项目与工具 2025年06月11日 19 点赞 0 评论 991 浏览

CogVideoX v1.5

CogVideoX v1.5是一款由智谱研发的开源AI视频生成工具，具备文本到视频生成、图像到视频转换等功能，支持高清视频输出及音效匹配。它通过三维变分自编码器（3D VAE）、Transformer架构等技术手段，提升了视频生成的质量与效率，适用于内容创作、广告营销、教育培训等多个领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 990 浏览

Astria AI

Astria是一个利用生成AI创建定制图像的平台。Astria AI允许用户上传一组主题的图像，然后根据文本提示生成新图像。

Ai绘画生成 2025年06月05日 28 点赞 0 评论 988 浏览

Agent Laboratory

Agent Laboratory是由AMD与约翰·霍普金斯大学合作开发的基于大型语言模型的研究辅助工具，支持从文献综述到报告撰写的全流程科研任务。它具备实验设计、代码生成、结果分析等功能，并通过多代理协作和用户反馈机制提升研究质量。实验表明其可显著降低研究成本，适用于机器学习、生物医学等多个领域。

AI项目与工具 2025年06月12日 68 点赞 0 评论 984 浏览

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架，涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域，包含1,130个问题，每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标，全面衡量模型推理能力，并揭示当前模型在反思机制和感知任务上的不足，为模型优化和研究提供重要参考。

AI项目与工具 2025年06月12日 36 点赞 0 评论 983 浏览

TrikAI

TrikAI是小红书旗下AI绘画平台，输入描述即可为你生成图片，尤其是国风风格。

Ai绘画生成 2025年06月05日 68 点赞 0 评论 981 浏览

Llama 4 是 Meta 推出的多模态 AI 模型系列，采用混合专家（MoE）架构，提升计算效率。包含 Scout 和 Maverick 两个版本，分别适用于不同场景。Scout 支持 1000 万 token 上下文，Maverick 在图像理解和创意写作方面表现优异。Llama 4 支持 200 种语言，具备强大的语言生成与多模态处理能力，适用于对话系统、文本生成、代码辅助、图像分析等多个

AI项目与工具 2025年06月12日 46 点赞 0 评论 981 浏览