模型 - 智狐AI导航

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 724 浏览

Gemini

Gemini是Google DeepMind推出的全新AI模型，集成了多模态推理功能，超越了以往模型的性能，适用于科学文献洞察、竞争性编程等多种应用场景。

Ai平台模型 2025年06月05日 100 点赞 0 评论 724 浏览

Kandinsky

Kandinsky-3是一款基于潜在扩散模型的文本到图像生成框架，支持文本到图像生成、图像修复、图像融合、文本-图像融合、图像变化生成及视频生成等多种功能。其核心优势在于简洁高效的架构设计，能够快速生成高质量图像并提升推理效率。

AI项目与工具 2025年06月12日 84 点赞 0 评论 724 浏览

VideoDrafter

一个高质量视频生成的开放式扩散模型，相比之前的生成视频模型，VideoDrafter最大的特点是能在主体不变的基础上，一次性生成多个场景的视频。

Ai开源项目 2025年06月05日 89 点赞 0 评论 723 浏览

StreamBridge

StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架，支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略，实现长上下文处理与主动响应。项目配套发布Stream-IT数据集，包含60万样本，适用于多种视频理解任务，展现出在视频交互、自动驾驶、智能监控等领域的应用前景。

AI项目与工具 2025年06月11日 41 点赞 0 评论 723 浏览

Qwen Chat

Qwen Chat是阿里通义推出的AI交互平台，支持多模型对比、文档问答、图像理解、HTML展示及代码生成等功能。用户可通过上传文档或图片进行精准问答与内容分析，同时支持生成图表、代码等人工制品。适用于教育、开发、内容创作及企业办公等多个场景，提升工作效率与用户体验。

AI项目与工具 2025年01月13日 27 点赞 0 评论 722 浏览

Magic Data

Magic Data专注于为不同行业的AI模型提供高质量的训练和测试数据，以提升模型的性能和智能。

创作工具 2026年06月13日 0 点赞 0 评论 722 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 722 浏览

Lobe

Lobe通过一个免费、易于使用...

Ai平台模型 2026年06月13日 0 点赞 0 评论 722 浏览

AvatarGO

AvatarGO是由南洋理工大学、上海AI Lab和香港大学联合开发的AI框架，能够根据文本描述生成高质量的4D人体与物体交互场景。其核心在于利用LLM引导的接触重定位、空间感知的分数蒸馏采样和运动优化技术，实现精确的接触识别与动画生成，有效解决穿透问题。支持多种人物与物体组合，适用于虚拟导购、展厅讲解、VR/AR内容创作等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 722 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期