模型 - 智狐AI导航

DanceFusion

DanceFusion是一款由清华大学开发的开源框架，专注于音频驱动的舞蹈动作生成与重建。它采用分层时空Transformer-VAE和扩散模型，能够处理不完整或嘈杂的数据，生成与音乐高度同步的逼真舞蹈动作。该工具支持多种应用场景，包括内容创作、虚拟现实、互动娱乐、舞蹈教育以及动画制作等，展现了其在多领域的应用价值。

AI项目与工具 2025年06月12日 86 点赞 0 评论 560 浏览

谛韵DiffRhythm

DiffRhythm（谛韵）是一款由西北工业大学与香港中文大学（深圳）联合开发的端到端音乐生成工具，基于潜扩散模型技术，能在10秒内生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示，即可快速获得高质量音乐作品。其支持多语言输入，具备歌词对齐、风格定制、非自回归生成等技术优势，广泛应用于音乐创作、影视配乐、教育及个人创作等领域。

AI项目与工具 2025年06月12日 70 点赞 0 评论 560 浏览

Voice Changer

Voice Changer是一款基于状态空间模型的音频处理工具，可将音频中的语音转换为不同音色，同时保留情感和表达细节。用户可通过选择预设声音库或克隆个人声音实现个性化转换，并对语音细节进行精细调整。该工具广泛应用于内容创作、游戏配音、有声书制作及品牌音频开发等领域，提供高质量的音频输出和灵活的控制选项。

AI项目与工具 2025年06月12日 48 点赞 0 评论 560 浏览

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型，主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作，包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作，实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性，能够展示原始主体的不同动作和表情。此外，VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

AI项目与工具 2024年01月01日 12 点赞 0 评论 560 浏览

Kandinsky

Kandinsky-3是一款基于潜在扩散模型的文本到图像生成框架，支持文本到图像生成、图像修复、图像融合、文本-图像融合、图像变化生成及视频生成等多种功能。其核心优势在于简洁高效的架构设计，能够快速生成高质量图像并提升推理效率。

AI项目与工具 2025年06月12日 84 点赞 0 评论 560 浏览

Gooey.AI

Gooey.AI提供了一个简单、可组合的无代码 AI 平台，让用户可以访问 OpenAI、Stability、Google 等的最新模型。

Ai编程建站 2025年06月05日 13 点赞 0 评论 561 浏览

Voicebox

Voicebox 是由 Meta AI 研究团队开发的一款领先的语音生成模型。Voicebox 能够在六种语言中合成语音，消除瞬态噪声，编辑内容，在语言之间转移音频风格，并生成多样的语音样本。此...

创作工具 1970年01月01日 0 点赞 0 评论 561 浏览

CodeSquire.ai

CodeSquire.ai是一款针对数据科学领域的AI编程助手，基于大型语言模型开发，支持代码自动补全、注释转代码、基于库构建函数及自然语言转SQL查询等功能，旨在提升开发者效率与代码质量。它适用于数据预处理、特征工程、模型训练与评估以及数据可视化等多个场景，可无缝嵌入Google Colab、BigQuery和JupyterLab等常用平台。

AI项目与工具 2025年06月12日 54 点赞 0 评论 561 浏览

Dify.AI

一个开源的大语言模型（LLM）应用开发平台。它结合了后端即服务和 LLMOps 的概念，使开发人员能够快速构建生产级的生成式 AI 应用程序。

Ai编程建站 2025年06月05日 70 点赞 0 评论 562 浏览

Stable Audio Open Small

Stable Audio Open Small 是由 Stability AI 与 Arm 联合开发的轻量级文本到音频生成模型，参数量降至 3.41 亿，适配移动设备和边缘计算场景。基于深度学习与模型压缩技术，支持快速生成音效、音乐片段等音频内容，适用于实时音频生成任务。具备高效运行、低功耗、多场景应用等特点，可用于音乐创作、游戏音效、视频配乐等领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 562 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期