音频生成 - 智狐AI导航

Ondoku

Ondoku 是一款支持多语言的文字转语音工具，提供文本输入、图片文字提取及语音调整功能。用户可将文本或图片中的文字转换为自然语音，并下载为音频文件。适用于教育、娱乐、商务等多种场景，如课程讲解、有声书制作和视频配音，提升信息传播效率。

AI项目与工具 2025年06月12日 41 点赞 0 评论 609 浏览

Stable Audio

由Stability.ai团队倾力打造的Stable Audio 2.0音频生成模型

创作工具 2026年06月29日 0 点赞 0 评论 622 浏览

Jukebox

OpenAI开发的AI音乐生成器，Jukebox能够根据提供的歌词、艺术家和流派信息生成多种流派和艺术家风格的完整音乐和人声歌曲。

Ai语音工具 2025年06月05日 17 点赞 0 评论 640 浏览

通义万相AI视频

通义万相AI视频是一款基于人工智能的视频生成工具，支持文生视频和图生视频两种模式。用户可输入文字描述或上传图片生成高质量视频，支持多语言、多种艺术风格及音频生成功能，优化中式元素表现，广泛应用于影视、广告、动画设计等多个领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 643 浏览

Jellypod

Jellypod 是一款基于 AI 的播客制作工具，支持从网页、PDF 等多种格式自动生成脚本并转为音频，涵盖 30 多种语言和口音。用户可自定义 AI 主持人，编辑脚本并一键发布到主流平台，具备高质量音频生成与内容管理功能，适用于企业、教育和个人品牌建设等场景。

AI项目与工具 2025年06月12日 80 点赞 0 评论 645 浏览

GenSFX

GenSFX 是一款基于 AI 的在线音效生成工具，可根据文本描述快速生成高质量音效，支持环境音、自然声、动物叫声、机械声、科幻音效等多种类型。用户可自定义参数并下载多种格式的音频文件，适用于视频制作、游戏开发、播客和广告等多个领域，提升内容创作效率与表现力。

AI项目与工具 2025年06月12日 94 点赞 0 评论 676 浏览

VideoPoet是一款基于大模型的AI视频生成工具，支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计，能够处理和转换不同类型的输入信号，无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AI项目与工具 2024年01月01日 98 点赞 0 评论 679 浏览

Stability AI

Stability AI提供了一套完整的生成式AI模型，覆盖图像、视频和音频等多个领域，旨在推动AI技术的普及和应用。

Ai视频生成 2026年06月29日 0 点赞 0 评论 682 浏览

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统，支持中英文及2000+音色，能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能，提供Web界面和API接口，适用于有声读物、智能助手、教育、客服等场景，技术上支持高效部署与模型微调。

AI项目与工具 2025年06月12日 30 点赞 0 评论 766 浏览

Stable Audio Open Small

Stable Audio Open Small 是由 Stability AI 与 Arm 联合开发的轻量级文本到音频生成模型，参数量降至 3.41 亿，适配移动设备和边缘计算场景。基于深度学习与模型压缩技术，支持快速生成音效、音乐片段等音频内容，适用于实时音频生成任务。具备高效运行、低功耗、多场景应用等特点，可用于音乐创作、游戏音效、视频配乐等领域。

AI项目与工具 2025年06月11日 35 点赞 0 评论 784 浏览

音频生成

首页

音频生成

列表

默认

浏览次数

发布日期