音频生成 - 智狐AI导航

Luvvoice

Luvvoice 是一款基于 AI 技术的在线文本到语音转换平台，提供超过 200 种高质量 AI 声音和 70 多种语言选项。用户可以通过上传 PDF 或 TXT 文件，将文本快速转换为自然语音，适用于教育、内容创作、营销及无障碍服务等多个场景。平台支持多种语言调节功能，生成的音频文件支持 MP3 格式下载。

AI项目与工具 2025年06月12日 33 点赞 0 评论 703 浏览

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术，通过提取响度、亮度和音高概率等控制信号，结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架，同时赋予声音设计师更强的表达力与可控性，广泛适用于电影、游戏、音乐制作及教育等多个领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 796 浏览

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型，利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务，如音乐创作、声音效果设计及语音合成，并可通过ComposableART技术实现对声音属性的精细调控。此外，Fugatto擅长生成动态变化的声音景观，广泛应用于音乐创作、声音设计及广告音频制作等领域。

AI项目与工具 2025年06月12日 44 点赞 0 评论 474 浏览

SmoothCache

SmoothCache是一种针对Diffusion Transformers（DiT）模型的推理加速技术，通过分析层输出的相似性实现自适应缓存和特征重用，有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点，支持图像、视频、音频及3D模型生成，并在多种应用场景中展现出卓越的性能表现。

AI项目与工具 2025年06月12日 52 点赞 0 评论 860 浏览

Amphion

Amphion是一款开源音频生成工具包，包含文本转语音（TTS）、歌声合成（SVS）、语音转换（VC）、歌声转换（SVC）、文本转音频（TTA）和文本转音乐（TTM）等功能。它支持多种神经声码器，并提供可视化模型架构，帮助用户快速掌握音频生成技术。通过统一框架和预训练模型，Amphion推动了音频生成领域的研究和应用发展。

AI项目与工具 2025年06月12日 63 点赞 0 评论 727 浏览

NotebookLlama

NotebookLlama是一款基于Meta开发的开源工具，能够将PDF文档自动转换为高质量播客内容。它通过LLaMa模型完成PDF预处理、文本转播客脚本、增加戏剧性元素以及文本转语音合成等步骤，无需人工干预即可生成专业水准的播客。NotebookLlama提供了详细的教程和操作指南，并支持多种应用场景，包括教育、新闻、企业培训和有声书制作等。

AI项目与工具 2025年06月12日 29 点赞 0 评论 876 浏览

EzAudio

EzAudio是一款基于文本到音频（Text-to-Audio, T2A）生成模型，通过优化的扩散变换器架构和高效的数据训练策略，实现了快速生成高质量音频的功能。它支持多种应用场景，如音乐创作、影视后期制作、语音合成等，并具备高保真度和低资源消耗的特点。

AI项目与工具 2025年06月12日 73 点赞 0 评论 519 浏览

通义万相AI视频

通义万相AI视频是一款基于人工智能的视频生成工具，支持文生视频和图生视频两种模式。用户可输入文字描述或上传图片生成高质量视频，支持多语言、多种艺术风格及音频生成功能，优化中式元素表现，广泛应用于影视、广告、动画设计等多个领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 574 浏览

谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

DeepMind推出的V2A（Video-to-Audio）模型能够将视频内容与文本提示相结合，生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作，还能与其他视频生成模型，如Sora、可灵或Gen 3等，进行集成，从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

AI项目与工具 2025年06月12日 21 点赞 0 评论 483 浏览

音频生成

首页

音频生成

列表

默认

浏览次数

发布日期