文本到语音

Open NotebookLM

Open NotebookLM是一个开源工具，能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型，生成自然流畅的对话式音频，并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件，适用于教育、科研、商业分析等多个领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 792 浏览

Illuminate

Illuminate是一款基于谷歌Gemini语言模型开发的AI工具，可将学术论文转化为生动的音频讨论。它通过自然语言处理技术和文本到语音合成，生成包含核心观点的对话内容，支持用户在碎片化时间中高效学习。该工具具备动态音频转换、个性化学习体验、互动反馈及多平台共享等功能，适用于学术研究、学生辅助学习及非专业人士的知识普及。

AI项目与工具 2025年06月12日 29 点赞 0 评论 740 浏览

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型，通过集成自动语音识别（ASR）、大型语言模型（LLM）、文本到语音（TTS）以及WebSockets等技术，提供高质量、实时的语音交互体验。它支持全双工交互和打断功能，可整合网络搜索和RAG模型以增强回答能力，适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 737 浏览

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 749 浏览

NotebookMLX

NotebookMLX 是一款基于 MLX 技术开发的开源工具，支持将 PDF 文档转换为音频播客。它通过 PDF 预处理、播客脚本生成、文本优化以及文本转语音等功能，实现了从 PDF 文件到高质量音频内容的全流程自动化处理，适用于教育、播客创作、有声书制作等多个领域，显著提升了信息传播效率和用户体验。

AI项目与工具 2025年06月12日 70 点赞 0 评论 819 浏览

OuteTTS

OuteTTS是一款基于开源技术的文本到语音（TTS）工具，利用纯语言建模方法生成自然语音。它支持语音克隆和自定义说话人声音，具备音频标记化、CTC强制对齐和结构化提示创建等功能。OuteTTS与llama.cpp和GGUF格式兼容，适用于有声读物、智能客服、语音导航等多种应用场景。

AI项目与工具 2025年06月12日 36 点赞 0 评论 461 浏览

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 739 浏览

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术，通过提取响度、亮度和音高概率等控制信号，结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架，同时赋予声音设计师更强的表达力与可控性，广泛适用于电影、游戏、音乐制作及教育等多个领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 796 浏览

PDF to Podcast

PDF to Podcast 是一款由 NVIDIA 开发的 AI 工具，能够将 PDF 文档自动转换为高质量的音频内容，如播客。该工具结合了大型语言模型、文本到语音技术以及 NVIDIA NIM 微服务架构，支持从 PDF 提取信息并生成结构化文本，再通过语音合成输出自然流畅的音频。用户可自定义生成内容的重点，并支持多种部署方式，适用于企业培训、技术简报、客户服务、医疗教育等多个领域。

AI项目与工具 2025年06月12日 32 点赞 0 评论 492 浏览

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型，基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列，通过掩码处理和去噪生成高质量音频，保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能，具有非自回归特性，提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

AI项目与工具 2025年06月11日 94 点赞 0 评论 752 浏览

文本到语音

首页

文本到语音

列表

默认

浏览次数

发布日期