文本到语音

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 749 浏览

Illuminate

Illuminate是一款基于谷歌Gemini语言模型开发的AI工具，可将学术论文转化为生动的音频讨论。它通过自然语言处理技术和文本到语音合成，生成包含核心观点的对话内容，支持用户在碎片化时间中高效学习。该工具具备动态音频转换、个性化学习体验、互动反馈及多平台共享等功能，适用于学术研究、学生辅助学习及非专业人士的知识普及。

AI项目与工具 2025年06月12日 29 点赞 0 评论 741 浏览

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 739 浏览

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型，通过集成自动语音识别（ASR）、大型语言模型（LLM）、文本到语音（TTS）以及WebSockets等技术，提供高质量、实时的语音交互体验。它支持全双工交互和打断功能，可整合网络搜索和RAG模型以增强回答能力，适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 737 浏览

Toucan TTS

Toucan TTS是一款由德国斯图加特大学自然语言处理研究所开发的文本到语音合成工具箱。它基于Python和PyTorch构建，支持超过7000种语言及多种方言和变体。主要功能包括多说话人语音合成、语音风格克隆、人机交互编辑、语音参数调整以及发音清晰度和性别特征调整。该工具箱适用于语音模型教学、文字朗读和多语言应用开发等场景，并提供在线交互式演示功能，方便用户快速理解和使用。

AI项目与工具 2025年06月12日 89 点赞 0 评论 720 浏览

Fish Speech

Fish Speech是一款开源的文本到语音（TTS）工具，支持中文、英文和日文。它通过大约15万小时的多语种数据训练，实现了接近人类水平的语音合成效果。该工具的特点包括低显存需求（仅需4GB）、快速推理速度、高自定义性和灵活性。Fish Speech支持多种语音生成模型，如VITS2、Bert-VITS2等，适用于智能助手、自动客服、语言学习等多个领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 719 浏览