语音 - 智狐AI导航

byword

Byword是一款基于人工智能技术的写作工具，能够高效生成高质量、SEO优化的文章。它支持批量生成内容、关键词提取、标题生成、图片匹配及多语言支持等功能，并与主流平台无缝集成，极大简化了内容创作和发布流程。无论是企业还是个人用户，均可借助Byword提升内容生产力并优化搜索引擎排名。

AI项目与工具 2025年06月12日 19 点赞 0 评论 941 浏览

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具，采用20万小时高质量英语语音数据训练，具备高精度语音转录能力，支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容，并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景，为用户提供灵活且高效的语音转文字解决方案。

AI项目与工具 2025年06月12日 55 点赞 0 评论 727 浏览

Open NotebookLM

Open NotebookLM是一个开源工具，能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型，生成自然流畅的对话式音频，并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件，适用于教育、科研、商业分析等多个领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 822 浏览

小虫快读

小虫快读（BugQR）是一款集成OCR技术和AI大语言模型的高效阅读工具，支持拍照识别、文字提取、核心内容总结及语音播放等功能。其三大总结模式（Summary、Explain、Note）满足多样化阅读需求，适用于学生、教师、研究人员、商业分析人士及法律专业人士等多个领域。免费版提供基础功能，高级版本支持内容导出。

AI项目与工具 2025年06月12日 24 点赞 0 评论 782 浏览

Podcastfy

Podcastfy 是一款基于生成式人工智能技术开发的开源工具，可将网络文章、PDF 文件及纯文本转化为多语言对话式音频。它不仅支持多源文本合并，还具备强大的文本转语音功能，允许用户选择不同的语音模型来优化音频效果。此外，其开源特性便于开发者根据需求进行个性化定制，广泛适用于内容摘要、语言本地化、教育材料转化等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 746 浏览

KAPWING

KAPWING是一款基于AI技术的在线视频编辑平台，提供从视频生成到编辑的一站式解决方案。其核心功能涵盖AI视频生成器、文档转视频、文本转语音、字幕生成及高级编辑工具，支持用户轻松创建和定制视频内容。此外，KAPWING还具备团队协作能力，适合教育、企业宣传及内容创作等多个应用场景。

AI项目与工具 2025年06月12日 14 点赞 0 评论 713 浏览

moemate

Moemate是一款集成了多语言对话、屏幕感知、语音克隆和自定义图像模型等功能的AI角色平台。它支持用户创建个性化AI伴侣，并兼容多种语言模型和操作系统。Moemate不仅提供娱乐体验，还具备教育辅助、信息查询和工作效率提升等实用功能，适合个人和企业用户。

AI项目与工具 2025年06月12日 88 点赞 0 评论 841 浏览

F5

F5-TTS是一款由上海交通大学研发的高性能文本转语音（TTS）系统，采用流匹配与扩散变换器技术，支持多语言合成及情感控制等功能。它能够在无额外监督条件下生成高质量语音，适用于多种商业和非商业场景，如有声读物、语音助手、语言学习等。

AI项目与工具 2025年06月12日 29 点赞 0 评论 600 浏览

Illuminate

Illuminate是一款基于谷歌Gemini语言模型开发的AI工具，可将学术论文转化为生动的音频讨论。它通过自然语言处理技术和文本到语音合成，生成包含核心观点的对话内容，支持用户在碎片化时间中高效学习。该工具具备动态音频转换、个性化学习体验、互动反馈及多平台共享等功能，适用于学术研究、学生辅助学习及非专业人士的知识普及。

AI项目与工具 2025年06月12日 29 点赞 0 评论 779 浏览

GTSinger

GTSinger是一项由浙江大学研发的开源高质量歌声数据集，包含80.59小时的多语言专业录音棚歌声数据，支持歌声合成、技巧识别、风格迁移和语音到歌声转换等多种任务。它通过音素级标注和真实乐谱支持，为歌唱技巧的研究和应用提供了强大工具。

AI项目与工具 2025年06月12日 77 点赞 0 评论 677 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期