语音

PocketPod

PocketPod是一款基于人工智能技术的个性化播客生成工具。它可以根据用户的兴趣和需求,自动创建包括每日新闻更新和特定主题深入探讨在内的播客内容。用户还可以将PDF文件等文档转换成播客形式,便于在多种场合下收听。该工具主要服务于忙碌人士、学生及播客爱好者,提供了个性化新闻播客、广泛话题覆盖、按需内容创建、文档转播客等功能,并支持与用户的日历和提醒系统集成。

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

知意配音

知意配音是一款利用AI技术的文字转语音工具,支持多平台操作,拥有超过200种声音选项,可满足多种配音需求。它具备多音字识别、文案提取、视频字幕编辑等功能,适用于小说推文、影视解说、广告制作等多个领域,是自媒体创作者和视频制作者的理想助手。

Voice Engine

Voice Engine是由OpenAI开发的AI语音合成和声音克隆技术。该技术能够通过15秒的音频样本和文本输入生成自然语音。它已在OpenAI的文本到语音API和ChatGPT的语音功能中应用。Voice Engine广泛应用于教育、翻译、远程服务提供、支持言语残障者以及帮助恢复患者声音等方面。为了确保技术安全,OpenAI实施了严格的使用政策和安全措施。

Timtalk

Timtalk是一款基于人工智能技术的英语口语学习工具,集成了文本和语音对话功能,提供即时反馈、语法检查、词汇扩展及语音识别服务。它能够模拟真实交流场景,满足不同水平用户的需求,并支持多平台使用。无论是日常对话、旅行场景还是专业领域如商务和学术交流,Timtalk都可作为高效的辅助工具。

突字幕

几分钟内得到字幕-极速识别文字和画面提取字幕

Klic Studio

Klic Studio是一款基于大型语言模型的视频翻译与配音工具,支持56种语言翻译,适用于多平台内容制作。具备高精度字幕识别、智能分割对齐、语音克隆及一键视频合成等功能,简化视频创作流程,提升多语言内容传播效率。

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

讯飞会议

科大讯飞推出的一款智能、高效、安全的云视频会议协作平台,为用户提供音视频清晰稳定流畅的音视频、多端协同、远程会议、AI降噪、实时多语种字幕、自动生成会议记录等功能。