语音

Perplexity macOS客户端

Perplexity macOS 是一款基于人工智能技术的搜索工具,集成了大语言模型,支持实时联网搜索、多源内容整合及信息来源标注。其主要功能包括语音与文本输入、线索跟踪、历史记录查看及文件分析等,适用于深度研究、信息查询、知识管理和文件分析等多种应用场景,旨在提高用户的搜索效率和工作生产力。

Fineshare VoiceTrans

Fineshare VoiceTrans 是一款支持实时变声的 AI 工具,可将声音转换为多种角色或性别,保留原有情感与语调。提供丰富的音效库、声音实验室和预设声音包,适用于游戏、直播、配音等场景。用户可通过不同订阅计划获得无限使用权限和定制服务,提升创作与互动体验。

EzVideos

一款能够快速生成适用于Instagram、TikTok和YouTube的爆款短视频工具,EzVideos能够自动完成视频编辑,让用户专注于内容创作。

星声AI

星声AI是一款智能化播客生成工具,支持文字、网页链接或文档输入,自动生成结构完整的播客脚本,并通过高质量语音合成技术转化为自然流畅的音频内容。平台支持中、英、日、韩四国语言,提供多种音色与风格选择,具备音频编辑、内容拆解、多平台发布等功能,适用于知识分享、企业培训、内容创作等多种场景。

Fish Agent

Fish Agent是一款集成了自动语音识别(ASR)与文本到语音(TTS)技术的端到端语音处理工具,能够直接实现语音到语音的转换,无需传统语义编码器/解码器。它支持多种语言,适用于语音转换、环境音频信息捕捉等场景,并基于深度学习技术优化了语音处理性能。Fish Agent可广泛应用于内容创作、教育、客户服务及娱乐等领域。

Addsubtitle

Addsubtitle 是一款基于AI的在线视频编辑工具,支持多语言视频翻译、自动字幕生成与自定义样式设置,适用于全球市场推广和内容本地化。用户可实时编辑字幕并实现精准的唇音同步,同时提供语音克隆和水印去除功能,提升视频的国际化传播能力。

MeloTTS

MeloTTS是一个高质量的多语言文本转语音(TTS)库,由MyShell AI开发。该工具支持多种语言的文本转语音任务,包括英语(含不同口音)、西班牙语、法语、中文、日语和韩语,并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音,还易于安装和使用,适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。

MaskGCT

MaskGCT是一款基于掩码生成模型与语音表征解耦编码技术的语音合成大模型,由趣丸科技与香港中文大学(深圳)联合开发。其主要功能包括声音克隆、跨语种语音合成、语音控制及高质量语音数据集支持。该模型在多个TTS基准数据集上表现优异,可快速精准地克隆音色并灵活调整语音属性,适用于多种语言,已开源并面向全球用户开放。

牛学长变声精灵

牛学长变声精灵作为一款AI实时变声器,有着数百种变声特效,一键美化音色可适配各类游戏和直播软件。

Universal

Universal-1是一款由AssemblyAI开发的多语言语音识别和转录模型,经过大量多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在各种复杂环境中提供高精度的语音转文字服务,具备快速响应能力和改进的时间戳准确性。Universal-1在准确率、响应时间、时间戳估计和用户偏好等方面表现优异,适用于对话智能平台、AI记事本、创作者工具和远程医疗平台等多个应用场景。