语音

Miley AI

Miley AI 是一款基于人工智能的生活助手,主要功能包括智能语音记录、情绪识别、自动记账、日程管理以及与苹果健康数据连接的运动监督。这款工具特别适用于忙碌的职场人士、创意工作者、学生、健身爱好者及理财者,帮助他们更高效地管理日常生活和工作任务。

KHOJ

KHOJ是一款开源的AI助手,支持多源知识整合与语义搜索,兼容多种文档格式和AI模型。提供图像生成、语音交互、跨平台访问等功能,支持本地与云端部署,适用于个人知识管理、学习研究、团队协作等场景,具有高度灵活性和可扩展性。

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

Voicemaker

Voicemaker,强大的文本到语音转换器,它也能通过先进的人工智能技术来制作高质量的画外音,听起来像人性化且富有表现力。

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台,基于 AI 技术提供高质量文字转语音服务,支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆,并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景,提升语音内容制作效率。

CircleBack

CircleBack 是一款基于 AI 的会议记录工具,支持多语言转录与智能总结,能自动生成结构化笔记和行动项。其具备强大的口音识别能力,可与 Zoom、Google Meet、Microsoft Teams 等平台集成,适用于企业会议、远程协作、教育、客户服务及医疗等多个场景。此外,它还支持语义搜索和工作流自动化,提升会议管理效率。

​LobeChat

一个开源、高性能的聊天机器人框架,支持语音合成、多模态和可扩展(函数调用)插件系统。支持一键免费部署您的私人 ChatGPT/LLM Web 应用程序。

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型,具备听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语,主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

音子AI

音子AI利用人工智能技术提供了一系列便捷的音频处理服务,无论是音乐制作的音轨分离,还是有声读物的文本转语音,都能满足用户的不同需求。

Imagine Explainers

Imagine Explainers 是一款基于 AI 的视频生成工具,支持用户根据主题和时长快速生成高质量动画视频。提供多种模板、角色和风格选择,支持 AI 语音或自定义音频。适用于教育、商业、营销等多个领域,能够将复杂内容转化为直观的视觉表达,提升信息传达效率。