语音

播记

播记是一款基于AI技术的播客节目笔记生成工具,能够自动提取音频内容中的关键信息,生成包含主题、嘉宾介绍、观点及时间戳的详细笔记。支持多种格式导出,便于内容管理和二次创作。适用于社交媒体、邮件简报、博客文章等多种场景,具备智能分类、多语言支持及内容优化功能,提升播客内容的传播效率与质量。

蘑兔听记

一款音视频转文字工具,超98%的语音识别准确率,30分钟音频只需3分钟就可转成文字,支持20多种方言、30余种外语,极大提高了工作和学习效率。

Tailor

Tailor是一款免费开源的AI视频编辑工具,提供视频编辑、生成和优化三大功能。它能够实现人脸剪辑、语音剪辑、口播生成、字幕生成、色彩生成等功能,并支持背景更换及流畅度和清晰度优化。最新版本增加了语音驱动的口播生成和模型自检修复机制,进一步提升了用户体验。

清图

清图 - 模糊图片秒变清晰,一个基于深度学习技术的在线图像处理平台

WellSaid labs

WellSaid是一款人工智能文本转语音工具,允许用户根据文本创建真实、自然的画外音。它提供了一系列语音化身,并帮助团队在项目上协作,允许更快的生产时间。它适用于企业,可用于...

Talk to Ash

Talk to Ash 是一款基于人工智能的心理健康支持平台,通过语音对话技术提供全天候的情感支持与心理辅导服务。平台结合认知行为疗法(CBT)和辩证行为疗法(DBT)等专业方法,能根据用户对话生成个性化建议。具备语音交互、情绪倾听、目标追踪、隐私保护等功能,适用于压力管理、人际关系改善和个人成长等场景。

Nova Sonic

Nova Sonic是亚马逊推出的生成式AI语音模型,集成语音理解和生成功能,支持多种语言和口音,具备高准确性与自然对话能力。其采用HiFi语音识别技术,平均单词错误率低至4.2%,支持实时信息获取与请求路由,适用于客户服务、教育、医疗、旅游及娱乐等多个领域。该模型具备低延迟和高性价比优势,是当前市场上较为突出的语音处理工具。

Chatterbox

Chatterbox是Resemble AI推出的开源文本转语音(TTS)模型,基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练。它支持零样本语音克隆,仅需5秒参考音频即可生成高度逼真的个性化语音,并具备情感夸张控制功能,可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用于交互式应用。此外,它采用安全水印技术防止滥用,适用于内容

小爱同学AI助手

由小米公司研发,基于小米的硬件生态和海量数据,为用户提供全球领先的语音识别、NLP等完整的 AI 技术服务。