语音

KHOJ

KHOJ是一款开源的AI助手,支持多源知识整合与语义搜索,兼容多种文档格式和AI模型。提供图像生成、语音交互、跨平台访问等功能,支持本地与云端部署,适用于个人知识管理、学习研究、团队协作等场景,具有高度灵活性和可扩展性。

网易见外

网易见外是由网易人工智能事业部研发的AI智能语音转写听翻平台,提供视频听翻、直播听翻、语音转写、文档直翻等功能。

Multi

Multi-Speaker 是 AudioShake 推出的高分辨率多说话人分离工具,支持将音频中不同说话人的语音精准分离至独立轨道,适用于广播级音频处理。它具备高保真音频处理能力,支持高采样率,能处理长达数小时的录音,在复杂场景下仍能保持稳定效果。广泛应用于影视、播客、无障碍服务及内容创作等领域,提升音频编辑效率与质量。

绘影字幕

为视频自动添加字幕,自动识别视频中的人声,转化成字幕,字幕翻译,字幕制作软件

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型,具备听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语,主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

紫东太初 – 多模态大模型

“紫东太初”平台展现了中国科学院自动化研究所在人工智能领域的深厚实力。它不仅具备强大的多模态处理能力,还通过自监督学习和跨模态语义关联技术,为广泛的AI应用提供了坚实的模...

鸭鸭配音

一个在线配音网站,是目前为数不多的免费的在线文字转语音的配音神器,用户只需输入文本,即可生成高度拟人的智能配音。

TIGER

TIGER是由清华大学研发的轻量级语音分离模型,采用时频交叉建模策略与多尺度注意力机制,有效提升语音分离性能,同时显著降低计算和参数开销。模型通过频带切分优化资源利用,适应复杂声学环境,广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

Dubbing AI

DubbingAI 语音生成器作为实时变声器,可以将任何语音转换为优质语音和克隆语音。从游戏玩家到直播主播和内容创作者。每个人都可以使用 Dubbing AI 生成跨年龄、语言和口音的逼真配音。

今天学点啥

“今天学点啥”是一款由秘塔AI开发的AI学习工具,支持用户通过关键词、文档或网页链接生成个性化互动课程,包含PPT和语音讲解。提供多种讲解风格与知识水平适配,具备实时互动、答题挑战和智能推荐功能,适用于学术、职业、兴趣及教育等多种学习场景,提升学习效率与趣味性。