语音

Whisper

Whisper是一个开源的自动语音识别系统,经过68万小时的多语言和多任务监督数据训练

Narration Box

Narration Box是一种语音合成服务,用户可以创建画外音、旁白、有声读物、音频页面、播客等。它拥有超过700个人工智能增强的仿人叙述者,支持20多种语言,功能强大的语音编辑器,...

GTSinger

GTSinger是一项由浙江大学研发的开源高质量歌声数据集,包含80.59小时的多语言专业录音棚歌声数据,支持歌声合成、技巧识别、风格迁移和语音到歌声转换等多种任务。它通过音素级标注和真实乐谱支持,为歌唱技巧的研究和应用提供了强大工具。

Voicify.AI

Voicify AI是创建高质量AI混音的平台,仅需几秒钟即可完成。它允许用户使用AI技术和社群上传的AI语音模型生成AI混音。

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统,支持中英文及2000+音色,能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能,提供Web界面和API接口,适用于有声读物、智能助手、教育、客服等场景,技术上支持高效部署与模型微调。

Media2Face

一款革命性的语音面部动画生成工具,借助 Media2Face,现在可以从任何音频、图像或文本输入无缝生成逼真且富有表现力的面部动画。

MNN

MNN是一个由阿里巴巴开源的轻量级深度学习推理框架,支持多种模型格式和网络结构,具备高性能、低内存占用及跨平台特性。它通过模型量化、计算图优化和异构计算等技术,在移动设备和嵌入式系统中实现高效推理。主要功能涵盖模型转换、硬件加速、内存优化及多模型支持,广泛应用于图像识别、语音处理、智能家居及工业检测等领域。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

EMOVA

EMOVA是一款由多所高校与企业联合研发的多模态全能型AI助手,具备处理图像、文本和语音的能力,支持情感化语音对话,并通过轻量级情感控制模块增强了人机交互的自然性。其核心技术包括连续视觉编码器、语义-声学分离的语音分词器及全模态对齐机制,广泛应用于客户服务、教育辅助、智能家居控制等多个领域。

Chat Video

Chat Video 基于AI的高效视频学习工具,具有语音识别、摘要总结、AI 问答等功能。