语音

TEN VAD

TEN VAD是一款高性能的实时语音活动检测系统,专为企业级应用设计。它基于深度学习技术,能够精确区分语音和非语音信号,具有低延迟、轻量级和高精度的特点。支持多种平台和编程接口,适用于智能助手、客服机器人等场景,帮助构建更高效、更智能的对话系统。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

speakSync

AI语音翻译器,无缝语音和文本转换,一款基于ChatGPT的AI语音翻译应用,支持70多种语言。它可以实现面对面语音通话。

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型,基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入,可生成结构化文本输出,并具备音频转录、情感分析等功能。可在本地设备运行,响应时间低至 50 毫秒,适用于语音助手、内容生成和学术任务定制。

Beepbooply

Beepbooply是一款人工智能驱动的文本转语音工具,允许用户快速轻松地生成具有逼真声音的音频内容。超过80种语言、120种口音和900种声音,用户可以自定义他们的音频,并生成几个小...

ChitChop

ChitChop是字节跳动旗下一款基于云雀大语言模型创建的AI集合工具产品,可以为用户提供多达200+的智能机器人服务。

Grimo

Grimo 是一款集成多种 AI 技术的写作辅助工具,支持语音输入、提示管理、实时网络搜索和团队协作等功能,适用于作家、内容创作者及专业人员。其提供多个版本以满足不同需求,具备高度定制化和智能化特性,有效提升写作效率和内容质量。

Notato

Notato 是一款基于 AI 的笔记应用,支持音频、视频、文档及网页内容的自动转录与结构化整理,生成摘要、闪卡和测验,适用于学习、会议、资料整理等多种场景。其具备多语言翻译、错题分析、后台录音等功能,提升信息处理与知识管理效率。

Typecast AI

一款具有情感文本转语音功能的AI语音生成器,可以使用超过400个逼真的声音,将文本转换为逼真的语音。

Scribe

Scribe 是由 ElevenLabs 推出的高精度语音转文本模型,支持 99 种语言,具备多说话者区分、非语言事件检测和单词级时间戳功能。输出结构化的 JSON 数据,适用于会议记录、字幕生成、内容创作等多种场景,广泛应用于教育、客服及媒体领域。