语音

Blogcast™

BlogcastTM是一个文本转语音的工具,允许用户创建播客、视频、电子学习课程的音频和音频书籍,而无需录制。它由人工智能驱动的文本转语音技术提供支持,并提供多种声音和语言可供...

Dinox

Dinox是一款基于AI技术的语音笔记应用,主要功能包括实时语音转录、本地优先存储、多平台同步、智能生成笔记标题和分类、自动双链及私人AI助理。该应用可帮助用户高效记录灵感和信息,适用于个人日记、会议记录、学习笔记、创意写作及项目管理等多种应用场景。

AI Transcribe

Transcribe 是一个基于 OpenAl 训练并开源的录音转文字工具,支持英语、中文等多种语言,最大的优点就是无需下载大型的模型文件。

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型,通过集成自动语音识别(ASR)、大型语言模型(LLM)、文本到语音(TTS)以及WebSockets等技术,提供高质量、实时的语音交互体验。它支持全双工交互和打断功能,可整合网络搜索和RAG模型以增强回答能力,适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

知存科技

专注研发基于存算一体先进技术的人工智能芯片

AniTalker

AniTalker是一款先进的AI工具,能将单张静态人像与音频同步转化为生动的动画对话视频。它通过自监督学习捕捉面部动态,采用通用运动表示和身份解耦技术减少对标记数据的依赖,同时结合扩散模型和方差适配器生成多样且可控的面部动画。AniTalker支持视频驱动和语音驱动两种方式,并具备实时控制动画生成的能力。

Bark

Bark是一款开源的文本到音频转换模型,由Suno AI开发,能够生成逼真的多语言语音及多种音频类型,包括音乐和背景噪音,并支持非语言交流的声音。该模型提供预训练模型,适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。

NewsBang

NewsBang是一款基于AI技术的新闻应用,提供无偏见、深度的新闻洞察。通过整合多源信息生成简洁摘要,并支持实时问答、语音播放及个性化推荐等功能,帮助用户高效获取关键信息。适用于忙碌人群、新闻爱好者及投资者等,满足多样化信息需求。

Granola

Granola是一款AI驱动的会议助手工具,支持实时转录、发言者识别、笔记记录和重点标记,自动生成会议总结并支持任务管理。它可与主流会议平台集成,根据会议类型智能调整笔记模板,具备高精度语音识别能力,适用于多种会议场景,帮助用户提升会议效率与信息整理能力。

简单听记

百度网盘推出的一款AI语音转文字工具,简单听记能够帮你将音频内容转化为文字,还能进一步把这些文字提炼总结,帮你节省很多时间。