语音

VoicePen Ai

一款语音转博客AI工具,使用VoicePen可以在几分钟内将音频、视频、语音备忘录和网站转换为博客文章。

MNN

MNN是一个由阿里巴巴开源的轻量级深度学习推理框架,支持多种模型格式和网络结构,具备高性能、低内存占用及跨平台特性。它通过模型量化、计算图优化和异构计算等技术,在移动设备和嵌入式系统中实现高效推理。主要功能涵盖模型转换、硬件加速、内存优化及多模型支持,广泛应用于图像识别、语音处理、智能家居及工业检测等领域。

小虫快读BugQR

一款基于OCR技术和AI大语言模型的高效阅读工具。小虫快读通过拍照书籍页面,应用可以自动识别并总结书籍内容,帮助你快速获取书籍的核心信息,还能通过语音播放总结内容。

AiSofiya

Sofiya是一款由人工智能驱动的文本到语音转换器,可以快速准确地将文本合成为超过135种语言和方言的自然语音。它支持多种音频格式和频率,并有一个强大的声音工作室,以合并和增强...

Freestyler

Freestyler是一款由多机构合作开发的AI工具,专注于说唱音乐的自动化生成。它通过结合语言模型、条件流匹配技术和神经声码器,实现了从歌词和伴奏到高质量说唱音频的全流程转化。Freestyler还推出了RapBank数据集,并支持零样本音色控制,广泛应用于音乐创作、现场表演、游戏音效及教育等领域。

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。

悦录

悦录依托同花顺的语音识别技术,为用户提供免费的录音转文字、语音转文字、视频字幕等服务,1小时音频最快5分钟出稿,准确率高达97%+,全程加密,文件信息安全。

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型,展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术,为用户提供了更加智能化和个性化的体验,推动了智能语...

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

AI Chinese

AI Chinese是一款利用AI技术打造的双语中文学习平台,提供个性化的在线教学服务。其核心功能包括AI模拟教学、双语教学支持、互动练习、语音识别与校正及提问解答等模块,能够满足个人自学、语言学校辅助教学、企业培训等多种应用场景需求。凭借自研中文知识图谱和精准语音反馈,该平台致力于帮助不同语言背景的学习者高效掌握中文。