语音

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架,专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力,可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域,同时支持预训练模型微调和端到端开发流程,为企业提供高效灵活的解决方案。

AdamCAD

只需通过用简单的语言描述就能为你生成复杂的CAD图纸,而且还能通过3D打印机直接打印出来,适用于工业设计和机械工程行业。

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。

Freestyler

Freestyler是一款由多机构合作开发的AI工具,专注于说唱音乐的自动化生成。它通过结合语言模型、条件流匹配技术和神经声码器,实现了从歌词和伴奏到高质量说唱音频的全流程转化。Freestyler还推出了RapBank数据集,并支持零样本音色控制,广泛应用于音乐创作、现场表演、游戏音效及教育等领域。

Translate Now

Translate Now是一款免费的翻译应用程序,可让您在 100 多种语言之间翻译文字、语音和图像。它使用 Google 翻译技术,提供快速、准确的翻译。

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型,融合了语音识别、自然语言处理、情感理解和对话管理等功能,具备实时性和端到端交互特性。它通过深度学习技术和离散表示法,实现从语音输入到语音输出的全流程自动化,生成自然流畅的语音回应,并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

All Voice Lab

All Voice Lab是一款基于AI技术的语音创作平台,提供文本转语音、声音克隆、视频翻译、变声等多种功能,支持多语言及多音色转换。平台具备高精度的语音生成能力,可应用于内容创作、视频制作、教育及娱乐等领域,提升内容表现力与国际化传播效率。

Audio Enhancer

一个在线音频增强工具,Audio Enhancer使用人工智能算法来帮助用户轻松地减少音频文件中的背景噪音,用于改善音频录音的清晰度和整体质量。

ShowBiz AI

ShowBiz AI是一款基于BlackEye多模态视听大模型的专业级AI视频创作平台,专注于文本转动画、全流程AI赋能以及多种视频编辑功能。它支持从文案生成到分镜脚本设计再到编辑工具的一站式服务,涵盖横屏转竖屏、慢动作生成、抠像、扩图、擦除、高光处理、语音转写及语音生成等功能,旨在提升视频制作效率并降低创作成本,同时激发创意灵感。