ChatTTSPlus ChatTTSPlus 是一款基于深度学习的语音合成工具,它通过 TensorRT 技术实现了显著的性能提升,同时支持语音克隆、模型压缩与加速等功能。该工具不仅适用于桌面端,还能够部署于移动设备,满足多种应用场景需求,包括有声读物制作、语言学习辅助、客户服务及娱乐等领域。 --- AI项目与工具 2025年06月12日 13 点赞 0 评论 399 浏览
Ultravox Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。 AI项目与工具 2025年06月12日 51 点赞 0 评论 455 浏览
TEN Agent TEN Agent 是一款开源的实时多模态 AI 框架,集成了 OpenAI 实时 API 和 RTC 技术,支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能,支持高性能实时通信和模块化扩展,适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。 AI项目与工具 2025年06月12日 25 点赞 0 评论 173 浏览
Multimodal Live API Multimodal Live API是谷歌推出的一种支持文本、音频和视频交互的AI接口,具备低延迟、实时双向通信和自然语言处理能力。它允许用户通过多种输入方式与AI互动,并支持会话记忆和外部功能调用,广泛应用于客户服务、在线教育、远程医疗、视频会议和娱乐等领域。 AI项目与工具 2025年06月12日 51 点赞 0 评论 218 浏览
Slides Orator Slides Orator是一款基于AI技术的演示工具,支持用户通过创建虚拟形象实现幻灯片的实时解说。其核心功能包括语音旁白生成、实时聊天互动及模拟演示场景,广泛应用于企业培训、产品推介、在线教育和会议演讲等领域,旨在提升信息传递效率和观众参与度。通过简化操作流程,该工具帮助用户高效完成高质量演示内容的准备。 AI项目与工具 2025年06月12日 69 点赞 0 评论 174 浏览
Freestyler Freestyler是一款由多机构合作开发的AI工具,专注于说唱音乐的自动化生成。它通过结合语言模型、条件流匹配技术和神经声码器,实现了从歌词和伴奏到高质量说唱音频的全流程转化。Freestyler还推出了RapBank数据集,并支持零样本音色控制,广泛应用于音乐创作、现场表演、游戏音效及教育等领域。 AI项目与工具 2025年06月12日 17 点赞 0 评论 350 浏览
CosyVoice 2.0 CosyVoice 2.0是一款基于深度学习的语音生成大模型,通过有限标量量化技术和新型架构设计,在发音准确性、音色一致性和韵律表达方面表现出色。其支持流式推理,延迟低至150ms,广泛应用于智能助手、有声读物、视频配音及语言学习等领域,同时具备多语言支持和情感控制等功能。 AI项目与工具 2025年06月12日 10 点赞 0 评论 284 浏览
ShowBiz AI ShowBiz AI是一款基于BlackEye多模态视听大模型的专业级AI视频创作平台,专注于文本转动画、全流程AI赋能以及多种视频编辑功能。它支持从文案生成到分镜脚本设计再到编辑工具的一站式服务,涵盖横屏转竖屏、慢动作生成、抠像、扩图、擦除、高光处理、语音转写及语音生成等功能,旨在提升视频制作效率并降低创作成本,同时激发创意灵感。 AI项目与工具 2025年06月12日 56 点赞 0 评论 336 浏览
Speechelo Speechelo是一款基于先进AI技术的文本转语音工具,支持超过30种性别和语言的声音选择,用户可通过调整语调、速度和音高来自定义语音效果。它兼容主流视频编辑软件,适用于产品演示、教育培训、营销推广等多种场景,助力高效生成高质量语音内容。 AI项目与工具 2025年06月12日 52 点赞 0 评论 263 浏览
LatentLM LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。 AI项目与工具 2025年06月12日 67 点赞 0 评论 414 浏览