语音

RTranslator

RTranslator是一款基于AI技术的开源、免费离线翻译应用,专为Android设备设计。它支持对话模式、对讲机模式及文本翻译功能,能够实现高质量的多语言实时翻译。RTranslator采用Meta的NLLB翻译模型和OpenAI的Whisper语音识别技术,支持多种语言,完全离线运行,保障用户隐私安全。

ARTalk

ARTalk是由东京大学与日本理化学研究所联合开发的语音驱动3D头部动画生成框架,基于自回归模型实现实时、高同步性的唇部动作和自然表情生成。它通过多尺度运动码本和滑动时间窗口技术提升动画质量,并引入风格编码器实现个性化风格适配。该工具在唇部同步、表情自然性和风格一致性方面优于现有技术,适用于虚拟现实、游戏开发、动画制作及人机交互等领域。

墨问便签

墨问便签是一款专为创作者设计的AI便签工具,提供长达10分钟的语音录制和实时转录功能。用户可以即时查看并编辑语音转录的文字内容,享受AI自动润色服务,包括分段、纠正错别字及删除重复词等。该工具还具备笔记私密或公开选项,方便用户记录灵感,激发创作思维,其轻量级设计使用户能够随时随地捕捉灵感,成为创作者的理想助手。

TTS Online

TTS Online是一款免费的文本转语音工具,提供语音合成服务,支持多种语言,包括英语、法语、德语、西班牙语、阿拉伯语、中文、日语、韩语等,以及多种语音风格。

海豚AI配音

海豚AI配音是一款支持多语言、多音色的文本转语音工具,提供超过500种真人音色和1000多种二次元音色,适用于有声书、自媒体、教育、动漫及广告等领域。支持多人配音、声音克隆、变声等功能,操作简便,适合各类内容创作者提升作品质量。

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型,融合视觉与听觉信息,具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练,采用动态权重调整机制,支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域,具备良好的可扩展性和灵活性。

NotebookMLX

NotebookMLX 是一款基于 MLX 技术开发的开源工具,支持将 PDF 文档转换为音频播客。它通过 PDF 预处理、播客脚本生成、文本优化以及文本转语音等功能,实现了从 PDF 文件到高质量音频内容的全流程自动化处理,适用于教育、播客创作、有声书制作等多个领域,显著提升了信息传播效率和用户体验。

星火陪练

星火陪练是一款基于AI技术的企业员工培训平台,集智能配置、自然对话、虚拟陪练及多维评分于一体。其主要功能包括快速生成课程内容、场景模拟对话、沉浸式虚拟陪练以及多维度评价反馈,广泛应用于企业培训、新员工入职、技能提升及在线教育等领域,助力员工高效掌握专业知识与实践技能。

Lobe Chat

Lobe Chat 是一个免费开源的高性能 AI 聊天机器人框架,具备多种功能,如 GPT-4 视觉识别、文字语音转换、灵活的插件系统及个性化主题模式。用户能够轻松部署和扩展功能,适用于各种场景。该框架已在 GitHub 上获得近 14K 星标,展示了其受欢迎程度和实用性。

Voila

Voila是一款开源的端到端语音大模型,支持实时语音交互与多轮对话,具备高保真、低延迟的音频处理能力。集成语音与语言建模功能,支持百万级预设声音及个性化定制,适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构,提升语音理解与生成质量,降低开发成本,提高通用性与灵活性。