深度学习
STranslate
STranslate是一款面向Windows用户的多功能翻译和OCR工具,支持多种语言翻译,包括划词、截图和监听剪贴板等多种方式,并集成了多家翻译服务接口。它还具备基于PaddleOCR技术的离线OCR功能,支持中文、英文、日文和韩文的识别。此外,该工具还具备快捷键操作、历史记录和在线升级等功能,是提高工作效率的理想工具。
ChatTTSPlus
ChatTTSPlus 是一款基于深度学习的语音合成工具,它通过 TensorRT 技术实现了显著的性能提升,同时支持语音克隆、模型压缩与加速等功能。该工具不仅适用于桌面端,还能够部署于移动设备,满足多种应用场景需求,包括有声读物制作、语言学习辅助、客户服务及娱乐等领域。
---
ClearerVoice
ClearerVoice-Studio 是一个基于复数域深度学习算法的开源语音处理框架,集成了语音增强、分离及音视频说话人提取等功能。它通过先进的 FRCRN 和 MossFormer 系列模型,实现了高效的语音信号处理,并具备强大的预训练能力和灵活的接口设计。该框架广泛应用于智能助手、会议记录、电话会议、公共安全等领域,助力提升语音处理技术的实际应用价值。
Immersity AI
Immersity AI 是一款基于先进神经深度学习技术的AI平台,可将2D图像和视频转换为沉浸式3D视觉效果。它具备实时预览、编辑功能,并支持从静态图片到动态视频的全面转换,广泛应用于社交媒体、广告营销、教育、娱乐等领域,旨在提升用户体验与内容表现力。
Lucidpic AI
lucidpic 根据一系列预先制定的参数,比如人种、姿势、年龄、性别等来生成人像,输入简单描述,为你生成真实的人像。
TME Studio腾讯音乐
分析TME全曲库歌词以及散文、诗歌等多种语料素材,依据智能推荐算法帮你找到合适的押韵词语,打开灵感空间
InternVideo2.5
InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型,具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务,适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。