虚拟

In3D

In3D把人变成逼真的化身,使用手机摄像头在一分钟内为您的元宇宙、游戏或应用程序创建逼真且可自定义的头像

Wavtool

Wavtool 是一款基于浏览器的 AI 音频创作平台,支持录制、编曲、混音和导出音乐,提供 AI 辅助创作功能,支持多轨处理及高级合成工具。用户可通过浏览器直接操作,无需安装软件,适合音乐爱好者、专业人士及教育用途。

咕噜口语SpeakGuru

SpeakGuru是一款由清华团队开发的AI口语练习工具,通过与虚拟人物对话提升英语口语能力。支持中文辅助、语法优化、发音评估等功能,涵盖100+真实场景,适配不同英语水平用户。内置错题本、词汇统计、个性化学习计划等模块,帮助用户全面掌握学习进度。已接入DeepSeek R1模型,提升智能化学习体验。

INFP

INFP是一款基于音频驱动的头部生成框架,专为双人对话设计,具备自动角色转换功能。它通过两个阶段实现头部生成:基于动作的头部模仿和音频引导的动作生成。同时,INFP提出了大规模双人对话数据集DyConv,推动了相关领域的研究进展。该工具适用于视频会议、虚拟助手、教育培训、客户服务等多个场景,支持实时互动并可调节生成风格。

Janus

Janus是一种由DeepSeek AI开发的自回归框架,专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能,支持多种输入模态如图像、文本等,并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力,适用于图像创作、自动标注、视觉问答等多个领域。

HoloTime

HoloTime 是由北京大学深圳研究生院与鹏城实验室联合开发的全景 4D 场景生成框架,可将单张全景图像转化为动态视频,并进一步重建为沉浸式 4D 场景。其核心技术包括全景动画生成器(Panoramic Animator)和时空重建技术,结合 360World 数据集进行训练,实现高质量的视频生成与场景重建。该工具支持 VR/AR 应用,适用于虚拟旅游、影视制作、游戏开发等多个领域,提供高效的沉

ElevenLabs Flash

ElevenLabs Flash是一款专为对话型AI设计的低延迟语音合成模型,支持多种语言,能够以极短的延迟(75毫秒)生成高质量语音,广泛应用于虚拟助手、客户服务、语音播报、教育及娱乐等领域,为用户提供即时反馈和沉浸式体验。该工具以其高效性和灵活性成为超低延迟语音合成领域的领先解决方案。

Project Turntable

Project Turntable是一款由Adobe发布的AI工具,支持用户在三维空间中旋转二维矢量图像,并利用生成式AI和深度学习技术即时生成图像的隐藏部分。它显著提升了设计师的工作效率,减少了重复性劳动,适用于平面设计、插画创作、动画制作及游戏开发等领域,同时保持了图像的二维特性和平滑过渡效果。

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备,支持多模态感知与多维表达,提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音,接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域,提升服务效率与用户体验。

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具,可生成高质量、自然的说话人头部视频。支持多信号控制(如音频、表情),采用并行 Mamba 结构和门控机制,实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异,适用于虚拟主播、远程会议、在线教育等多种场景。