深度学习
Gemini Robotics
Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统,融合视觉-语言-动作模型,支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力,适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练,结合真实操作与多模态信息,实现高效、灵活的机器人控制。
CineMaster
CineMaster是快手推出的3D感知视频生成框架,支持通过文本提示及深度图、相机轨迹等控制信号生成高质量视频内容。其核心功能包括3D物体与摄像机控制、交互式设计、自动化数据标注和高质量视频输出。采用两阶段工作流程与扩散模型技术,结合语义布局控制网络与摄像机适配器,提升视频生成的精确度与灵活性。适用于影视制作、广告营销、游戏开发等多个领域。
PhotoMaker
PhotoMaker V2是腾讯推出的一款AI图像生成框架,能够快速生成逼真的人物照片。它在角色的一致性和可控性上取得了显著进步,用户可以通过文本指令进行精准控制。该工具利用深度学习技术和生成对抗网络(GANs),能够将文本描述转化为图像,并通过集成脚本增强生成过程的个性化和可控性。PhotoMaker V2广泛应用于游戏开发、电影制作、广告、社交媒体、艺术创作和教育等领域。