RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队开发的全球规模最大的双臂机器人操作任务扩散基础模型。该模型包含数十亿参数,能够独立完成复杂任务,如调酒和遛狗,展现出卓越的泛化能力和操作精度。RDT通过模仿人类动作实现学习,支持处理未见过的物体和场景。目前,清华团队已开放RDT的代码、模型及训练数据集,以促进机器人技术的进步。 RDT主要通过多模态输入编码、Transformer骨干网络以及预训练与微调机制实现其核心功能。它结合了语言、视觉和动作三种模态,并采用QKNorm、RMSNorm等技术优化,同时具备少样本学习能力,能够在有限演示下快速掌握新技能。此外,RDT还构建了统一的动作空间,以适应不同机器人数据格式的学习需求。 RDT已在多个领域展示了其潜力,包括餐饮服务、家庭助理、医疗辅助、工业自动化及灾难救援等。这些应用场景不仅提高了工作效率,还增强了操作的安全性和灵活性。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部