DINOBoT-Robot-Manipulation-via-Retrieval-and-Alignment-with-Visio-Foundation-Models

原文链接:https://www.robot-learning.uk/dinobot

Abstract

我们提出了一种针对机器人操作问题的新型模仿学习框架DINOBot,其利用了使用DINO训练的Vision Transformers提取得到的图像与像素级别的特征。当与新目标交互时,DINOBot首先使用这些特征检索在人类演示过程中(训练过程中)最相似的目标,然后使用该对象将其末端执行器与新对象对齐(将夹持器置于对象的起始交互位置,例如置于其正上方(align:对齐)),以实现有效的交互。通过对日常任务的一系列现实世界实验,我们表明,利用视觉基础模型的图像级和像素级特性,可以实现前所未有的学习效率和泛化能力。

key points:

  1. one-shot能力:从单次演示中学习。
  2. generalising and robust:可以泛化到不同目标且对干扰与视觉变化具有鲁棒性。

基于视觉的模仿学习问题拆分:

  1. 图像检索:从演示数据集中进行图像级检索。
  2. 像素对其:通过像素级对齐实时图像与目标图像。

使用DINO(sota vision foundation models)进行图像处理。

DINOBot能够通过一个演示学习许多日常任务(one-shot),包括需要精确或灵巧的任务,对许多不同物体的泛化,以及对干扰和视觉变化的鲁棒性。

Method

通过检索、对齐和回放完成操作任务

Manipulation via Retrieval, Alignment and Replay

previous work: (https://www.robot-learning.uk/retrieval-alignment-replay)

1. 演示记录(Demon recording)

训练:每个任务提供单次演示和目标标签。每个demo存储三个数据点:

  1. 瓶颈观测(bottleneck observation):demo开始时的姿态,机械臂相机捕捉到的图像。在记录演示轨迹前,机器人会从不同姿态观察,并收集结果和姿态数据集用于训练对齐策略,以便测试时末端执行器可以回到bottleneck pose。

  1. 末端执行器轨迹(end-effector trajectory):存储了夹持器(末端执行器)在演示中的轨迹和。

  1. 任务名称(Task name)。注:demo标注包括object+task两部分。

2.检索

在部署时,使用DINO的图像特征理解能力,与演示记录的视觉特征进行比较,在找到最佳匹配后,执行对应轨迹

3.对齐

使用Best Buddies Nearest Neighbours matching算法,找到一组实时目标与demo中目标的特征最接近的descriptors,然后使用RGBD相机投影到3D。

4.重放

如若对齐是精确的,则可以使用简单的轨迹回放来完成操作。

Experiment

在超过50个目标上执行了15个任务,DINOBot展现出了强大的执行效果与few-shot能力

实验效果

one-shot示意

generalising示意

通过提取一组实时图像与demo图像的离散关键点进行对齐,具有一定鲁棒性

演示

实时实验

Limitations and prospect

  1. 无法解决需要实时复杂反馈的任务,比如跟踪物体的边缘。

  2. 可以引入第三人称摄像头,获取更多信息

  3. 当前框架采用简单的重放轨迹的方式,拥有one-shot能力的同时失去采用few-shot的效果。

  4. 泛化性:无法适应形状区别过大的物体。

  5. 主要的操作原因:a. 目标图像检索出错 b. 错误的目标匹配 c. 相机的噪声深度估计(RGBD,depth估计错误,影响对齐) d. 无法交互(与demo中物体形状相差过大)

c的影响因素最大。