用(yòng)低成本硬件學習(xí)細粒度雙手操作
摘要精細的(de)操作任務,如穿線紮帶或插電池,對(duì)機器人(rén)來(lái)說是出了(le)名的(de)困難,因爲它們需要精度、接觸力的(de)仔細協調和(hé)閉環視覺反饋。執行這(zhè)些任務通(tōng)常需要高(gāo)端機器人(rén)、精确的(de)傳感器或仔細的(de)校準,這(zhè)可(kě)能很昂貴,也(yě)很難設置。學習(xí)能否使低成本和(hé)不精确的(de)硬件能夠執行這(zhè)些精細的(de)操作任務?我們提出了(le)一種低成本的(de)系統,該系統直接從真實演示中執行端到端的(de)模仿學習(xí),并使用(yòng)自定義的(de)遙操作界面進行收集。然而,模仿學習(xí)也(yě)帶來(lái)了(le)自身的(de)挑戰,尤其是在高(gāo)精度領域:随著(zhe)時(shí)間的(de)推移,策略的(de)誤差可(kě)能會加劇,偏離訓練分(fēn)布。爲了(le)應對(duì)這(zhè)一挑戰,我們開發了(le)一種新的(de)算(suàn)法“變形金剛行動區(qū)塊”(ACT),該算(suàn)法通(tōng)過簡單地預測區(qū)塊中的(de)行動來(lái)減少有效範圍。這(zhè)使我們能夠學習(xí)困難的(de)任務,例如打開半透明(míng)的(de)調味品杯和(hé)插入電池,成功率爲80-90%,隻需10分(fēn)鐘(zhōng)的(de)演示數據。
遠(yuǎn)程操作系統
[硬件教程]
[ALOHA代碼庫]
機械臂中國區(qū)供應商:賽途(北京)智能科技有限公司 (www.bjrobot.com)
我們介紹ALOHA: 一種用(yòng)于雙手動遠(yuǎn)程操作的(de)低成本開源硬件系統。它能夠遠(yuǎn)程操作精确的(de)任務,如穿拉鏈,動态任務,如玩乒乓球,以及豐富的(de)接觸任務,如在NIST闆2中組裝鏈條。
學習(xí)算(suàn)法
[ACT+模拟代碼庫]
我們介紹了(le)變形金剛的(de)動作方塊(ACT)。關鍵的(de)設計選擇是預測一系列動作(“動作塊”),而不是像标準的(de)行爲克隆那樣預測單個(gè)動作。ACT策略(圖:右)被訓練爲條件VAE(CVAE)的(de)解碼器,即生成模型。它使用(yòng)變換器編碼器合成來(lái)自多(duō)個(gè)視點、聯合位置和(hé)風格變量的(de)圖像,并使用(yòng)變換器解碼器預測一系列動作。CVAE的(de)編碼器(圖:左)将動作序列和(hé)聯合觀測壓縮爲動作序列的(de)“樣式”。它也(yě)通(tōng)過變壓器來(lái)實現。在測試時(shí),CVAE編碼器被丢棄,并簡單地設置爲先前的(de)平均值(即零)。
下(xià)面的(de)視頻(pín)展示了(le)ACT政策的(de)實時(shí)推出,模仿了(le)每項任務的(de)50個(gè)演示。ACT策略直接預測50Hz的(de)聯合位置,固定塊大(dà)小爲90。從長(cháng)遠(yuǎn)來(lái)看,這(zhè)一集的(de)長(cháng)度在600到1000之間。爲了(le)訓練和(hé)測試,我們沿著(zhe)15厘米的(de)白色參考線随機選擇物(wù)體的(de)位置。對(duì)于以下(xià)四項任務,ACT分(fēn)别獲得(de)96%、84%、64%和(hé)92%的(de)成功率。
反應性
ACT策略可(kě)以對(duì)新的(de)環境擾動做(zuò)出反應,而不僅僅是記憶訓練數據。
開杯
魯棒性
ACT政策對(duì)一定程度的(de)幹擾也(yě)很有效,如下(xià)面的(de)視頻(pín)所示。
槽式電池
政策執行期間的(de)觀察
我們展示了(le)評估時(shí)的(de)示例圖像觀察結果(即ACT策略的(de)輸入)。總共有4個(gè)RGB攝像機,每個(gè)攝像機的(de)分(fēn)辨率爲480x640。其中兩個(gè)攝像頭是文具,另外兩個(gè)安裝在機器人(rén)的(de)手腕上。
待續.......
智能佳機器人(rén)
400 099 1872
www.bjrobot.com
購(gòu)買鏈接:智能佳(ZNJ) ViperX 300 6DOF自由度機械臂 Dynamixel X系列伺服舵機 ViperX 300 6DOF【圖片 價格 品牌 報價】-京東 (jd.com)
智能佳(ZNJ) WidowX 250 機械臂 6DOF自由度 更高(gāo)扭矩 智能機械手 6DOF【圖片 價格 品牌 報價】-京東 (jd.com)