研究人(rén)員(yuán)開發了(le)能夠掌握多(duō)種技能的(de)機器人(rén)學習(xí)代理(lǐ)人(rén)
人(rén)類是社會生物(wù),相互學習(xí),甚至從很小的(de)時(shí)候就開始了(le)。嬰兒(ér)敏銳地觀察他(tā)們的(de)父母、兄弟(dì)姐妹或照(zhào)顧者。他(tā)們觀看、模仿和(hé)回放他(tā)們所看到的(de),以學習(xí)技能和(hé)行爲。
嬰兒(ér)學習(xí)和(hé)探索周圍環境的(de)方式激發了(le)卡内基梅隆大(dà)學和(hé)Meta AI的(de)研究人(rén)員(yuán)開發一種新的(de)方法,教機器人(rén)如何同時(shí)學習(xí)多(duō)種技能,并利用(yòng)它們來(lái)處理(lǐ)看不見的(de)日常任務。研究人(rén)員(yuán)著(zhe)手開發一種機器人(rén)人(rén)工智能代理(lǐ),其操作能力相當于一個(gè)3歲的(de)孩子。
該團隊宣布了(le)RoboAgent,這(zhè)是一種人(rén)工智能代理(lǐ),利用(yòng)被動觀察和(hé)主動學習(xí),使機器人(rén)能夠獲得(de)與幼兒(ér)同等的(de)操縱能力。
計算(suàn)機科學學院(在新窗(chuāng)口開放)機器人(rén)研究所(在新的(de)窗(chuāng)口開放)的(de)兼職教師Vikash Kumar說:“機器人(rén)代理(lǐ)是通(tōng)用(yòng)機器人(rén)代理(lǐ)的(de)一個(gè)重要裏程碑,它們是高(gāo)效的(de)學習(xí)者,在新的(de)情況下(xià)有效,并能夠随著(zhe)時(shí)間的(de)推移擴展自己的(de)行爲。”。“目前的(de)機器人(rén)是高(gāo)度專業化(huà)的(de),并接受單獨任務的(de)訓練。相比之下(xià),我們開始創建一個(gè)能夠在看不見的(de)場(chǎng)景中展示廣泛技能的(de)人(rén)工智能代理(lǐ)。RoboAgent像人(rén)類嬰兒(ér)一樣學習(xí)——利用(yòng)豐富的(de)被動觀察和(hé)有限的(de)主動遊戲相結合。”
RoboAgent可(kě)以在不同的(de)場(chǎng)景中完成12項操作技能。這(zhè)項研究指向了(le)一個(gè)能夠适應不斷變化(huà)的(de)環境的(de)機器人(rén)學習(xí)平台。與過去的(de)研究不同,該團隊在真實環境中展示了(le)他(tā)們的(de)工作,而不是模拟,并且使用(yòng)的(de)數據比以前的(de)項目少得(de)多(duō)。
機器人(rén)研究所副教授Abhinav Gupta(在新窗(chuāng)口中打開)表示:“機器人(rén)特工的(de)技能比其他(tā)人(rén)所取得(de)的(de)技能複雜(zá)得(de)多(duō)。”。“我們展示了(le)比單一現實世界中的(de)機器人(rén)代理(lǐ)所能實現的(de)更大(dà)的(de)技能多(duō)樣性,具有效率和(hé)對(duì)獨特的(de)看不見的(de)場(chǎng)景的(de)泛化(huà)能力。”
該團隊的(de)代理(lǐ)人(rén)通(tōng)過互聯網數據中包含的(de)自我體驗和(hé)被動觀察相結合的(de)方式進行學習(xí)。當父母引導孩子時(shí),研究人(rén)員(yuán)通(tōng)過任務遠(yuǎn)程操作機器人(rén),爲其提供有用(yòng)的(de)自我體驗。
機器人(rén)學博士生Homanga Bharadwaj說:“我們方法的(de)有效性和(hé)效率源于我們新穎的(de)政策架構,即使經驗有限,我們的(de)代理(lǐ)人(rén)也(yě)能推理(lǐ)。”。“RoboAgent通(tōng)過預測和(hé)聚合運動的(de)時(shí)間塊而不是通(tōng)常使用(yòng)的(de)按時(shí)間步長(cháng)的(de)動作來(lái)響應指定的(de)文本/視覺目标。”
機器人(rén)主要從自己的(de)經驗中學習(xí),而不是被動地從周圍發生的(de)事情中學習(xí)。這(zhè)種對(duì)環境中發生的(de)事情的(de)固有盲目性從根本上限制了(le)機器人(rén)所接觸到的(de)體驗的(de)多(duō)樣性和(hé)适應新情況的(de)能力。爲了(le)克服這(zhè)些限制,RoboAgent從互聯網上的(de)視頻(pín)中學習(xí)——類似于嬰兒(ér)如何通(tōng)過被動觀察周圍環境來(lái)獲得(de)知識和(hé)行爲。
機器人(rén)學博士生Mohit Sharma說:“RoboAgent利用(yòng)這(zhè)些視頻(pín)中包含的(de)信息來(lái)學習(xí)人(rén)類如何與物(wù)體互動的(de)先驗知識,并使用(yòng)各種技能成功完成任務。”。“此外,在多(duō)個(gè)場(chǎng)景中觀察類似的(de)技能可(kě)以讓它了(le)解完成任務需要什(shén)麽和(hé)不需要什(shén)麽。當遇到未知任務或看不見的(de)環境時(shí),它會利用(yòng)這(zhè)些經驗教訓。”
機器人(rén)研究所助理(lǐ)教授Shubham Tulsiani(在新窗(chuāng)口中打開)表示:“能夠進行這(zhè)種學習(xí)的(de)智能體使我們更接近于一個(gè)普通(tōng)機器人(rén),它可(kě)以在各種看不見的(de)環境中完成各種任務,并随著(zhe)收集更多(duō)經驗而不斷進化(huà)。”。“RoboAgent可(kě)以使用(yòng)有限的(de)域内數據快(kuài)速訓練機器人(rén),同時(shí)主要依靠互聯網上大(dà)量可(kě)用(yòng)的(de)免費數據來(lái)學習(xí)各種任務。這(zhè)可(kě)以使機器人(rén)在家庭、醫院和(hé)其他(tā)公共場(chǎng)所等非結構化(huà)環境中更有用(yòng)。”
該團隊經過訓練的(de)模型、代碼庫、硬件驅動程序,以及最值得(de)注意的(de)是,在這(zhè)項研究中收集的(de)整個(gè)數據集都是開源的(de)。RoboSet是商品硬件上最大(dà)的(de)公開機器人(rén)數據集。該團隊希望這(zhè)将使其他(tā)人(rén)能夠重複使用(yòng)、調整并将其向前傳遞,随著(zhe)時(shí)間的(de)推移,最終形成一個(gè)真正基礎的(de)通(tōng)用(yòng)機器人(rén)代理(lǐ)。
該研究團隊包括Meta AI的(de)Kumar、Tulsiani、Gupta、Bharadwaj、Sharma和(hé)Jay Vakil。