如果沒有像人(rén)類那樣終生積累的(de)經驗(而且完全認爲這(zhè)是理(lǐ)所當然的(de)),想要學習(xí)一項新技能的(de)機器人(rén)往往不得(de)不從頭開始。強化(huà)學習(xí)可(kě)以讓機器人(rén)通(tōng)過試錯來(lái)學習(xí)新技能,但尤其是在端到端基于視覺的(de)控制策略的(de)情況下(xià),這(zhè)需要大(dà)量時(shí)間:現實世界是一個(gè)光(guāng)線怪異、充滿摩擦、充滿障礙的(de)混亂世界,如果不付出很多(duō)的(de)努力,機器人(rén)就無法理(lǐ)解。
加州大(dà)學伯克利分(fēn)校的(de)機器人(rén)學家可(kě)能已經加快(kuài)了(le)這(zhè)一過程,他(tā)們做(zuò)了(le)與人(rén)類相同的(de)行爲,不是從頭開始,而是從以前的(de)一些經驗開始,這(zhè)有助于你繼續前進。通(tōng)過利用(yòng)一個(gè)預先訓練過的(de)機器人(rén)駕駛的(de)“基礎模型”,研究人(rén)員(yuán)能夠獲得(de)一輛小型機器人(rén)拉力車,教自己在室内和(hé)室外賽道上比賽,隻需20分(fēn)鐘(zhōng)的(de)練習(xí)就可(kě)以與人(rén)類的(de)表現相匹配。
第一個(gè)預訓練階段發生在你空閑的(de)時(shí)候,通(tōng)過在不同的(de)環境中手動駕駛機器人(rén)(不一定是要完成你關心的(de)任務的(de)機器人(rén))。我們的(de)目标不是教機器人(rén)在賽道上快(kuài)速行駛,而是教機器人(rén)不要碰撞到其它物(wù)體的(de)基本知識。
有了(le)預先訓練好的(de)基礎模型,當你轉向小型機器人(rén)拉力車時(shí),它不再需要從頭開始。相反,你可(kě)以把它放在你想讓它學習(xí)的(de)課程上,慢(màn)慢(màn)地開它一圈,向它展示你想讓它去哪裏,然後讓它完全自主訓練自己開得(de)越來(lái)越快(kuài)。通(tōng)過低分(fēn)辨率、前置攝像頭和(hé)一些基本狀态估計,機器人(rén)試圖盡快(kuài)到達球場(chǎng)上的(de)下(xià)一個(gè)檢查點,從而産生一些有趣的(de)突發行爲:
該系統學習(xí)了(le)“賽道”的(de)概念,在單圈中找到一條平滑的(de)路徑,并在急轉彎和(hé)彎道中最大(dà)限度地提高(gāo)速度。機器人(rén)學會将自己的(de)速度帶到頂點,然後急刹車轉彎并加速出彎,以最大(dà)限度地縮短駕駛時(shí)間。在低摩擦表面的(de)情況下(xià),該策略學會了(le)在轉彎時(shí)輕微轉向過度,在轉彎過程中漂移到彎道以實現快(kuài)速旋轉而不制動。在戶外環境中,習(xí)得(de)的(de)策略也(yě)能夠區(qū)分(fēn)地面特征,更喜歡混凝土路徑上及其周圍光(guāng)滑、高(gāo)牽引力的(de)區(qū)域,而不是有阻礙機器人(rén)運動的(de)高(gāo)草(cǎo)的(de)區(qū)域。
這(zhè)裏的(de)另一個(gè)聰明(míng)之處是重置功能,這(zhè)在現實世界的(de)訓練中是必不可(kě)少的(de)。在模拟中訓練時(shí),重置失敗的(de)機器人(rén)非常容易,但在模拟之外,如果機器人(rén)陷入困境,失敗可(kě)能(根據定義)結束訓練。如果你想在機器人(rén)學習(xí)的(de)同時(shí)花所有的(de)時(shí)間思考它,那沒什(shén)麽大(dà)不了(le)的(de),但如果你有更好的(de)事情要做(zuò),機器人(rén)需要能夠從頭到尾自主訓練。在這(zhè)種情況下(xià),如果機器人(rén)在前3秒内沒有移動至少0.5米,它就會知道自己被卡住了(le),它會執行随機轉彎、倒車,然後試圖再次向前行駛的(de)簡單行爲,最終會被卡住。
在室内和(hé)室外實驗中,隻需20分(fēn)鐘(zhōng)的(de)自主練習(xí),機器人(rén)就能夠學會與人(rén)類專家相當的(de)激進駕駛,研究人(rén)員(yuán)表示,這(zhè)“有力地驗證了(le)深度強化(huà)學習(xí)确實是一種可(kě)行的(de)工具,即使是從原始圖像中學習(xí)現實世界的(de)政策,隻要與适當的(de)預訓練相結合,并在自主訓練框架的(de)背景下(xià)實現。”要在更大(dà)的(de)平台上安全地實現這(zhè)類事情,還(hái)需要做(zuò)更多(duō)的(de)工作,但這(zhè)輛小車正以最快(kuài)的(de)速度朝著(zhe)正确的(de)方向跑完前幾圈。
加州大(dà)學伯克利分(fēn)校的(de)Kyle Stachowicz、Arjun Bhorkar、Dhruv Shah、Ilya Kostrikov和(hé)Sergey Levine的(de)《FastRLAP:通(tōng)過深度RL和(hé)自主練習(xí)學習(xí)高(gāo)速駕駛的(de)系統》可(kě)在arXiv上獲得(de)。
行業資訊
小機器人(rén)在現實世界中學會快(kuài)速駕駛
作者: bjrobot 時(shí)間:2023-06-14 來(lái)源:未知
摘要:如果沒有像人(rén)類那樣終生積累的(de)經驗(而且完全認爲這(zhè)是理(lǐ)所當然的(de)),想要學習(xí)一項新技能的(de)機器人(rén)往往不得(de)不從頭開始。強化(huà)學習(xí)可(kě)以讓機器人(rén)通(tōng)過試錯來(lái)學習(xí)新技能,但尤其是在
相關閱讀
- AI 和(hé)人(rén)類合作開發第一個(gè) ChatGPT 設計的(de)機器人(rén)
- 聲音(yīn)驅動的(de)微型機器人(rén)快(kuài)速移動到需要它們運送
- 機器人(rén)手通(tōng)過感知形狀來(lái)識别自己在抓什(shén)麽
- 微型混合機器人(rén)可(kě)以識别、捕獲單個(gè)細胞
- 自修複導電凝膠可(kě)以讓“軟機器人(rén)”真正變軟
- 微型機器人(rén)複制咔哒聲甲蟲來(lái)跳過障礙
- 以蚯蚓爲靈感的(de)機器人(rén)通(tōng)過蠕動移動
- 靈感來(lái)自蛇和(hé)蜈蚣的(de)高(gāo)效兩栖機器人(rén)
- 模塊化(huà)體素技術将使遊泳機器人(rén)成爲主流
- 機器人(rén)微型手指讓科學家能夠感受微小物(wù)體