小機器人(rén)在現實世界中學會快(kuài)速駕駛_賽途（北京）智能科技有限公司-中國智能服務機器人(rén)領域的(de)專業制造者

如果沒有像人(rén)類那樣終生積累的(de)經驗（而且完全認爲這(zhè)是理(lǐ)所當然的(de)），想要學習(xí)一項新技能的(de)機器人(rén)往往不得(de)不從頭開始。強化(huà)學習(xí)可(kě)以讓機器人(rén)通(tōng)過試錯來(lái)學習(xí)新技能，但尤其是在端到端基于視覺的(de)控制策略的(de)情況下(xià)，這(zhè)需要大(dà)量時(shí)間：現實世界是一個(gè)光(guāng)線怪異、充滿摩擦、充滿障礙的(de)混亂世界，如果不付出很多(duō)的(de)努力，機器人(rén)就無法理(lǐ)解。

加州大(dà)學伯克利分(fēn)校的(de)機器人(rén)學家可(kě)能已經加快(kuài)了(le)這(zhè)一過程，他(tā)們做(zuò)了(le)與人(rén)類相同的(de)行爲，不是從頭開始，而是從以前的(de)一些經驗開始，這(zhè)有助于你繼續前進。通(tōng)過利用(yòng)一個(gè)預先訓練過的(de)機器人(rén)駕駛的(de)“基礎模型”，研究人(rén)員(yuán)能夠獲得(de)一輛小型機器人(rén)拉力車，教自己在室内和(hé)室外賽道上比賽，隻需20分(fēn)鐘(zhōng)的(de)練習(xí)就可(kě)以與人(rén)類的(de)表現相匹配。

第一個(gè)預訓練階段發生在你空閑的(de)時(shí)候，通(tōng)過在不同的(de)環境中手動駕駛機器人(rén)（不一定是要完成你關心的(de)任務的(de)機器人(rén)）。我們的(de)目标不是教機器人(rén)在賽道上快(kuài)速行駛，而是教機器人(rén)不要碰撞到其它物(wù)體的(de)基本知識。

有了(le)預先訓練好的(de)基礎模型，當你轉向小型機器人(rén)拉力車時(shí)，它不再需要從頭開始。相反，你可(kě)以把它放在你想讓它學習(xí)的(de)課程上，慢(màn)慢(màn)地開它一圈，向它展示你想讓它去哪裏，然後讓它完全自主訓練自己開得(de)越來(lái)越快(kuài)。通(tōng)過低分(fēn)辨率、前置攝像頭和(hé)一些基本狀态估計，機器人(rén)試圖盡快(kuài)到達球場(chǎng)上的(de)下(xià)一個(gè)檢查點，從而産生一些有趣的(de)突發行爲：

該系統學習(xí)了(le)“賽道”的(de)概念，在單圈中找到一條平滑的(de)路徑，并在急轉彎和(hé)彎道中最大(dà)限度地提高(gāo)速度。機器人(rén)學會将自己的(de)速度帶到頂點，然後急刹車轉彎并加速出彎，以最大(dà)限度地縮短駕駛時(shí)間。在低摩擦表面的(de)情況下(xià)，該策略學會了(le)在轉彎時(shí)輕微轉向過度，在轉彎過程中漂移到彎道以實現快(kuài)速旋轉而不制動。在戶外環境中，習(xí)得(de)的(de)策略也(yě)能夠區(qū)分(fēn)地面特征，更喜歡混凝土路徑上及其周圍光(guāng)滑、高(gāo)牽引力的(de)區(qū)域，而不是有阻礙機器人(rén)運動的(de)高(gāo)草(cǎo)的(de)區(qū)域。

這(zhè)裏的(de)另一個(gè)聰明(míng)之處是重置功能，這(zhè)在現實世界的(de)訓練中是必不可(kě)少的(de)。在模拟中訓練時(shí)，重置失敗的(de)機器人(rén)非常容易，但在模拟之外，如果機器人(rén)陷入困境，失敗可(kě)能（根據定義）結束訓練。如果你想在機器人(rén)學習(xí)的(de)同時(shí)花所有的(de)時(shí)間思考它，那沒什(shén)麽大(dà)不了(le)的(de)，但如果你有更好的(de)事情要做(zuò)，機器人(rén)需要能夠從頭到尾自主訓練。在這(zhè)種情況下(xià)，如果機器人(rén)在前3秒内沒有移動至少0.5米，它就會知道自己被卡住了(le)，它會執行随機轉彎、倒車，然後試圖再次向前行駛的(de)簡單行爲，最終會被卡住。

在室内和(hé)室外實驗中，隻需20分(fēn)鐘(zhōng)的(de)自主練習(xí)，機器人(rén)就能夠學會與人(rén)類專家相當的(de)激進駕駛，研究人(rén)員(yuán)表示，這(zhè)“有力地驗證了(le)深度強化(huà)學習(xí)确實是一種可(kě)行的(de)工具，即使是從原始圖像中學習(xí)現實世界的(de)政策，隻要與适當的(de)預訓練相結合，并在自主訓練框架的(de)背景下(xià)實現。”要在更大(dà)的(de)平台上安全地實現這(zhè)類事情，還(hái)需要做(zuò)更多(duō)的(de)工作，但這(zhè)輛小車正以最快(kuài)的(de)速度朝著(zhe)正确的(de)方向跑完前幾圈。

加州大(dà)學伯克利分(fēn)校的(de)Kyle Stachowicz、Arjun Bhorkar、Dhruv Shah、Ilya Kostrikov和(hé)Sergey Levine的(de)《FastRLAP:通(tōng)過深度RL和(hé)自主練習(xí)學習(xí)高(gāo)速駕駛的(de)系統》可(kě)在arXiv上獲得(de)。

聯系我們 Contact Us

小機器人(rén)在現實世界中學會快(kuài)速駕駛

相關閱讀

電話(huà)郵箱

在線客服