更快速教導機器人的方法

2023 7 18

 

(編註:本文內容係利用Google翻譯)

一項新技術可以幫助非技術用戶了解機器人失敗的原因,然後以最小的努力對其進行微調以有效地執行任務。

 

想像一下購買一個機器人來執行家務。 該機器人是在工廠中製造並接受特定任務訓練的,並且從未見過您家中的物品。 當你要求它從廚房桌子上拿起一個杯子時,它可能無法識別你的杯子(可能是因為這個杯子上畫著一個不尋常的圖像,比如麻省理工學院的吉祥物海狸蒂姆)。 所以,機器人失敗了。

“現在,我們訓練這些機器人的方式,當它們失敗時,我們真的不知道為什麼。 所以你會舉起雙手說,“好吧,我想我們必須重新開始。”這個系統缺少的一個關鍵組件是讓機器人能夠演示它失敗的原因,以便用戶可以給它反饋, ” 麻省理工學院電氣工程與計算機科學 (EECS) 研究生 Andi Peng 說道。

彭和她在麻省理工學院、紐約大學和加州大學伯克利分校的合作者創建了一個框架,使人類能夠以最少的努力快速教會機器人他們想要它做什麼。

當機器人出現故障時,系統會使用算法生成反事實解釋,描述機器人需要做出哪些改變才能成功。 例如,如果杯子是某種顏色,機器人也許能夠拿起杯子。 它向人類展示這些反事實,並要求反饋機器人失敗的原因。 然後,系統利用該反饋和反事實解釋來生成新數據,用於微調機器人。

微調涉及調整已經被訓練來執行一項任務的機器學習模型,以便它可以執行第二個類似的任務。

研究人員在模擬中測試了這項技術,發現它可以比其他方法更有效地教導機器人。 使用該框架訓練的機器人表現更好,而訓練過程消耗的時間更少。

該框架可以幫助機器人在新環境中更快地學習,而無需用戶具備技術知識。 從長遠來看,這可能是使通用機器人能夠在各種環境下為老年人或殘疾人有效執行日常任務的一步。

主要作者 Peng 與 EECS 研究生 Aviv Netanyahu 共同作者; Mark Ho,史蒂文斯理工學院助理教授; 舒天民,麻省理工學院博士後; Andreea Bobu,加州大學伯克利分校研究生; 資深作者 Julie Shah(麻省理工學院航空航天學教授、計算機科學與人工智能實驗室(CSAIL)交互式機器人小組主任)和 Pulkit Agrawal(CSAIL 教授)。 該研究將在國際機器學習會議上公佈。

 

在職培訓

機器人經常因分佈轉移而失敗——機器人會看到它在訓練期間沒有看到的物體和空間,並且它不知道在這個新環境中要做什麼。

重新訓練機器人執行特定任務的一種方法是模仿學習。 用戶可以演示正確的任務來教機器人做什麼。 如果用戶嘗試教機器人拿起杯子,但用白色杯子進行演示,則機器人可以了解到所有杯子都是白色的。 然後它可能無法拿起紅色、藍色或“Tim-the-Beaver-brown”杯子。

訓練機器人識別杯子就是杯子,無論其顏色如何,可能需要數千次演示。

“我不想用 30,000 個杯子來展示。 我想只用一個杯子來演示。 但接下來我需要教機器人,讓它認識到它可以拿起任何顏色的杯子,”彭說。

為了實現這一目標,研究人員的系統確定用戶關心的特定對象(杯子)以及哪些元素對任務不重要(也許杯子的顏色並不重要)。 它利用這些信息通過改變這些“不重要”的視覺概念來生成新的合成數據。 這個過程稱為數據增強。

該框架分為三個步驟。 首先,它顯示導致機器人失敗的任務。 然後,它從用戶那裡收集所需動作的演示,並通過搜索空間中的所有特徵來生成反事實,這些特徵顯示機器人需要做出哪些改變才能成功。

系統向用戶顯示這些反事實,並請求反饋以確定哪些視覺概念不會影響所需的操作。 然後,它使用這種人類反饋來生成許多新的增強演示。

通過這種方式,用戶可以演示拿起一個杯子,但係統會通過改變顏色來生成演示,顯示數千個不同杯子的所需動作。 它使用這些數據來微調機器人。

彭說,創建反事實的解釋並徵求用戶的反饋對於該技術的成功至關重要。

 

從人類推理到機器人推理

由於他們的工作旨在將人類納入訓練循環中,研究人員用人類用戶測試了他們的技術。 他們首先進行了一項研究,詢問人們反事實解釋是否有助於他們識別可以在不影響任務的情況下改變的元素。

“一開始就非常清楚。 人類非常擅長這種反事實推理。 這個反事實的步驟使得人類推理能夠以一種有意義的方式轉化為機器人推理,”她說。

然後他們將他們的框架應用到三個模擬中,機器人的任務是:導航到目標物體,拿起鑰匙並打開門,拿起所需的物體然後將其放在桌面上。 在每種情況下,他們的方法都使機器人比其他技術學習得更快,同時需要更少的用戶演示。

展望未來,研究人員希望在真實的機器人上測試這個框架。 他們還希望專注於減少系統使用生成機器學習模型創建新數據所需的時間。

“我們希望機器人能夠做人類所做的事情,並且我們希望它們以語義上有意義的方式來做。 人類傾向於在這個抽象的空間中進行操作,他們不會考慮圖像中的每一個屬性。 歸根結底,這實際上是為了讓機器人能夠在抽象層面上學習良好的、類似人類的表示,”彭說。

 

[照片]

麻省理工學院和其他地方的研究人員開發了一種技術,使人類能夠有效地微調未能完成所需任務(例如拿起一個獨特的杯子)的機器人,而人類只需付出很少的努力。

 

source: 
Massachusetts Institute of Technology