Thu. Nov 7th, 2024
更快、更好的通用機器人訓練方法



在經典動畫片《傑森一家》中,機器人女僕羅西無縫地從打掃房間、做飯到倒垃圾切換。但在現實生活中,訓練通用機器人仍然是一個重大挑戰。

通常,工程師會收集特定於特定機器人和任務的數據,用於在受控環境中訓練機器人。然而,收集這些數據既昂貴又耗時,而且機器人可能很難適應以前從未見過的環境或任務。

為了訓練更好的通用機器人,麻省理工學院的研究人員開發了一種多功能技術,將來自許多來源的大量異質資料組合到一個系統中,可以教導任何機器人執行廣泛的任務。

他們的方法涉及將來自不同領域(例如模擬和真實機器人)以及多種模式(包括視覺感測器和機械手臂位置編碼器)的數據調整為生成人工智慧模型可以處理的共享「語言」。

透過結合如此大量的數據,這種方法可用於訓練機器人執行各種任務,而無需每次都從頭開始訓練。

這種方法比傳統技術更快、更便宜,因為它需要更少的特定於任務的資料。此外,在模擬和現實實驗中,它的表現比從頭開始的訓練高出 20% 以上。

「在機器人技術領域,人們經常聲稱我們沒有足夠的訓練資料。但在我看來,另一個大問題是數據來自許多不同的領域、模式和機器人硬體。我們的工作展示瞭如何訓練所有這些功能組合在一起的機器人,」電氣工程和計算機科學 (EECS) 研究生、該技術論文的主要作者 Lirui Wang 說。

王的合著者包括 EECS 研究生趙嘉良; Xinlei Chen,Meta 研究科學家;資深作者 Kaiming He,EECS 副教授,電腦科學與人工智慧實驗室 (CSAIL) 成員。該研究將在神經資訊處理系統會議上發表。

受到法學碩士的啟發

機器人「策略」接收感測器觀察結果,例如追蹤機器人手臂速度和位置的相機影像或本體感覺測量結果,然後告訴機器人如何移動以及移動到哪裡。

策略通常使用模仿學習進行訓練,這意味著人類展示動作或遠端操作機器人來產生數據,這些數據會被輸入到學習策略的人工智慧模型中。由於這種方法使用少量特定於任務的數據,因此機器人在環境或任務發生變化時經常會失敗。

為了開發更好的方法,Wang 和他的合作者從 GPT-4 等大型語言模型中汲取了靈感。

這些模型使用大量不同的語言資料進行預先訓練,然後透過向其提供少量特定於任務的資料進行微調。對如此多的數據進行預訓練有助於模型適應各種任務並表現良好。

「在語言領域,數據只是句子。在機器人技術中,考慮到資料中的所有異質性,如果你想以類似的方式進行預先訓練,我們需要不同的架構,」他說。

機器人資料有多種形式,從相機影像到語言指令再到深度圖。同時,每個機器人在機械上都是獨一無二的,具有不同數量和方向的手臂、夾具和感測器。此外,收集資料的環境差異很大。

麻省理工學院的研究人員開發了一種稱為異構預訓練變壓器(HPT)的新架構,它統一了這些不同模式和領域的資料。

他們將一種稱為變壓器的機器學習模型放入其架構的中間,該模型處理視覺和本體感覺輸入。轉換器是構成大型語言模型支柱的相同類型模型。

研究人員將來自視覺和本體感覺的資料對齊到同一類型的輸入(稱為令牌)中,變壓器可以處理該輸入。每個輸入都以相同的固定數量的令牌表示。

然後,變壓器將所有輸入映射到一個共享空間,在處理和學習更多資料時成長為一個巨大的預訓練模型。變壓器越大,性能越好。

使用者只需向 HPT 提供少量有關機器人設計、設定以及希望其執行的任務的數據。然後 HPT 傳輸 Transformer 在預訓練期間累積的知識來學習新任務。

實現靈巧的動作

開發 HPT 的最大挑戰之一是建立大量資料集來預先訓練 Transformer,其中包括 52 個資料集,涵蓋四個類別的超過 200,000 條機器人軌跡,包括人體演示影片和模擬。

研究人員還需要開發一種有效的方法,將來自感測器陣列的原始本體感覺訊號轉換為變壓器可以處理的數據。

「本體感覺是實現許多靈巧動作的關鍵。因為我們的架構中的令牌數量始終相同,所以我們對本體感覺和視覺給予同樣的重視,」Wang 解釋道。

當他們測試 HPT 時,與每次從頭開始訓練相比,它在模擬和現實任務中將機器人性能提高了 20% 以上。即使任務與預訓練資料有很大不同,HPT 仍然可以提高效能。

「本文提供了一種跨多個機器人實施例訓練單一策略的新穎方法。這使得能夠跨不同資料集進行訓練,使機器人學習方法能夠顯著擴大它們可以訓練的資料集的大小。它還允許模型快速適應新的機器人實施例,這很重要,因為新的機器人設計不斷產生,」卡內基梅隆大學機器人研究所副教授 David Held 說,他沒有參與這項工作。

未來,研究人員希望研究數據多樣性如何提高 HPT 的效能。他們還希望增強 HPT,使其能夠處理 GPT-4 和其他大型語言模型等未標記資料。

「我們的夢想是擁有一個通用的機器人大腦,您可以下載它並用於您的機器人,而無需任何培訓。雖然我們還處於早期階段,但我們將繼續努力推動,並希望擴展能夠帶來機器人政策的突破,就像大型語言模型所做的那樣,」他說。

這項工作部分由亞馬遜大波士頓技術計畫和豐田研究所資助。



Source link

By Admin

Leave a Reply

Your email address will not be published. Required fields are marked *