Thu. Nov 7th, 2024
將電腦視覺和機器人技術中的下一個令牌預測和視訊擴散相結合



在當前的人工智慧時代精神中,序列模型因其分析數據和預測下一步該做什麼的能力而迅速流行。例如,您可能使用過 ChatGPT 等下一個標記預測模型,它預測序列中的每個單字(標記)以形成使用者查詢的答案。還有像 Sora 這樣的全序列擴散模型,它通過連續對整個視頻序列進行“去噪”,將文字轉換為令人眼花繚亂、逼真的視覺效果。

麻省理工學院計算機科學和人工智慧實驗室 (CSAIL) 的研究人員提出了對擴散訓練方案的簡單更改,使該序列去噪變得更加靈活。

當應用於電腦視覺和機器人等領域時,下一個令牌和全序列擴散模型需要進行能力權衡。下一個令牌模型可以輸出長度不同的序列。然而,他們在生成這些世代時並沒有意識到遙遠的未來的理想狀態——例如將其序列生成引導到 10 個代幣之外的某個目標——因此需要額外的機制來進行長期規劃。擴散模型可以執行此類未來條件採樣,但缺乏下一個令牌模型產生可變長度序列的能力。

CSAIL 的研究人員希望結合兩種模型的優勢,因此他們創建了一種稱為「擴散強迫」的序列模型訓練技術。這個名字來自“Teacher Forcing”,這是一種傳統的訓練方案,它將完整的序列生成分解為更小、更容易的下一代令牌生成步驟(就像一個好老師簡化一個複雜的概念)。

擴散強迫發現了擴散模型和教師強迫之間的共同點:它們都使用涉及從未屏蔽標記中預測屏蔽(噪音)標記的訓練方案。在擴散模型的情況下,它們逐漸向資料添加噪聲,這可以被視為分數掩蔽。麻省理工學院研究人員的擴散強迫方法訓練神經網路來清理一組標記,消除每個標記中不同量的噪聲,同時預測接下來的幾個標記。結果是:靈活、可靠的序列模型,為機器人和人工智慧代理帶來更高品質的人工影片和更精確的決策。

透過對噪音資料進行排序並可靠地預測任務的後續步驟,擴散強迫可以幫助機器人忽略視覺幹擾來完成操作任務。它還可以產生穩定一致的影片序列,甚至引導人工智慧代理穿越數位迷宮。這種方法有可能使家庭和工廠機器人能夠推廣到新任務並改善人工智慧生成的娛樂。

「序列模型旨在以已知的過去為條件並預測未知的未來,這是一種二元掩碼。然而,屏蔽不一定是二進制的,」主要作者、麻省理工學院電氣工程和計算機科學 (EECS) 博士生、CSAIL 成員 Boyuan Chen 說。 「透過擴散強迫,我們為每個標記添加不同程度的噪聲,有效地充當一種分數掩蔽。在測試時,我們的系統可以「揭露」令牌集合,並在不久的將來以較低的噪音水平擴散序列。它知道在其數據中應該信任什麼,以克服分佈外的輸入。

在多項實驗中,擴散強迫在忽略誤導性數據來執行任務同時預測未來行動方面表現出色。

例如,當應用到機械手臂時,它可以幫助在三個圓形墊子上交換兩個玩具水果,這是需要記憶的一系列長期任務的最小例子。研究人員透過在虛擬實境中遠距離控制(或遠端操作)機器人來訓練機器人。機器人經過訓練可以透過攝影機模仿使用者的動作。儘管從隨機位置開始,並看到諸如購物袋擋住標記之類的干擾,但它還是將物體放置到了目標位置。

為了生成視頻,他們在“我的世界”遊戲和 Google DeepMind 實驗室模擬器中創建的豐富多彩的數位環境中訓練了擴散力。當給定單幀鏡頭時,與類似 Sora 的全序列擴散模型和類似 ChatGPT 的下一個令牌模型等類似基線相比,該方法產生了更穩定、更高解析度的影片。這些方法創建的影片看起來不一致,後者有時無法產生超過 72 幀的工作影片。

擴散強迫不僅可以生成精美的視頻,還可以作為運動規劃器來引導所需的結果或獎勵。由於其靈活性,擴散強迫可以獨特地產生不同視野的計劃,執行樹搜索,並結合遙遠的未來比近期的未來更不確定的直覺。在解決二維迷宮的任務中,擴散力透過產生更快的到達目標位置的計劃,表現優於六個基線,這表明它可能成為未來機器人的有效規劃器。

在每個演示中,擴散強迫充當完整序列模型、下一個令牌預測模型或兩者兼而有之。陳表示,這種多功能方法有可能成為「世界模型」的強大支柱,「世界模型」是一種人工智慧系統,可以透過數十億網路影片的訓練來模擬世界的動態。這將使機器人能夠透過根據周圍環境想像它們需要做什麼來執行新奇的任務。例如,如果您要求機器人打開一扇門,而沒有接受過如何操作的培訓,則該模型可以產生一個影片來向機器展示如何操作。

該團隊目前正在尋求將他們的方法擴展到更大的數據集和最新的變壓器模型,以提高效能。他們打算擴大工作範圍,建造一個類似 ChatGPT 的機器人大腦,幫助機器人在新環境中執行任務,而無需人類演示。

「透過擴散強迫,我們正在採取措施將視訊生成和機器人技術更加緊密地結合在一起,」資深作者Vincent Sitzmann 說道,他是麻省理工學院的助理教授,也是CSAIL 的成員,他領導著CSAIL 的場景表示小組。 「最後,我們希望能夠利用網路影片中儲存的所有知識,讓機器人為日常生活提供幫助。許多更令人興奮的研究挑戰仍然存在,例如機器人如何透過觀察人類來學習模仿人類,即使它們自己的身體與我們的身體如此不同!

Chen 和 Sitzmann 與近期麻省理工學院訪問研究員 Diego Martí Monsó 以及 CSAIL 附屬機構:EECS 研究生 Yilun Du; Max Simchowitz,前博士後、即將上任的卡內基美隆大學助理教授; Russ Tedrake,麻省理工學院 EECS、航空航天和機械工程系豐田教授、豐田研究院機器人研究副院長、CSAIL 成員。他們的工作部分得到了美國國家科學基金會、新加坡國防科學技術局、美國內政部情報高級研究計畫活動以及亞馬遜科學中心的支持。他們將於 12 月在 NeurIPS 上展示他們的研究成果。



Source link

By Admin

Leave a Reply

Your email address will not be published. Required fields are marked *