將電腦視覺和機器人技術中的下一個令牌預測和視訊擴散相結合
在當前的人工智慧時代精神中,序列模型因其分析數據和預測下一步該做什麼的能力而迅速流行。例如,您可能使用過 ChatGPT 等下一個標記預測模型,它預測序列中的每個單字(標記)以形成使用者查詢的答案。還有像 Sora 這樣的全序列擴散模型,它通過連續對整個視頻序列進行“去噪”,將文字轉換為令人眼花繚亂、逼真的視覺效果。 麻省理工學院計算機科學和人工智慧實驗室 (CSAIL) 的研究人員提出了對擴散訓練方案的簡單更改,使該序列去噪變得更加靈活。 當應用於電腦視覺和機器人等領域時,下一個令牌和全序列擴散模型需要進行能力權衡。下一個令牌模型可以輸出長度不同的序列。然而,他們在生成這些世代時並沒有意識到遙遠的未來的理想狀態——例如將其序列生成引導到 10 個代幣之外的某個目標——因此需要額外的機制來進行長期規劃。擴散模型可以執行此類未來條件採樣,但缺乏下一個令牌模型產生可變長度序列的能力。 CSAIL 的研究人員希望結合兩種模型的優勢,因此他們創建了一種稱為「擴散強迫」的序列模型訓練技術。這個名字來自“Teacher Forcing”,這是一種傳統的訓練方案,它將完整的序列生成分解為更小、更容易的下一代令牌生成步驟(就像一個好老師簡化一個複雜的概念)。 擴散強迫發現了擴散模型和教師強迫之間的共同點:它們都使用涉及從未屏蔽標記中預測屏蔽(噪音)標記的訓練方案。在擴散模型的情況下,它們逐漸向資料添加噪聲,這可以被視為分數掩蔽。麻省理工學院研究人員的擴散強迫方法訓練神經網路來清理一組標記,消除每個標記中不同量的噪聲,同時預測接下來的幾個標記。結果是:靈活、可靠的序列模型,為機器人和人工智慧代理帶來更高品質的人工影片和更精確的決策。 透過對噪音資料進行排序並可靠地預測任務的後續步驟,擴散強迫可以幫助機器人忽略視覺幹擾來完成操作任務。它還可以產生穩定一致的影片序列,甚至引導人工智慧代理穿越數位迷宮。這種方法有可能使家庭和工廠機器人能夠推廣到新任務並改善人工智慧生成的娛樂。 「序列模型旨在以已知的過去為條件並預測未知的未來,這是一種二元掩碼。然而,屏蔽不一定是二進制的,」主要作者、麻省理工學院電氣工程和計算機科學 (EECS) 博士生、CSAIL 成員 Boyuan Chen 說。 「透過擴散強迫,我們為每個標記添加不同程度的噪聲,有效地充當一種分數掩蔽。在測試時,我們的系統可以「揭露」令牌集合,並在不久的將來以較低的噪音水平擴散序列。它知道在其數據中應該信任什麼,以克服分佈外的輸入。 在多項實驗中,擴散強迫在忽略誤導性數據來執行任務同時預測未來行動方面表現出色。 例如,當應用到機械手臂時,它可以幫助在三個圓形墊子上交換兩個玩具水果,這是需要記憶的一系列長期任務的最小例子。研究人員透過在虛擬實境中遠距離控制(或遠端操作)機器人來訓練機器人。機器人經過訓練可以透過攝影機模仿使用者的動作。儘管從隨機位置開始,並看到諸如購物袋擋住標記之類的干擾,但它還是將物體放置到了目標位置。 為了生成視頻,他們在“我的世界”遊戲和 Google DeepMind 實驗室模擬器中創建的豐富多彩的數位環境中訓練了擴散力。當給定單幀鏡頭時,與類似…