在過去三年里,像ChatGPT和Claude這樣的聊天機器人使用量呈爆發式增長,因為它們能協助完成各種任務。無論是創作莎士比亞風格的十四行詩、調試代碼,還是回答冷門知識問題,人工智能系統似乎都能應對自如。這種多功能性從何而來?源自互聯網上數十億甚至數萬億的文本數據點。
然而,這些數據還不足以教會機器人成為得力的家庭或工廠助手。要理解如何在不同環境中處理、堆疊和擺放各類物體,機器人需要實際演示。您可以將機器人訓練數據視作一套"教學視頻",逐步引導系統完成任務的每個動作。在真實機器人上收集這些演示既耗時又難以完美復現,因此工程師們通過AI生成模擬(通常無法準確反映真實世界物理規律)或從頭繁瑣地手動打造每個數字環境來創建訓練數據。
MIT計算機科學與人工智能實驗室和豐田研究所的研究人員可能找到了一種方法,能夠創建機器人所需的多樣化、逼真的訓練場地。他們的"可控場景生成"方法能生成廚房、客廳和餐廳等數字場景,工程師可用這些場景模擬大量真實世界的交互和情境。該工具基于超過4400萬個充滿桌椅碗碟等物體模型的3D房間進行訓練,能將現有資產放置到新場景中,并將每個場景優化成符合物理規律、栩栩如生的環境。
可控場景生成通過"引導"擴散模型(一種從隨機噪聲生成圖像的人工智能系統)生成日常生活中的場景,從而創建這些3D世界。研究人員利用這種生成系統對環境進行"修復",填充場景中的特定元素。您可以想象一個空白畫布突然變成散落著3D物體的廚房,這些物體逐漸重新排列成模仿真實世界物理規律的場景。例如,該系統能確保叉子不會穿過桌上的碗——這是3D圖形中常見的"穿模"故障,即模型相互重疊或交叉。
然而,可控場景生成究竟如何引導創作實現真實感,取決于您選擇的策略。其主要策略是"蒙特卡洛樹搜索",該模型會創建一系列備選場景,以不同方式填充它們以實現特定目標(如讓場景更符合物理真實性,或包含盡可能多的可食用物品)。人工智能程序AlphaGo就是使用MCTS在圍棋比賽中擊敗人類對手的,因為該系統會在選擇最有利的落子位置前考慮可能的落子序列。
"我們是首個將MCTS應用于場景生成的研究團隊,將場景生成任務定義為序列決策過程,"MIT電子工程與計算機科學系博士生、CSAIL研究員Nicholas Pfaff表示,他是介紹這項工作的論文的主要作者。"我們不斷在局部場景基礎上進行構建,隨時間推移產出更好或更符合要求的場景。因此,MCTS能創建比擴散模型訓練數據更復雜的場景。"
在一個特別能說明問題的實驗中,MCTS將一個簡單餐廳場景中的物體數量增加到極限。在僅接受平均17個物體的場景訓練后,它生成的餐桌場景包含多達34件物品,包括堆疊如山的點心盤。
通過強化學習(本質上是通過試錯教導擴散模型實現目標),可控場景生成還能讓您生成多樣化的訓練場景。在初始數據訓練后,系統會進入第二階段訓練,您在此設定獎勵(本質上是期望結果,并配有得分表明您離該目標有多近)。模型自動學習創建得分更高的場景,通常會產生與訓練數據截然不同的情境。
用戶還可以直接輸入具體視覺描述(如"有四個蘋果和桌上一個碗的廚房")來提示系統。隨后,可控場景生成能精準地將您的需求變為現實。例如,該工具在構建食品儲藏室貨架場景時,準確遵循用戶提示的比例達98%,在構建凌亂早餐桌場景時達86%。這兩項指標都比"MiDiffusion"和"DiffuScene"等同類方法至少提高了10%。
該系統還能通過提示或簡單指令(如"使用相同物體構思不同的場景布局")完成特定場景。例如,您可以要求它將蘋果放在廚房桌子的幾個盤子上,或將棋盤游戲和書本放在架子上。這本質上是"填空",將物品放入空白處,同時保留場景的其余部分。
研究人員表示,其項目的優勢在于能夠創建機器人專家實際可用的眾多場景。"我們研究的一個關鍵發現是,預訓練場景無需與我們的目標場景完全相似,"Pfaff說。"利用我們的引導方法,我們可以超越那個寬泛的分布,從'更好'的分布中采樣。換句話說,生成我們真正想要訓練機器人的多樣化、真實且與任務對齊的場景。"
這些廣闊的場景成為了測試場地,研究人員可以記錄虛擬機器人與不同物品的交互。例如,機器人在各種3D設置中小心地將刀叉放入餐具架,或將面包重新擺放到盤子上。每次模擬都顯得流暢逼真,類似于可控場景生成有朝一日可能幫助訓練出的、能適應真實世界的機器人。
盡管該系統可能是為機器人生成大量多樣化訓練數據的一條前景光明的道路,但研究人員表示他們的工作更多是概念驗證。未來,他們希望使用生成式AI創建全新的物體和場景,而不是使用固定的資產庫。他們還計劃加入機器人可以打開或旋轉的關節物體(如裝滿食物的櫥柜或罐子),使場景更具交互性。
為了讓虛擬環境更加真實,Pfaff及其同事可能會通過使用從互聯網圖像中提取的物體和場景庫,并利用他們之前關于"可擴展Real2Sim"的研究,將真實世界物體納入其中。通過擴展AI構建的機器人測試場的多樣性和逼真度,該團隊希望建立一個用戶社區,創建大量數據,這些數據隨后可作為龐大數據集用于教導靈巧的機器人掌握不同技能。
"如今,為仿真創建逼真場景可能相當具有挑戰性;程序化生成能輕松產生大量場景,但它們可能無法代表機器人在現實世界中會遇到的環境。手動創建定制場景既耗時又昂貴,"未參與該論文的亞馬遜機器人應用科學家Jeremy Binagia表示。"可控場景生成提供了一種更好的方法:在大量現有場景上訓練生成模型,并將其(使用強化學習等策略)適配到特定下游應用。與之前利用現成視覺語言模型或僅專注于在2D網格中排列物體的工作相比,該方法保證了物理可行性,并考慮了完整的3D平移和旋轉,從而能夠生成更有趣的場景。"
"具備訓練后和推理時搜索能力的可控場景生成,為大規模自動化場景生成提供了一個新穎高效的框架,"同樣未參與該論文的豐田研究所機器人專家Rick Cory SM '08, PhD '10表示。"此外,它能生成對下游任務至關重要的'前所未見'的場景。未來,將該框架與海量互聯網數據結合,可能為實現高效訓練機器人以部署到現實世界解鎖一個重要里程碑。"
Pfaff與資深作者Russ Tedrake(MIT電子工程與計算機科學、航空航天與機械工程的豐田講席教授,豐田研究所大型行為模型高級副總裁,CSAIL首席研究員)共同撰寫了該論文。其他作者包括豐田研究所機器人研究員Hongkai Dai SM '12, PhD '16;團隊負責人兼高級研究科學家Sergey Zakharov;以及卡內基梅隆大學博士生Shun Iwase。他們的工作得到了亞馬遜和豐田研究所的部分支持。研究人員于9月在機器人學習會議上展示了他們的成果。


