一項發表在arXiv上的研究詳細介紹了德國波恩大學的研究人員如何開發出一種強化學習框架,使機器人能夠將沙子等顆粒材料操縱成目標形狀。該系統訓練了一條帶有立方體末端執行器和立體相機的機械臂,將松散的材料重新塑造成矩形、L形、多邊形以及考古壁畫碎片的負形狀等形狀。實驗顯示了毫米級精度,經過訓練的代理在兩種基線方法中表現更優,并且能夠從模擬環境成功轉移到物理機器人,無需額外訓練。
顆粒材料因其高維配置空間和不穩定的動態特性而給機器人技術帶來了挑戰。基于規則的方法常常失敗,而粒子模擬計算成本高昂。研究人員通過設計緊湊的觀測空間和獎勵函數來引導學習,從而解決了這些挑戰。使用截斷分位數批評家(TQC)這一離線強化學習算法對視覺策略進行了訓練。來自ZED 2i立體相機的深度圖像被轉換成高度圖,使機器人能夠以適合高效訓練的形式比較當前結構和目標結構。

該系統與隨機策略和Boustrophedon覆蓋路徑規劃基線進行了對比評估。在400個目標形狀中,學習到的代理始終優于這兩種方法。使用增量獎勵(DELTA)公式,機器人與規劃方法相比平均高度差為3.4毫米,而隨機運動為7.2毫米。執行時間也更短,平均為23.5步,而路徑規劃基線為44步。該代理還修改了目標區域中97%的相關單元格,而隨機運動僅為54%。執行步數被定義為末端執行器離開顆粒介質連續三步的動作數量。統計測試確認,DELTA策略顯著優于所有替代方案。
該項目涉及波恩大學的人形機器人實驗室、自主智能系統實驗室和機器人中心,與Lamarr機器學習和人工智能研究所合作。資金來自歐盟委員會的RePAIR項目(Horizon 2020)和德國聯邦教育和研究部通過德國機器人研究所倡議。
進一步的實驗考察了設計選擇。當移除目標區域運動獎勵時,代理完全避免了操縱行為,表現與隨機基線相當。特征提取器的消融實驗表明,所提出的基于門控的編碼器實現了最佳性能,平均誤差為3.4毫米,而直接依賴深度圖像時為4.6毫米。算法比較確認TQC實現了穩定的收斂,而軟演員-評論家算法滯后,雙延遲深度確定性策略梯度未能收斂。論文中鏈接的補充網站提供了額外的細節、視頻和代碼。
在UR5e機械臂上的部署驗證了該方法在模擬環境之外的有效性。盡管存在傳感器噪聲和不平整的起始表面,機器人仍然能夠復制矩形等目標形狀,結果與模擬環境中看到的相似。從合成訓練環境直接轉移到現實世界執行的能力證明了該框架的穩健性。
對顆粒材料操縱的研究涵蓋了挖掘、平整和外星土壤處理等領域。許多方法依賴于計算密集型的有限元或離散元模擬,或針對特定任務的模仿學習管道。通過結合高效的高度圖表示和精心設計的獎勵公式,波恩團隊證明強化學習可以自適應地塑造顆粒材料,而無需手工制定規則。
作者總結稱,他們的方法始終優于傳統基線,并為可變形材料的自適應機器人操縱提供了一條可行的途徑。


