卡內基梅隆大學展示了LLM-無人機,這是一個將大語言模型(LLMs)與無人機相結合的系統,旨在將增材制造擴展到傳統3D打印無法操作的環境中。該研究發表在《自然》雜志上,展示了配備磁性互鎖模塊的無人機如何通過文本提示組裝結構,在實驗室測試中實現了90%的構建精度。這種方法表明,語言驅動的規劃可以通過在執行過程中動態修訂建設計劃,克服空中機器人的精度限制。
增材制造能夠實現精確的逐層制造,但通常需要固定的構建平臺和受控環境。無人機提供了前往高處或偏遠地點的機動性,但基于擠出的方法在飛行中會受到振動和漂移的影響。LLM-無人機通過使用設計有磁性互鎖和提升對齊凸起的輕質模塊來避免沉積問題,這些模塊可以補償放置不準確的問題。無人機拾取和放下這些模塊,而LLM將用戶指令翻譯成結構化的坐標,并在發生錯位時調整設計。

系統概覽。圖片來自卡內基梅隆大學。
該系統由三個模塊構成。規劃模塊使用LLM從用戶提示生成JSON格式的坐標。計算機視覺模塊使用AprilTags和Bitcraze的燈塔定位系統將這些坐標與現實世界的框架對齊。機械模塊基于Crazyflie 2.1納米四旋翼無人機,執行模塊運輸和放置。Bitcraze開發了Crazyflie作為一個研究平臺,集成了運動跟蹤和Python API,適合學術測試。卡內基梅隆大學在此基礎上增加了網絡攝像頭、3D打印模塊和磁性固定裝置。
評估比較了Claude 3.5 Sonnet、GPT-4o和Gemini Pro 1.5在受限和開放式任務中的表現。在使用15個受限提示的定量測試中,Claude的平均交并比(IoU)為89.5%,方差為0.008;GPT-4o得分為80.4%,方差為0.027;Gemini Pro得分為67.2%,方差為0.031。推理時間也有所不同:Claude處理時間為680毫秒,GPT-4o為920毫秒,Gemini Pro為1150毫秒。每1000個標記的成本也不同,Claude略高,但其準確性和一致性可以抵消這一缺點。在定性試驗中,評估者根據三點量表對輸出進行評分,其中1表示形狀(如星形或梯形)既可行又可識別,2表示僅滿足一個標準,3表示兩個標準均未滿足。Claude和GPT-4o始終生成可識別的結構,而Gemini Pro在格式和可行性方面存在困難。

提示分為五個部分:設計請求、JSON模式、規則、當前場景和任務。任務、規則和JSON模式是預先定義的,不會改變。圖片來自卡內基梅隆大學。
物理實驗使用5×5網格構建包括笑臉、菱形、方形和十字形等形狀。燈塔系統的漂移、地面效應的湍流和磁鐵連接錯誤導致了錯位。基于視覺的校正依賴于YOLO-v8檢測彩色模塊,輔以Lucas-Kanade特征跟蹤和背景減法來驗證成功放置。當錯誤發生時,LLM重新規劃:一個錯位的十字形被旋轉以適應可用模塊,一個錯位的方形通過重新排序進行調整,一個菱形則納入了錯誤放置的模塊。有無重新提示的比較運行證實,反饋循環改善了整體構建結果。
基于無人機的增材制造研究始于蘇黎世聯邦理工學院(ETH Zurich)的四旋翼無人機協同組裝實驗,該實驗展示了預定義結構的組裝,但需要剛性定位。后續工作采用多架無人機擠出材料并使用反饋循環,但振動引起的不精確性限制了可擴展性。通過轉向基于模塊的組裝,卡內基梅隆大學避開了沉積挑戰,并將錯誤校正直接整合到規劃層。

坐標同步算法概覽。圖片來自卡內基梅隆大學。
自谷歌的SayCan以來,語言模型與機器人技術的整合取得了進展,SayCan展示了基于LLM的家庭機器人的實時規劃。黃(Huang)及其合作者表明,語義規劃器可以在遇到干擾時修訂多步驟指令,而Vemprala將類似方法擴展到移動機器人。梁(Liang)的“代碼即策略”框架表明,LLM可以解釋命令并生成可適應環境變化的可執行代碼。在增材制造領域,LLM也已應用于優化打印參數。LLM-無人機將這些原則擴展到空中系統,不穩定性是持續的障礙。
卡內基梅隆大學指出當前設置的局限性。靠近表面時的地面效應湍流使無人機不穩定,燈塔漂移降低了定位精度,磁鐵不一致性偶爾會阻止干凈的分離。基于YOLO的檢測也產生了不一致性,需要額外的圖像減法來確認模塊放置。這些挑戰突顯了實驗的受控性質以及實驗室結果與現實世界部署之間的差距。
未來發展將專注于擴展到具有更大有效載荷能力的大型無人機,整合可以開關的電磁鐵以實現精確控制,并將構建擴展到單層之外,形成完全三維的結構。研究人員建議,納入這些進步將使在非結構化或危險環境中更強大的現場增材制造成為可能。
