在一座巨大的自動化倉庫內,數百台機器人沿著通道快速穿行,收集和分發物品以滿足源源不斷的客戶訂單。在這個繁忙的環境中,即使是小的交通堵塞或輕微碰撞也可能雪球般地發展成大規模的速度下降。
為了避免這種效率低下的雪崩效應,來自麻省理工學院和科技公司Symbotic的研究人員開發了一種新方法,能夠自動保持機器人車隊的順暢運行。他們的方法根據擁堵的形成情況學習在每個時刻哪些機器人應該優先通行,並適應性地優先處理即將被困的機器人。通過這種方式,系統可以提前重新規劃機器人路線以避免瓶頸。
該混合系統利用深度強化學習這一強大的人工智慧方法來解決複雜問題,確定哪些機器人應該被優先考慮。然後,一個快速可靠的規划算法向機器人發送指令,使它們能夠在不斷變化的條件下快速響應。
在受實際電商倉庫布局啟發的模擬中,這種新方法比其他方法的吞吐量提高了約25%。重要的是,該系統能夠快速適應具有不同數量機器人或不同倉庫布局的新環境。
"在製造業和物流業中,有很多決策問題公司依賴於人類專家設計的算法。但我們已經證明,利用深度強化學習的力量,我們可以實現超越人類的性能。這是一種非常有前景的方法,因為在這些巨大的倉庫中,即使是2%或3%的吞吐量增長也能產生巨大影響,"麻省理工學院資訊與決策系統實驗室研究生、這項新方法論文的主要作者韓征說。
與韓征共同參與這項研究的還有資訊與決策系統實驗室博士後馬一寧、Symbotic公司的Brandon Araki和陳京凱,以及資深作者吳凱蒂,她是麻省理工學院土木與環境工程系和數據、系統與社會研究所1954級職業發展副教授,也是資訊與決策系統實驗室成員。該研究今天發表在《人工智慧研究期刊》上。
重新規劃機器人路線
在電商倉庫中同時協調數百台機器人絕非易事。
這個問題特別複雜,因為倉庫是一個動態環境,機器人在達到目標後會持續接收新任務。當它們離開和進入倉庫時需要被快速重新指導。
公司通常利用人類專家編寫的算法來確定機器人應該在何時何地移動,以最大化它們能處理的包裹數量。
但如果出現擁堵或碰撞,公司可能別無選擇,只能關閉整個倉庫數小時來手動解決問題。
"在這種情況下,我們無法精確預測未來。我們只知道未來可能會發生什麼,比如進來的包裹或未來訂單的分布。規劃系統需要在倉庫運營進行時適應這些變化,"韓征說。
麻省理工學院的研究人員使用機器學習實現了這種適應性。他們首先設計了一個神經網路模型來觀察倉庫環境並決定如何為機器人設置優先級。他們使用深度強化學習訓練這個模型,這是一種試錯方法,模型在模擬實際倉庫的仿真中學習控制機器人。該模型因做出增加整體吞吐量同時避免衝突的決策而獲得獎勵。
隨著時間推移,神經網路學會了高效協調多個機器人。
"通過與受真實倉庫布局啟發的仿真進行交互,我們的系統接收反饋,我們用這些反饋使其決策更加智能。訓練好的神經網路可以適應具有不同布局的倉庫,"韓征解釋說。
該系統設計用於捕捉每個機器人路徑中的長期約束和障礙,同時考慮機器人在倉庫中移動時的動態交互。
通過預測當前和未來的機器人交互,該模型計劃在擁堵發生之前就予以避免。
在神經網路決定哪些機器人應該獲得優先級後,系統採用經過驗證的規划算法告訴每個機器人如何從一點移動到另一點。這種高效算法幫助機器人在不斷變化的倉庫環境中快速反應。
這種方法的結合是關鍵。
"這種混合方法建立在我團隊關於如何在機器學習和經典優化方法之間實現兩全其美的工作基礎上。純機器學習方法仍然難以解決複雜的優化問題,然而人類專家設計有效方法極其耗時耗力。但是,以正確的方式結合使用專家設計的方法可以極大地簡化機器學習任務,"吳說。
克服複雜性
研究人員訓練好神經網路後,他們在與訓練時所見不同的模擬倉庫中測試了系統。由於工業仿真對這個複雜問題來說效率太低,研究人員設計了自己的環境來模擬實際倉庫中發生的情況。
平均而言,他們基於學習的混合方法在每個機器人交付的包裹數量方面比傳統算法和隨機搜索方法的吞吐量高出25%。他們的方法還能生成可行的機器人路徑規劃,克服了傳統方法造成的擁堵。
"特別是當倉庫中機器人密度上升時,複雜性呈指數級增長,這些傳統方法很快就開始失效。在這些環境中,我們的方法效率更高,"韓征說。
雖然他們的系統距離實際部署還很遙遠,但這些演示突出了在倉庫自動化中使用機器學習指導方法的可行性和好處。
未來,研究人員希望在問題表述中包含任務分配,因為確定哪個機器人完成每項任務會影響擁堵情況。他們還計劃將系統擴展到擁有數千台機器人的更大倉庫。
這項研究由Symbotic資助。
Q&A
Q1:這個新的機器人交通管理系統是如何工作的?
A:該系統採用混合方法,首先使用深度強化學習訓練神經網路模型來觀察倉庫環境並決定機器人優先級,然後利用高效的規划算法告訴每個機器人具體如何移動。系統能夠預測機器人交互並在擁堵發生前進行規劃避免。
Q2:相比傳統方法,這個系統的效果如何?
A:在模擬測試中,這個基於學習的混合方法比傳統算法和隨機搜索方法的吞吐量提高了約25%。特別是在機器人密度較高的環境中,傳統方法很快失效,而新方法效率更高。系統還能快速適應不同的倉庫布局和機器人數量。
Q3:深度強化學習在這個系統中起什麼作用?
A:深度強化學習是系統的核心技術,用於訓練神經網路模型。通過試錯方法,模型在模擬實際倉庫的環境中學習控制機器人,因做出增加整體吞吐量同時避免衝突的決策而獲得獎勵,最終學會高效協調多個機器人。






