這是德國弗勞恩霍夫智能分析和信息系統(tǒng)研究所數(shù)據(jù)科學(xué)家亞歷山大·措恩的資料照片。新華社發(fā)(受訪者供圖)
新華社柏林6月10日電 專訪|讓AI智能體真正“看懂”世界——訪德國弗勞恩霍夫研究所數(shù)據(jù)專家
新華社記者褚怡 杜哲宇
在AI加速融入現(xiàn)實世界的進程中,虛擬空間正逐步成為智能系統(tǒng)發(fā)展的重要“試驗場”。2025年聯(lián)合國虛擬世界日活動前夕,德國弗勞恩霍夫智能分析和信息系統(tǒng)研究所數(shù)據(jù)科學(xué)家亞歷山大·措恩在接受新華社記者書面采訪時說,AI智能體可以構(gòu)建出一套通用能力體系,使其既能在虛擬環(huán)境中高效運行,也能勝任復(fù)雜的現(xiàn)實世界任務(wù)。
“現(xiàn)實與虛擬的結(jié)合極具價值?!彼f,通過感知現(xiàn)實環(huán)境并在數(shù)字孿生中完成還原,AI智能體可以在實際應(yīng)用之前,先在虛擬環(huán)境中進行模擬演練,評估操作的可行性,從而提升整體系統(tǒng)的可靠性。
措恩指出,許多運行在虛擬環(huán)境中的AI智能體,其核心算法與控制現(xiàn)實機器人使用的是同一類大語言模型。這意味著,AI智能體在虛擬空間中獲得的經(jīng)驗和能力,可以較為順暢地遷移至現(xiàn)實環(huán)境。
作為弗勞恩霍夫智能分析和信息系統(tǒng)研究所自然語言理解團隊負責人,措恩長期從事基于大語言模型的機器人控制與自動編程研究。他說,團隊開發(fā)的AI智能體可通過自然語言與人類交流,并將任務(wù)自動拆解為一系列更小的子任務(wù)。
“對于每個子任務(wù),系統(tǒng)會自動生成一段通常為Python語言的簡潔代碼,既用于調(diào)用其他AI智能體,也能直接給出機器人或自動化設(shè)備的具體控制策略?!彼f,當一個子任務(wù)執(zhí)行完畢后,主智能體將對執(zhí)行結(jié)果進行評估,并決定下一步操作,以逐步推進并完成整體目標。
措恩認為,與傳統(tǒng)自動化系統(tǒng)相比,AI智能體具備更高的“性價比”。目前,許多中小企業(yè)在引入自動化技術(shù)時常面臨高成本、高技術(shù)門檻和環(huán)境復(fù)雜多變等難題?!盎贏I智能體的自動化系統(tǒng),能夠在很大程度上緩解這些問題?!贝攵髡f,該系統(tǒng)依托先進的大型基礎(chǔ)模型,具備廣泛的通用知識儲備,即使沒有特定行業(yè)經(jīng)驗,也能理解并完成任務(wù)。例如,僅憑一句“將蘋果和梨分別放入不同的盒子”,AI智能體就可以理解任務(wù)意圖,識別物體類別,并控制機械臂正確完成動作。
措恩指出,要實現(xiàn)更高程度的自主能力,AI智能體所依賴的基礎(chǔ)模型必須具備接收并理解其所處環(huán)境的能力,尤其是在涉及現(xiàn)實任務(wù)的場景中。“系統(tǒng)要在真實世界中運行,首先得真正‘看懂’這個世界?!彼f,將高精度的三維場景數(shù)據(jù)與多路傳感器數(shù)據(jù)輸入模型,以便其在空間中進行推理和判斷,是當前人工智能研究的前沿方向之一,但這項工作仍面臨諸多挑戰(zhàn)。
“目前的大語言模型本質(zhì)上是為處理文字而設(shè)計的,擅長語言理解與生成?!贝攵髡f,“而來自現(xiàn)實世界的感知數(shù)據(jù),比如三維點云,只是一些無序的坐標集合,并不自帶語義結(jié)構(gòu)?!彼硎?,要讓模型真正“理解”這些數(shù)據(jù),必須開發(fā)新的數(shù)據(jù)表示方式和訓(xùn)練機制,將“非語言”信息轉(zhuǎn)化為模型能夠真正識別和處理的形式。
措恩還談到了AI智能體應(yīng)用過程中最本質(zhì)的問題——信任。他認為,AI智能體之所以能夠獲得用戶信任,關(guān)鍵在于其決策路徑具有高透明性和可審查性。與單一語言模型不同,AI智能體會將復(fù)雜問題拆解為多個明確的小任務(wù),每一步都有清晰的邏輯和執(zhí)行過程,更容易被理解和驗證。
“用戶可以清楚看到智能體是如何逐步推進任務(wù)、規(guī)劃解決方案的,這有助于增強他們對結(jié)果的信心?!彼f,在進入現(xiàn)實世界之前,智能體在高度還原真實環(huán)境的虛擬世界中先“完成驗證”,這種信任感會進一步加深。