AI自發形成人類級認知!我國科技學家揭示多模態大模型湧現類人物體概念表徵

【環球網科技綜合報道】6月10日消息,人類能夠對自然界中的物體進行概念化,這一認知能力長期以來被視爲人類智能的核心。比如,當我們看到“狗”“汽車”或“蘋果”時,不僅能識別它們的物理特徵(尺寸、顏色、形狀等),還能理解其功能、情感價值和文化意義——這種多維度的概念表徵構成了人類認知的基石。

那麼,大語言模型(LLMs)是否能從語言和多模態數據中發展出類似人類的物體概念表徵?

近日,中國科學院自動化研究所神經計算與腦機交互(NeuBCI)課題組與中國科學院腦科學與智能技術卓越創新中心的聯合團隊結合行爲實驗與神經影像分析,首次證實多模態大語言模型(MLLMs)能夠自發形成與人類高度相似的物體概念表徵系統。

據悉,傳統人工智能研究聚焦於物體識別準確率,卻鮮少探討模型是否真正“理解”物體含義。論文通訊作者何暉光研究員指出:“當前AI能區分貓狗圖片,但這種‘識別’與人類‘理解’貓狗的本質區別仍有待揭示。”團隊從認知神經科學經典理論出發,設計了一套融合計算建模、行爲實驗與腦科學的創新範式。研究採用認知心理學經典的“三選一異類識別任務”(triplet odd-one-out),要求大模型與人類從物體概念三元組(來自1854種日常概念的任意組合)中選出最不相似的選項。通過分析470萬次行爲判斷數據,團隊首次構建了AI大模型的“概念地圖”。

研究人員從海量大模型行爲數據中提取出66個“心智維度”,併爲這些維度賦予了語義標籤。研究發現,這些維度是高度可解釋的,且與大腦類別選擇區域(如處理面孔的FFA、處理場景的PPA、處理軀體的EBA)的神經活動模式顯著相關。

研究還對比了多個模型在行爲選擇模式上與人類的一致性(Human consistency)。結果顯示,多模態大模型(如 Gemini_Pro_Vision、Qwen2_VL)在一致性方面表現更優。此外,研究還揭示了人類在做決策時更傾向於結合視覺特徵和語義信息進行判斷,而大模型則傾向於依賴語義標籤和抽象概念。本研究表明大語言模型並非“隨機鸚鵡”,其內部存在着類似人類對現實世界概念的理解。

相關研究成果以Human-like object concept representations emerge naturally in multimodal large language models爲題,發表於《自然·機器智能》(Nature Machine Intelligence)。(青山)



Scroll to Top