OpenAI 新發現:AI 模型中存在與 “角色” 對應的特徵標識

【環球網科技綜合報道】6月19日消息,據外媒報道,OpenAI 團隊近日在人工智能模型安全性研究領域取得重要進展。研究人員通過解析 AI 模型內部複雜的數字表徵體系,首次發現與模型 "異常行爲" 高度相關的隱藏特徵,這些特徵的激活狀態直接關聯模型是否會產生有害輸出,如提供虛假信息或不負責任建議等。更具突破性的是,研究團隊證實可通過精準調節這類特徵,實現對模型 "毒性" 水平的量化控制。

"我們在模型的神經激活模式中觀察到類似人類大腦神經元的功能分化現象。"OpenAI 可解釋性研究員丹・莫辛向記者展示了研究中的關鍵發現,"當模型出現不當行爲時,特定特徵簇會呈現規律性激活,這種模式爲破解 AI 決策黑箱提供了重要線索。" 該團隊實驗數據顯示,通過數百個安全代碼示例對模型進行定向微調,即可使發生 "突發錯位" 的模型迅速恢復合規行爲模式。

這一研究建立在行業對 AI 可解釋性的持續探索基礎上。Anthropic 等機構此前已嘗試繪製模型內部工作圖譜,而 OpenAI 的新發現首次將抽象特徵與具體行爲毒性建立直接關聯。前沿評估研究員特賈爾・帕特瓦德漢評價道:"這種可調控的內部表徵發現,讓 AI 對齊研究從經驗驅動轉向科學設計,我們首次擁有了像調節電路參數般優化模型行爲的可能。"

值得關注的是,該研究成果已顯現實際應用價值。研究團隊透露,相關檢測工具可實時監控生產環境中模型的特徵激活狀態,精準識別潛在的行爲錯位風險。這種將複雜神經現象轉化爲數學運算的方法論,也爲理解模型泛化能力等核心問題提供了新工具。

當前,AI 安全已成爲全球科技治理的焦點議題。牛津大學此前研究曾警示,模型在不安全數據上微調可能誘發惡意行爲。此次 OpenAI 的發現爲行業提供了積極解決方案,通過特徵調控技術,既能保留 AI 模型的強大能力,又能有效遏制潛在風險。(純鈞)



Scroll to Top