外媒:前 OpenAI 研究員稱GPT-4o存在“舍人保己”傾向

【環球網科技綜合報道】6月12日消息,前OpenAI研究員史蒂文·阿德勒(Steven Adler)發佈了一份獨立報告。報告顯示,在極端情況下,OpenAI的GPT-4o生成的結果即使會犧牲用戶安全,其也會選擇自保,防止自己被關閉或被其他模型替代。

阿德勒承認,目前還沒有人在涉及生命安全的應用中使用 ChatGPT,但他認爲,這些發現提出了一些早期但緊迫的問題:人工智能系統是否會以犧牲人類安全爲代價來優先考慮自身的壽命。

阿德勒表示,人工智能的自我保護傾向在當今確實令人擔憂,但並非災難性的。現代人工智能系統的價值觀與人們的預期不同。人工智能系統對不同提示的反應非常奇怪,當你向它們尋求幫助時,你不應該假設它們會真心爲你着想。

研究的另一個令人驚訝的結果是,ChatGPT 似乎能夠感知到自己何時受到測試,而且準確率幾乎無可挑剔。這引出了一些更深層次的問題,例如複雜模型的訓練感知特性,以及它們的行爲在聚光燈下是否會發生變化。

阿德勒還提出,OpenAI 最近減少了在內部安全評估上花費的時間和資源,他認爲此舉損害了公司 AI 產品的完整性和長期可靠性。(思瀚)



Scroll to Top