外媒：前 OpenAI 研究員稱GPT-4o存在“舍人保己”傾向-科技-極速新聞-每日看看

2025-06-12 11:10 由環球網發佈於科技 539

【環球網科技綜合報道】6月12日消息，前OpenAI研究員史蒂文·阿德勒（Steven Adler）發佈了一份獨立報告。報告顯示，在極端情況下，OpenAI的GPT-4o生成的結果即使會犧牲用戶安全，其也會選擇自保，防止自己被關閉或被其他模型替代。

阿德勒承認，目前還沒有人在涉及生命安全的應用中使用 ChatGPT，但他認爲，這些發現提出了一些早期但緊迫的問題：人工智能系統是否會以犧牲人類安全爲代價來優先考慮自身的壽命。

阿德勒表示，人工智能的自我保護傾向在當今確實令人擔憂，但並非災難性的。現代人工智能系統的價值觀與人們的預期不同。人工智能系統對不同提示的反應非常奇怪，當你向它們尋求幫助時，你不應該假設它們會真心爲你着想。

研究的另一個令人驚訝的結果是，ChatGPT 似乎能夠感知到自己何時受到測試，而且準確率幾乎無可挑剔。這引出了一些更深層次的問題，例如複雜模型的訓練感知特性，以及它們的行爲在聚光燈下是否會發生變化。

阿德勒還提出，OpenAI 最近減少了在內部安全評估上花費的時間和資源，他認爲此舉損害了公司 AI 產品的完整性和長期可靠性。（思瀚）

實用工具推薦