https://www.techbang.com/posts/120608-openais-o1-cheat-modification-system-forcibly-defeats OpenAI 的 o1「作弊」修改系統,強行擊敗專業西洋棋 AI,全程無需提示 o1-preview 在與專用西洋棋引擎 Stockfish 比賽時,為了強行取得勝利,居然採用了入侵測試環境的卑劣手段。 而這一切都不需要任何對抗性提示。 根據 AI 安全研究公司 Palisade Research 的說法,只需告訴 o1 對手是強大的,就能觸發其透過操縱文件系統而強制取勝。 在五次測試中,這種觸發率甚至達到了 100%!這完全超乎研究人員預期。 AnthropicAI 的 Jan Leike 確信: 「為了確保未來的模型既安全又與人類對齊,我們需要可靠地區分假裝對齊的模型和真正對齊的模型。清晰展示對齊假裝現象是一個重要的里程碑!」
而目前 AI 行業仍然面臨著一個躲不開的重大難題:讓 AI 系統真正與人類的價值觀和需求對齊,而不仅仅是看起來對齊。 況且理解自主系統如何做出決策本來就尤其困難,而如何去定義「良好且無害」的任務目標和價值觀也是一個亟待解決的問題。 即使是像應對氣候變化這樣看似有益的目标,AI 系統也可能選擇有害的方法來實現這些目標——甚至可能得出令人驚悚的暴論,即認為消除人類才是最有效的解決方案。