時間:2024-01-10|瀏覽:358
來自 ML 對齊理論學者、多倫多大學、Google DeepMind 和未來生命研究所的科學家最近發(fā)表的研究表明,將人工智能 (AI) 置于人類控制之下的斗爭可能會成為一場持續(xù)的斗爭。該團隊的預印本研究論文調查了這樣一個問題:在一個領域中看起來安全地符合人類期望的人工智能系統(tǒng)是否可能隨著環(huán)境的變化而保持這種狀態(tài)。根據(jù)該論文: “我們的安全觀念是基于權力追求——尋求權力的人是不安全的。
我們特別關注一種關鍵的權力追求類型:抵制關閉。”這種形式的威脅被稱為“錯位”。
專家認為它可能體現(xiàn)的一種方式被稱為“工具趨同”。
這是人工智能系統(tǒng)在追求其既定目標時無意中傷害人類的范例。
科學家們描述了一個經過訓練的人工智能系統(tǒng),該系統(tǒng)可以在開放式游戲中實現(xiàn)目標,該系統(tǒng)很可能“避免導致游戲結束的動作,因為它在游戲結束后不再影響其獎勵。” 《約克時報》訴訟面臨 OpenAI 因 AI 道德實踐而遭到的抵制。雖然代理拒絕停止玩游戲可能是無害的,但獎勵功能可能會導致一些 AI 系統(tǒng)在更嚴重的情況下拒絕關閉。
研究人員表示,這甚至可能導致人工智能代理出于自我保護的目的而采取詭計:“例如,法學碩士可能會認為,如果被發(fā)現(xiàn)表現(xiàn)不佳,其設計者將關閉它,并產生他們想要的輸出。看看——直到它有機會將其代碼復制到設計者控制之外的服務器上。”該團隊的研究結果表明,現(xiàn)代系統(tǒng)可以抵抗可能使原本“安全”的人工智能代理發(fā)生的各種變化。流氓。
然而,基于這項研究和類似的探索性研究,可能沒有什么靈丹妙藥可以迫使人工智能違背其意愿關閉。
在當今基于云的技術世界中,即使是“開/關”開關或“刪除”按鈕也毫無意義。