巨人財經 - 專業科技行業財經媒體

谷歌DeepMind發布AGI安全框架:前瞻布局技術保障,助力負責任研發與部署

   發布時間:2025-12-11 10:23 作者:沈瑾瑜

谷歌DeepMind近日發布了一份重要報告,題為《An Approach to Technical AGI Safety and Security》。該報告深入探討了通用人工智能(AGI)可能帶來的重大風險,并提出了全面的技術安全框架,旨在為AGI的負責任研發和部署提供核心指導。

報告指出,AGI具有變革性的潛力,但同時也伴隨著嚴重的風險。這些風險被劃分為四大領域:誤用風險,即用戶故意利用AGI造成傷害;錯位風險,指AGI在明知違背開發者意圖的情況下仍造成傷害;失誤風險,即AGI無意識中導致的傷害;以及結構性風險,涉及多主體互動引發的非主觀傷害。報告特別強調了誤用和錯位風險的技術應對策略。

在誤用風險的應對上,報告提出了一系列策略,旨在切斷惡意主體獲取危險能力的途徑。這包括通過危險能力評估預判風險閾值,以及利用模型級防護、系統級管控和安全防護等多層防御措施。模型級防護涵蓋安全訓練和能力抑制,系統級管控則包括行為監測和訪問限制,而安全防護則涉及模型權重加密和環境加固。報告還強調了通過紅隊測試驗證防護有效性,并加強社會防御能力以降低潛在傷害。

針對錯位風險,報告構建了雙重防御體系。第一防線是訓練對齊模型,通過增強監督、引導模型行為和穩健訓練等手段,確保模型目標與人類意圖一致。第二防線是系統級管控,借鑒網絡安全思路,通過訪問控制、沙箱隔離和層級監控等措施,即便模型錯位也能阻斷嚴重傷害。同時,報告還提出了不確定性量化、可解釋性研究和更安全的設計模式等支撐措施。

報告基于五大關鍵假設展開,包括當前AI研發范式的持續性、AGI能力無人類天花板、研發時間線的不確定性、AI能力加速增長的可能性以及AI能力提升的平滑演進。這些假設為報告的技術方案提供了理論基礎。

報告還強調了技術方案與治理機制互補的重要性,呼吁形成行業共識與標準,以避免因競爭壓力導致安全底線下降。同時,報告也指出了當前研究的局限性,包括未充分覆蓋結構性風險和聚焦短期可落地技術等,并呼吁未來持續推進基礎研究與跨領域協作。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新