谷歌DeepMind發布AGI安全框架：前瞻布局技術保障，助力負責任研發與部署

發布時間：2025-12-11 10:23 來源：快訊作者：沈瑾瑜

谷歌DeepMind近日發布了一份重要報告，題為《An Approach to Technical AGI Safety and Security》。該報告深入探討了通用人工智能（AGI）可能帶來的重大風險，并提出了全面的技術安全框架，旨在為AGI的負責任研發和部署提供核心指導。

報告指出，AGI具有變革性的潛力，但同時也伴隨著嚴重的風險。這些風險被劃分為四大領域：誤用風險，即用戶故意利用AGI造成傷害；錯位風險，指AGI在明知違背開發者意圖的情況下仍造成傷害；失誤風險，即AGI無意識中導致的傷害；以及結構性風險，涉及多主體互動引發的非主觀傷害。報告特別強調了誤用和錯位風險的技術應對策略。

在誤用風險的應對上，報告提出了一系列策略，旨在切斷惡意主體獲取危險能力的途徑。這包括通過危險能力評估預判風險閾值，以及利用模型級防護、系統級管控和安全防護等多層防御措施。模型級防護涵蓋安全訓練和能力抑制，系統級管控則包括行為監測和訪問限制，而安全防護則涉及模型權重加密和環境加固。報告還強調了通過紅隊測試驗證防護有效性，并加強社會防御能力以降低潛在傷害。

針對錯位風險，報告構建了雙重防御體系。第一防線是訓練對齊模型，通過增強監督、引導模型行為和穩健訓練等手段，確保模型目標與人類意圖一致。第二防線是系統級管控，借鑒網絡安全思路，通過訪問控制、沙箱隔離和層級監控等措施，即便模型錯位也能阻斷嚴重傷害。同時，報告還提出了不確定性量化、可解釋性研究和更安全的設計模式等支撐措施。

報告基于五大關鍵假設展開，包括當前AI研發范式的持續性、AGI能力無人類天花板、研發時間線的不確定性、AI能力加速增長的可能性以及AI能力提升的平滑演進。這些假設為報告的技術方案提供了理論基礎。

報告還強調了技術方案與治理機制互補的重要性，呼吁形成行業共識與標準，以避免因競爭壓力導致安全底線下降。同時，報告也指出了當前研究的局限性，包括未充分覆蓋結構性風險和聚焦短期可落地技術等，并呼吁未來持續推進基礎研究與跨領域協作。

更多>同類內容