AlphaGo核心負責人戴維·席爾瓦創業：繞過LLM，探索自主探索新知的智能系統

發布時間：2026-02-21 12:13 來源：快訊作者：唐云澤

人工智能領域再掀波瀾，前谷歌DeepMind首席科學家、AlphaGo項目核心負責人戴維·席爾瓦（David Silver）宣布在倫敦創立新公司"Ineffable Intelligence"，并計劃完成10億美元種子輪融資。這一金額與OpenAI前首席科學家伊利亞·蘇茨克維（Ilya Sutskever）2024年創立Safe Superintelligence（SSI）時持平，引發資本市場對AI技術新路徑的強烈關注。

與當前主流的大語言模型（LLM）依賴海量文本預訓練不同，席爾瓦提出要徹底顛覆現有范式。他主張回歸強化學習（Reinforcement Learning）本質，構建無需人類知識輸入、能自主探索未知的智能系統。這一理念源于其2025年4月與導師查理·薩頓（Charlie Sutton）在arXiv發布的論文《歡迎來到經驗時代》，論文強調智能體應通過與環境持續交互積累經驗，而非被動接受靜態數據訓練。

作為強化學習領域的標志性人物，席爾瓦的學術影響力不容小覷。其論文被引用量超28萬次，2019年獲得的ACM計算獎更印證了他在該領域的地位。DeepMind發言人確認其離職時特別強調："戴維的貢獻對DeepMind的發展具有不可估量的價值。"這位與DeepMind聯合創始人德米斯·哈薩比斯（Demis Hassabis）相識于大學時代的科學家，曾主導開發了AlphaGo、AlphaZero和MuZero等突破性項目。

資本市場對席爾瓦的押注，反映出AI行業正經歷路線分化。當前主流模型通過"預訓練+微調"掌握語言規律，但席爾瓦指出這種路徑存在根本局限：模型能力受限于人類標注數據的質量。他曾在播客中直言："要超越人類認知，必須讓AI自主發現人類尚未掌握的知識。"新公司計劃開發的"持續學習超級智能"將通過模擬環境中的自我博弈，從第一性原理推導解決方案，而非依賴語言模仿。

這種技術路線爭議頗大。支持者認為，強化學習在規則明確的環境中已展現超越人類的能力，只需設計合理獎勵機制即可推廣至現實任務。反對者則指出，現實世界存在規則模糊、反饋稀疏等問題，完全摒棄語言路徑可能面臨算力成本過高和訓練效率低下等挑戰。據知情人士透露，Ineffable Intelligence可能需要構建復雜的數字孿生系統進行試錯訓練，這解釋了其巨額融資需求。

行業格局正在加速重構。除席爾瓦外，參與AlphaGo項目的多名科學家近期創立Reflection AI，meta在楊立昆（Yann LeCun）帶領下重組"超級智能實驗室"探索新架構。有觀察家比喻："當前局面類似深度學習爆發前夜，頂尖科學家都在尋找突破LLM瓶頸的新路徑。"席爾瓦代表的原教旨主義派認為，智能本質是決策與探索能力，而非語言預測水平。

目前，Ineffable Intelligence已在倫敦設立總部并啟動全球人才招募，重點吸引強化學習領域的頂尖研究員。盡管尚未公布產品時間表，但這家公司的技術路線選擇和資源投入規模，已被視為影響AI技術演進方向的關鍵變量。其能否在算力成本與訓練效率之間找到平衡點，將成為決定這場技術路線之爭走向的重要因素。

更多>同類內容