人工智能領域再掀波瀾,前谷歌DeepMind首席科學家、AlphaGo項目核心負責人戴維·席爾瓦(David Silver)宣布在倫敦創立新公司"Ineffable Intelligence",并計劃完成10億美元種子輪融資。這一金額與OpenAI前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)2024年創立Safe Superintelligence(SSI)時持平,引發資本市場對AI技術新路徑的強烈關注。
與當前主流的大語言模型(LLM)依賴海量文本預訓練不同,席爾瓦提出要徹底顛覆現有范式。他主張回歸強化學習(Reinforcement Learning)本質,構建無需人類知識輸入、能自主探索未知的智能系統。這一理念源于其2025年4月與導師查理·薩頓(Charlie Sutton)在arXiv發布的論文《歡迎來到經驗時代》,論文強調智能體應通過與環境持續交互積累經驗,而非被動接受靜態數據訓練。
作為強化學習領域的標志性人物,席爾瓦的學術影響力不容小覷。其論文被引用量超28萬次,2019年獲得的ACM計算獎更印證了他在該領域的地位。DeepMind發言人確認其離職時特別強調:"戴維的貢獻對DeepMind的發展具有不可估量的價值。"這位與DeepMind聯合創始人德米斯·哈薩比斯(Demis Hassabis)相識于大學時代的科學家,曾主導開發了AlphaGo、AlphaZero和MuZero等突破性項目。
資本市場對席爾瓦的押注,反映出AI行業正經歷路線分化。當前主流模型通過"預訓練+微調"掌握語言規律,但席爾瓦指出這種路徑存在根本局限:模型能力受限于人類標注數據的質量。他曾在播客中直言:"要超越人類認知,必須讓AI自主發現人類尚未掌握的知識。"新公司計劃開發的"持續學習超級智能"將通過模擬環境中的自我博弈,從第一性原理推導解決方案,而非依賴語言模仿。
這種技術路線爭議頗大。支持者認為,強化學習在規則明確的環境中已展現超越人類的能力,只需設計合理獎勵機制即可推廣至現實任務。反對者則指出,現實世界存在規則模糊、反饋稀疏等問題,完全摒棄語言路徑可能面臨算力成本過高和訓練效率低下等挑戰。據知情人士透露,Ineffable Intelligence可能需要構建復雜的數字孿生系統進行試錯訓練,這解釋了其巨額融資需求。
行業格局正在加速重構。除席爾瓦外,參與AlphaGo項目的多名科學家近期創立Reflection AI,meta在楊立昆(Yann LeCun)帶領下重組"超級智能實驗室"探索新架構。有觀察家比喻:"當前局面類似深度學習爆發前夜,頂尖科學家都在尋找突破LLM瓶頸的新路徑。"席爾瓦代表的原教旨主義派認為,智能本質是決策與探索能力,而非語言預測水平。
目前,Ineffable Intelligence已在倫敦設立總部并啟動全球人才招募,重點吸引強化學習領域的頂尖研究員。盡管尚未公布產品時間表,但這家公司的技術路線選擇和資源投入規模,已被視為影響AI技術演進方向的關鍵變量。其能否在算力成本與訓練效率之間找到平衡點,將成為決定這場技術路線之爭走向的重要因素。





















