在人工智能與機器人領域,陳佳玉的名字正逐漸被更多人熟知。這位兼具學術與產業雙重背景的年輕研究者,本科畢業于北京大學工學院,早期聚焦自動駕駛技術研究,博士后階段在卡內基梅隆大學將強化學習應用于核聚變反應堆控制,如今以博導和原力無限資深研究科學家的身份,將研究重心轉向通用家用機器人領域。
陳佳玉的科研軌跡始終圍繞復雜系統智能控制展開。從自動駕駛的感知與決策,到強化學習理論與算法設計,再到核聚變等離子體控制,看似跨度極大的研究方向背后,實則貫穿著強化學習這一核心線索。“強化學習的學習過程具有類人特性,且涉及控制理論、統計學等多學科交叉,這種綜合性和挑戰性吸引著我持續深耕。”陳佳玉解釋道。他強調,當前研究更注重從實際需求出發,而非單純追求技術難度,但發展類人智能的終極目標決定了強化學習仍是值得探索的前沿方向。
在陳佳玉看來,核聚變控制與機器人操作在數學本質上具有共通性。無論是通過真實數據交互還是模擬器建模,兩者均可抽象為馬爾可夫決策過程,需定義觀測、動作及評價標準三個核心要素。這類高維非線性連續控制問題,正是強化學習的優勢領域。“我的博士導師擅長用數學原理剖析問題本質,博后導師則精通工程迭代方法,現在的研究正是兩者結合的產物。”他以正在推進的持續性強化學習項目為例,該項目旨在讓AI具備持續學習新任務且不遺忘舊知識的能力,既需要理論突破,也依賴工程實踐。
2025年,陳佳玉開啟“雙棲”模式:在香港大學擔任教職的同時,加入創業公司原力無限。這種選擇源于現實考量——學術研究面臨資金、場地、算力三重困境,而產業界能提供更充足的資源支持。原力無限構建的商業技術閉環、高效的執行文化,以及與陳佳玉團隊在“一腦多身”通用物理世界模型上的技術共識,成為雙方合作的關鍵因素。“通用機器人是人工智能領域的終極挑戰,它需要整合計算機視覺、自然語言處理、強化學習等多領域技術。”陳佳玉指出,家庭場景對通用性的需求,使其成為最具潛力的落地方向。
針對初創公司與科技巨頭的競爭,陳佳玉認為,初創企業需聚焦特定場景,走專業化道路。“大廠在基礎模型和算力上具有優勢,初創公司必須找到差異化路徑,通過快速落地和實用主義策略建立競爭力。”他預測,短期來看,人形機器人將優先在B端工廠場景應用,但長期機會在于C端家庭市場。“家庭用戶需要的是能完成多種任務的通用機器人,而非多個專用設備。”
在技術路徑選擇上,陳佳玉團隊正攻關兩大方向:持續性強化學習與以智能體為中心的世界模型。后者區別于當前主流的第三人稱視角世界模型,強調構建指揮智能體行為的因果模型。“例如,機器人拿杯子時,世界模型應讓其理解‘拿緊杯子是為了防止掉落’,而非簡單模仿動作序列。”這種因果建模能力,將幫助機器人實現跨任務知識遷移。
對于行業普遍關注的泛化性問題,陳佳玉持謹慎態度。他認為,當前許多研究宣稱的泛化能力缺乏理論保障,屬于偶然性成功,而持續學習技術則被嚴重低估。“如何讓AI在學習新任務時不遺忘舊知識,這是Richard Sutton等學者近期重點討論的難題。”他透露,團隊正通過數據工廠采集初始數據,并計劃通過部署機器人獲取真實用戶數據,構建“數據飛輪”正反饋機制。
面對“少年天才”的標簽,陳佳玉更關注實際貢獻:“標簽不重要,重要的是能否解決重要問題。”他建議年輕研究者:首先明確定義研究問題,確保其具有足夠價值;其次積極整合資源,包括算力、設備和落地場景;最后通過拆解頂尖學者的研究體系,構建自己的認知框架。“不要盲目追隨熱點,要建立獨立思考能力,從體系推導出真正值得研究的問題。”























