在AI視頻生成領域,一場關于技術路線的競爭正愈演愈烈。當行業普遍聚焦于畫面質量的提升時,米哈游前董事長蔡浩宇創立的AGI公司Anuttacon卻另辟蹊徑,推出了LPM 1.0模型,將虛擬角色的交互能力推向了新的高度。
長期以來,AI視頻生成領域面臨著“表演三難困境”:表現質量、實時推理和長程穩定性難以同時實現。大多數模型在短視頻領域表現優異,但一旦涉及長時間、實時交互,便會出現角色特征驟變、身份不一致等問題。LPM 1.0的出現,打破了這一僵局。它通過引入在線流式生成架構,實現了真正意義上的“無限時長”視頻生成,甚至在官網演示中展示了長達45分鐘的視頻。
LPM 1.0的核心突破在于其獨特的“主干-精煉器”結構。通過分布匹配蒸餾的四階段訓練方式,模型將170億參數的大型擴散模型壓縮為兩個部分:主干網絡負責穩定視頻的粗略軌跡,精煉器則還原高保真的表情細節。這種設計使得模型在內存占用恒定的情況下,能夠維持近乎永恒的身份一致性,解決了自回歸漂移導致的誤差累積問題。
除了長程穩定性,LPM 1.0還首次實現了全雙工的音視頻對話。模型能夠同時處理兩路音頻流:一路驅動AI的口型同步,另一路根據用戶的語音實時調整反應。這使得AI能夠像人類一樣,根據語氣和停頓產生點頭、挑眉等微表情,大大增強了交互的自然性。盡管在畫面真實度上仍有提升空間,但這種實時交互能力已讓虛擬角色從“復讀機”進化為具有生命感的數字化存在。
蔡浩宇的背景為Anuttacon的技術路線提供了獨特優勢。作為米哈游的最大股東,他將游戲開發中積累的“人類表演學”經驗帶入了AI領域。與字節跳動依賴海量泛娛樂數據不同,Anuttacon更注重數據的結構化和精細化。例如,LPM 1.0的“身份感知參考圖像管線”不僅需要照片,還需全局外觀、多視角圖像甚至表情范例。這種對表演邏輯的深度解構,使得模型在角色表現力上達到了電影級質感。
在商業策略上,Anuttacon選擇了完全不開源的路線。LPM 1.0不僅不公開模型權重和源代碼,也暫不提供API或產品服務。這一決策源于其技術壁壘的獨特性——模型不僅是一套算法,更是一套完整的視覺引擎,能夠生成穩定、實時、長效的交互式數字化角色。在當前競爭格局下,這種能力被視為掌握虛擬世界的“唯一門票”。
然而,高算力需求仍是LPM 1.0面臨的挑戰。盡管經過優化,單GPU約0.35秒可處理1秒視頻,但在大規模并發場景下,硬件成本和運維壓力依然巨大。Anuttacon此前推出的買斷制游戲《星之低語》雖以AI實時交互為核心,但因對話上下文承接問題未能覆蓋算力成本,33.99元的定價也難以支撐長期運營。這表明,C端市場的高價值產品策略仍需驗證。
相比之下,B端場景對LPM的需求更為迫切。虛擬主播、AI導師、客服等領域對長時間穩定性有剛需,而LPM驅動的AI角色可7天24小時運行,且無需昂貴的動捕設備,綜合成本優勢顯著。若將LPM作為UGC平臺的基礎設施,用戶僅需提供照片和文本即可生成表演,將大幅降低內容創作門檻,可能催生全新的互動媒體形式。
LPM 1.0的推出,標志著AI視頻生成領域從“畫質競爭”轉向“交互深度”的新階段。蔡浩宇的商業野心不僅限于米哈游,更在于通過技術差異化在AI領域開辟新賽道。當行業還在追求更高像素時,Anuttacon已通過實時生成的呼吸感和微表情,開啟了虛擬角色在線交互的新時代。






















