字節Seedance 2.0論文亮相：170人團隊署名，多模態生成能力全面升級

發布時間：2026-04-17 15:19 來源：快訊作者：陳陽

字節跳動旗下的AI視頻生成技術Seedance 2.0近日在學術平臺arXiv發布技術論文，詳細闡述了其多模態生成能力與核心技術創新。該論文不僅公開了26頁的基準測試數據，還首次完整披露了170人的研發團隊名單，引發行業對技術突破與團隊架構的雙重關注。

此次升級的Seedance 2.0通過原生統一模型架構，實現了視頻與音頻的同步生成能力。技術團隊突破了傳統工具依賴單文本輸入的局限，支持文本、圖像、視頻、音頻四種模態的混合輸入與融合處理。例如在人物動作生成方面，系統可精準模擬跑步、舞蹈等復雜運動軌跡，確保多人互動場景中的物理合理性；音頻模塊則能自動生成雙耳立體聲，實現口型同步與背景音效的精準匹配。更引人注目的是其"導演模式"，用戶輸入劇情腳本后，系統可自動完成分鏡設計、運鏡切換與剪輯節奏控制。

在基準測試環節，Seedance 2.0在VBench等主流評測體系中全面領先。論文數據顯示，其在運動質量、語義一致性等核心指標上較同期競品提升顯著，特別是在長視頻生成穩定性與多模態交互精度方面表現突出。目前該技術已通過Byteplus平臺向全球100余個國家的企業客戶開放，提供4-15秒、最高720p分辨率的視頻生成服務，但美國市場暫未納入首批開放名單。

團隊架構方面，論文披露的170人名單顯示，與前代197人團隊相比，核心成員經歷近半數更替。其中基礎研究負責人吳永輝持續擔任技術決策者，直接向CEO匯報；預訓練模塊負責人曾妍駐扎美國帕洛阿爾托，主導核心技術路線執行。值得注意的是，團隊在薪資結構上采用"現金+字節期權+豆包期權"的復合模式，期權四年全部歸屬。針對近期傳聞的"億元年薪挖角"事件，抖音副總裁李亮回應稱薪資體系統一，但承認優秀技術人員若業務達標，四年后期權收益可能達數億元級別。

此次技術發布與商業化落地同步推進，顯示出字節跳動在AI視頻生成領域的雙重布局。論文中展示的26頁測試數據與實際應用案例，既是對技術實力的證明，也為行業提供了多模態生成的新參考標準。隨著團隊架構的持續優化與薪酬激勵機制的公開，這場AI技術競賽正從單純的產品比拼，延伸至人才儲備與生態建設的深層較量。

更多>同類內容