百度文心Moment大會啟幕文心5.0正式版上線引領AI應用新突破

發布時間：2026-01-23 03:55 來源：快訊作者：趙云飛

百度近日正式推出并上線了其原生全模態大模型文心5.0，標志著人工智能技術邁向新的里程碑。這款模型擁有高達2.4萬億的參數規模，采用創新的原生全模態統一建模技術，能夠同時處理文本、圖像、音頻和視頻等多種信息形式，實現了跨模態的深度理解與生成能力。

與市場上常見的“后期融合”多模態方案不同，文心5.0通過統一的自回歸架構，將不同模態的數據在同一模型框架內進行聯合訓練。這種技術路線使得多模態特征能夠在統一架構下充分融合，從而實現了原生的全模態理解與生成能力。在權威基準評測中，文心5.0的語言與多模態理解能力已超越Gemini-2.5-Pro、GPT-5-High等國際領先模型，穩居全球第一梯隊。

文心5.0不僅在技術上取得突破，還在模型效率上進行了優化。其采用超大規模混合專家結構，激活參數比低于3%，在保持強大能力的同時顯著提升了推理效率。通過大規模工具環境合成長程任務軌跡數據，并采用端到端多輪強化學習訓練，模型的智能體和工具調用能力得到顯著提升。

在應用層面，百度構建了以文心基礎大模型為核心的矩陣模型和專精模型體系。矩陣模型面向通用場景快速落地，包括文心Lite模型、視頻大模型和語音大模型；專精模型則針對行業應用和垂直場景，如搜索閃電專精模型、電商蒸汽機模型等。這些模型共同構成了百度AI應用的生態閉環。

百度應用模型研發部負責人賈磊在發布會上分享了文心應用模型的最新進展。他強調，模型的價值在于應用，而非模型本身。百度致力于讓模型在真實場景中“跑得穩、答得對、用得起”。為此，百度推出了三項技術突破：基于聲音Token的端到端合成大模型、5分鐘超越真人的直播技術，以及實時交互數字人技術。

其中，實時交互數字人技術采用三態Token聯動架構，實現了文本、語音、視頻的流式控制。這一技術突破了傳統數字人三個模態串聯的制作模式，通過系統自動完成動作銜接、編排與狀態重組，并由聲音Token實時驅動表情與口型，輸出三態合一的視頻流。百度羅永浩數字人便是基于這項技術開發，具有低延遲、低成本和高表現力的特點。

為了推動大模型在產業中的落地，百度千帆平臺提供了全周期、穩定支持多場景業務的運行環境。平臺集成文心5.0及全場景150+SOAT模型服務，并配備百度AI搜索等工具及MCP和Agent工具鏈，結合數據管理和企業級服務，顯著降低了企業Agent創新門檻。目前，千帆平臺上已累計開發超130萬個Agents，工具日均調用量突破千萬次。

百度憑借其“芯云模體”全棧自研生態閉環，正持續探索AI賦能行業的解決方案。從芯片到智能云，再到模型支撐的各類智能體應用，百度正以技術實力推動AI在真實世界與行業中的廣泛應用。

更多>同類內容