1月22日,百度正式推出并上線了其原生全模態大模型——文心5.0正式版。這一模型擁有高達2.4萬億的參數規模,采用原生全模態統一建模技術,能夠實現對文本、圖像、音頻、視頻等多種信息形式的全面理解與生成。目前,個人用戶可通過文心APP或文心一言官網體驗該模型,而企業與開發者則可通過百度千帆平臺進行調用。
在權威基準的綜合評測中,文心5.0正式版展現了卓越的性能。其語言與多模態理解能力超越了Gemini-2.5-Pro、GPT-5-High等國際知名模型,穩居國際第一梯隊。同時,該模型的圖像與視頻生成能力也達到了垂直領域專精模型的水平,整體處于全球領先地位。此前,百度文心助手的月活躍用戶數已突破2億大關。
百度集團副總裁吳甜介紹,文心5.0的技術路線與業界普遍采用的“后期融合”多模態方案截然不同。它采用統一的自回歸架構進行原生全模態建模,將文本、圖像、視頻、音頻等多源數據在同一模型框架中進行聯合訓練。這種設計使得多模態特征在統一架構下充分融合并協同優化,實現了原生的全模態統一理解與生成,避免了傳統方法中的拼接和轉譯問題。
文心5.0還采用了超大規模混合專家結構,具備超稀疏激活參數,激活參數比低于3%。這一設計在保持模型強大能力的同時,有效提升了推理效率。該模型還基于大規模工具環境合成長程任務軌跡數據,并采用基于思維鏈和行動鏈的端到端多輪強化學習訓練,顯著提升了模型的智能體和工具調用能力。
在應用層面,百度應用模型研發部負責人賈磊強調,模型的價值在于應用而非模型本身。他希望文心模型能夠在真實應用場景中“跑得穩、答得對、用得起”。基于文心基礎大模型,百度構建了矩陣模型和專精模型兩大體系。矩陣模型面向產品級應用和通用場景快速落地,包括文心Lite模型、視頻大模型和語音大模型;專精模型則面向行業應用和垂直場景,如搜索閃電專精模型、電商蒸汽機模型、文心數字人大模型及行業大模型等。
賈磊還分享了三項技術突破:基于聲音Token的端到端合成大模型、5分鐘超越真人的直播技術以及實時交互數字人技術。其中,基于聲音Token的端到端合成大模型通過離散表示定義token,以MoE大語言模型建模韻律,實現了高質量的聲音合成。5分鐘超越真人的直播技術則通過對目標音色的少量采樣和臉譜化妝,結合檢索增強匹配不同文體和場景的韻律模式,使合成語音具備直播帶貨所需的情緒、節奏與感染力。實時交互數字人技術則采用三態Token聯動架構,實現文本、語音、視頻的流式控制,具有低延遲、低成本和高表現力的特點。
在模型應用賦能行業的背后,是百度基于多年積累的全棧自研實力。百度打通了“芯云模體”的全鏈技術架構,為模型應用提供了堅實的技術支撐。在文心Moment大會當天,百度千帆平臺產品負責人張婷詳細介紹了千帆專為行業落地打造的Agent Infra。該平臺提供包括文心5.0及全場景150+SOAT模型服務,集成眾多工具及MCP和Agent工具鏈,并結合數據管理和企業級服務,為企業提供全周期、穩定支持多場景業務的運行環境,顯著降低了企業Agent創新門檻。
目前,千帆平臺上已累計開發超130萬個Agents,以百度獨家能力“百度AI搜索”為代表的工具日均調用量已突破千萬次。基于強大的原生全模態統一建模技術和海量算力,文心5.0已具備讓AI應用走進真實行業與復雜場景、提供更高效解決方案的能力。作為國內最早發布大模型的企業之一,百度正持續探索賦能行業的AI解決方案,形成以芯片為底座、智能云為平臺框架、以模型支撐各類智能體應用的“芯云模體”全棧自研生態閉環。





















