百度近日正式推出并上線了其原生全模態大模型文心5.0,標志著人工智能領域又一重要突破。該模型擁有高達2.4萬億的參數規模,通過原生全模態統一建模技術,實現了對文本、圖像、音頻、視頻等多種信息形式的全面理解與生成能力。這一創新技術路線,與業界普遍采用的“后期融合”方案截然不同,它采用統一的自回歸架構,將多源數據在同一模型框架內聯合訓練,從而促進了多模態特征的深度融合與協同優化。
據百度集團副總裁吳甜介紹,文心5.0不僅在技術上實現了重大突破,更在應用層面展現出巨大潛力。其超大規模混合專家結構及超稀疏激活參數設計,使得模型在保持強大能力的同時,推理效率得到顯著提升。通過大規模工具環境合成長程任務軌跡數據,并采用端到端多輪強化學習訓練,文心5.0的智能體和工具調用能力也得到了顯著增強。
在應用層面,文心5.0已經展現出其廣泛適用性。個人用戶現在可以通過文心APP和文心一言官網體驗這一先進模型,而企業與開發者則可通過百度千帆平臺進行調用。在權威基準的綜合評測中,文心5.0的語言與多模態理解能力超越了Gemini-2.5-Pro、GPT-5-High等國際知名模型,穩居國際第一梯隊。其圖像與視頻生成能力也與垂直領域專精模型相當,整體處于全球領先水平。
百度應用模型研發部負責人賈磊在分享中強調,應用模型的價值在于其實際應用效果。他介紹了基于文心基礎大模型構建的矩陣模型和專精模型,這些模型分別面向產品級應用和通用場景、行業應用和垂直場景,實現了快速落地和高效應用。其中,矩陣模型包括文心Lite模型、視頻大模型和語音大模型,而專精模型則涵蓋搜索閃電專精模型、電商蒸汽機模型、文心數字人大模型及行業大模型等。
賈磊還詳細介紹了三項技術突破:基于聲音Token的端到端合成大模型、5分鐘超越真人的直播技術以及實時交互數字人技術。這些技術不僅提升了語音合成的自然度和表現力,還使得直播帶貨和數字人交互更加生動和高效。例如,基于聲音Token的端到端合成大模型通過離散表示定義token,以MoE大語言模型建模韻律,實現了高質量的聲音合成;而實時交互數字人技術則采用三態Token聯動架構,實現了文本、語音、視頻的流式控制,具有低延遲、低成本和高表現力的特點。
在推動大模型落地產業方面,百度千帆平臺發揮了重要作用。該平臺產品負責人張婷介紹,千帆專為行業落地打造的Agent Infra提供了包括文心5.0及全場景150+SOAT模型服務在內的豐富資源,并集成了眾多工具及MCP和Agent工具鏈。結合數據管理和企業級服務,千帆平臺能夠為企業提供全周期、穩定支持多場景業務的運行環境,顯著降低企業Agent創新門檻。目前,千帆平臺上已累計開發超130萬個Agents,以百度獨家能力“百度AI搜索”為代表的工具日均調用量已突破千萬次。
隨著全球AI行業的快速發展,如何將AI技術應用于真實世界與行業,從而進一步產生價值,成為行業探索的重要方向。作為國內最早發布大模型的企業之一,百度正基于其多年積累的技術實力,形成以芯片為底座、智能云為平臺框架、以模型支撐各類智能體應用的“芯云模體”全棧自研生態閉環。這一生態閉環的構建,將持續推動AI技術在各行業的廣泛應用和深入發展。





















