2.4萬億參數加持！文心5.0原生全模態大模型上線，引領AI應用新變革

發布時間：2026-01-23 03:02 來源：快訊作者：李娜

百度近日正式推出并上線了其原生全模態大模型文心5.0，標志著人工智能領域又一重要突破。該模型擁有高達2.4萬億的參數規模，通過原生全模態統一建模技術，實現了對文本、圖像、音頻、視頻等多種信息形式的全面理解與生成能力。這一創新技術路線，與業界普遍采用的“后期融合”方案截然不同，它采用統一的自回歸架構，將多源數據在同一模型框架內聯合訓練，從而促進了多模態特征的深度融合與協同優化。

據百度集團副總裁吳甜介紹，文心5.0不僅在技術上實現了重大突破，更在應用層面展現出巨大潛力。其超大規模混合專家結構及超稀疏激活參數設計，使得模型在保持強大能力的同時，推理效率得到顯著提升。通過大規模工具環境合成長程任務軌跡數據，并采用端到端多輪強化學習訓練，文心5.0的智能體和工具調用能力也得到了顯著增強。

在應用層面，文心5.0已經展現出其廣泛適用性。個人用戶現在可以通過文心APP和文心一言官網體驗這一先進模型，而企業與開發者則可通過百度千帆平臺進行調用。在權威基準的綜合評測中，文心5.0的語言與多模態理解能力超越了Gemini-2.5-Pro、GPT-5-High等國際知名模型，穩居國際第一梯隊。其圖像與視頻生成能力也與垂直領域專精模型相當，整體處于全球領先水平。

百度應用模型研發部負責人賈磊在分享中強調，應用模型的價值在于其實際應用效果。他介紹了基于文心基礎大模型構建的矩陣模型和專精模型，這些模型分別面向產品級應用和通用場景、行業應用和垂直場景，實現了快速落地和高效應用。其中，矩陣模型包括文心Lite模型、視頻大模型和語音大模型，而專精模型則涵蓋搜索閃電專精模型、電商蒸汽機模型、文心數字人大模型及行業大模型等。

賈磊還詳細介紹了三項技術突破：基于聲音Token的端到端合成大模型、5分鐘超越真人的直播技術以及實時交互數字人技術。這些技術不僅提升了語音合成的自然度和表現力，還使得直播帶貨和數字人交互更加生動和高效。例如，基于聲音Token的端到端合成大模型通過離散表示定義token，以MoE大語言模型建模韻律，實現了高質量的聲音合成；而實時交互數字人技術則采用三態Token聯動架構，實現了文本、語音、視頻的流式控制，具有低延遲、低成本和高表現力的特點。

在推動大模型落地產業方面，百度千帆平臺發揮了重要作用。該平臺產品負責人張婷介紹，千帆專為行業落地打造的Agent Infra提供了包括文心5.0及全場景150+SOAT模型服務在內的豐富資源，并集成了眾多工具及MCP和Agent工具鏈。結合數據管理和企業級服務，千帆平臺能夠為企業提供全周期、穩定支持多場景業務的運行環境，顯著降低企業Agent創新門檻。目前，千帆平臺上已累計開發超130萬個Agents，以百度獨家能力“百度AI搜索”為代表的工具日均調用量已突破千萬次。

隨著全球AI行業的快速發展，如何將AI技術應用于真實世界與行業，從而進一步產生價值，成為行業探索的重要方向。作為國內最早發布大模型的企業之一，百度正基于其多年積累的技術實力，形成以芯片為底座、智能云為平臺框架、以模型支撐各類智能體應用的“芯云模體”全棧自研生態閉環。這一生態閉環的構建，將持續推動AI技術在各行業的廣泛應用和深入發展。

更多>同類內容