百度千帆近日宣布推出全新端到端文檔智能模型Qianfan-OCR,該模型采用統一的視覺語言架構,以40億參數規模實現了文檔解析、版面分析、文字識別與語義理解的一體化融合。在多項權威評測中,該模型展現出顯著優勢,標志著文檔智能技術從多階段流程向統一模型架構的跨越式發展。
在核心基準測試中,Qianfan-OCR表現尤為亮眼。在OmniDocBench v1.5評測中以93.12分位居端到端模型榜首,OCRBench評測成績顯著超越同規模通用視覺語言模型和專用OCR模型。在關鍵信息提取(KIE)領域,該模型在多個公開榜單總分上力壓Google Gemini 3-Pro等國際商用模型,展現出強大的技術競爭力。
針對圖表理解等復雜場景,Qianfan-OCR在ChartQA、ChartBench等6項國際權威評測中斬獲5項最佳成績。其獨特的結構理解與多模態推理能力,能夠精準解析包含復雜表格、混合圖表的文檔內容,在金融報表、科研論文等場景中具有顯著應用價值。
傳統OCR系統普遍采用"檢測-識別-大模型"三段式架構,這種串聯處理方式容易導致誤差累積,且在文本分塊提取過程中會破壞原始文檔的空間結構與視覺上下文。例如復雜表格的行列關系、圖表的坐標對應等關鍵信息,在傳統流程中往往出現理解偏差。
Qianfan-OCR通過底層架構創新,構建了端到端的視覺語言模型。該模型直接從文檔圖像生成結構化輸出,完整保留視覺信息與空間關系,實現從像素到語義的直接映射。這種技術路徑不僅提升了處理效率,更在結構理解與推理任務中達到更高精度,有效解決了傳統方案的固有缺陷。
目前,Qianfan-OCR已在百度千帆平臺全面開放,同時通過HuggingFace開源模型權重。開發者與企業用戶可自由調用該模型,應用于金融、醫療、教育等領域的文檔智能化處理,推動行業數字化轉型進程。




















