巨人財經 - 專業科技行業財經媒體

HiMo-CLIP來襲:讓AI精準捕捉長文本關鍵,圖像檢索準確率大幅提升

   發布時間:2025-12-03 06:00 作者:趙磊

在圖像檢索領域,傳統模型處理復雜文本描述時常常力不從心。以CLIP為代表的現有技術面對"白色福特F250皮卡配備有色車窗和超大輪胎"這類包含多個細節的查詢時,往往難以精準匹配目標圖像。這種"描述越詳細匹配越差"的現象,成為制約技術發展的關鍵瓶頸。

中國聯通數據科學與人工智能研究院團隊推出的HiMo-CLIP模型,通過創新性的動態語義指紋技術破解了這一難題。該模型搭載的HiDe模塊采用統計學方法,能在海量文本中自動識別最具區分度的特征。例如在汽車檢索場景中,系統會優先捕捉"超大輪胎"這類核心特征,而非泛化的"有色車窗"描述,使匹配準確率提升至89.3%。

研發團隊設計的MoLo損失機制構建了雙重保障體系,既確保整體語義匹配,又強化核心特征對齊。這種設計使模型在處理長文本時得分隨信息量增加而提升,徹底改變了"多說多錯"的行業痛點。在MSCOCO-Long測試集上,新模型的mAP指標較前代提升近20%,同時在Flickr30K短文本測試中保持98.3%的原始性能。

技術落地應用已顯現顯著成效。京東商品搜索系統接入該模型后,用戶使用"黑色連帽衛衣帶白色抽繩和刺繡logo"等復雜描述時,搜索轉化率提升27%。自動駕駛領域正探索將其用于解析"前方施工區域有黃色警示牌和穿橙色背心的工人"等場景描述,幫助車載系統更精準識別環境要素。

這個開源項目在GitHub上線半年即獲得2.3k星標,字節跳動、商湯科技等企業已開展技術驗證。當前版本在處理"碳纖維車身包圍"等專業術語時仍存在局限,研發團隊計劃2026年第三季度推出多語言版本,屆時將支持外語描述的精準匹配。該成果標志著中國團隊在AI基礎研究領域取得重要突破,其模擬人類認知邏輯的創新思路,為多模態智能發展提供了新方向。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新