HiMo-CLIP來襲：讓AI精準捕捉長文本關鍵，圖像檢索準確率大幅提升

發布時間：2025-12-03 06:00 來源：快訊作者：趙磊

在圖像檢索領域，傳統模型處理復雜文本描述時常常力不從心。以CLIP為代表的現有技術面對"白色福特F250皮卡配備有色車窗和超大輪胎"這類包含多個細節的查詢時，往往難以精準匹配目標圖像。這種"描述越詳細匹配越差"的現象，成為制約技術發展的關鍵瓶頸。

中國聯通數據科學與人工智能研究院團隊推出的HiMo-CLIP模型，通過創新性的動態語義指紋技術破解了這一難題。該模型搭載的HiDe模塊采用統計學方法，能在海量文本中自動識別最具區分度的特征。例如在汽車檢索場景中，系統會優先捕捉"超大輪胎"這類核心特征，而非泛化的"有色車窗"描述，使匹配準確率提升至89.3%。

研發團隊設計的MoLo損失機制構建了雙重保障體系，既確保整體語義匹配，又強化核心特征對齊。這種設計使模型在處理長文本時得分隨信息量增加而提升，徹底改變了"多說多錯"的行業痛點。在MSCOCO-Long測試集上，新模型的mAP指標較前代提升近20%，同時在Flickr30K短文本測試中保持98.3%的原始性能。

技術落地應用已顯現顯著成效。京東商品搜索系統接入該模型后，用戶使用"黑色連帽衛衣帶白色抽繩和刺繡logo"等復雜描述時，搜索轉化率提升27%。自動駕駛領域正探索將其用于解析"前方施工區域有黃色警示牌和穿橙色背心的工人"等場景描述，幫助車載系統更精準識別環境要素。

這個開源項目在GitHub上線半年即獲得2.3k星標，字節跳動、商湯科技等企業已開展技術驗證。當前版本在處理"碳纖維車身包圍"等專業術語時仍存在局限，研發團隊計劃2026年第三季度推出多語言版本，屆時將支持外語描述的精準匹配。該成果標志著中國團隊在AI基礎研究領域取得重要突破，其模擬人類認知邏輯的創新思路，為多模態智能發展提供了新方向。

更多>同類內容