科技日報記者 崔爽
來自Google的Gemini 3模型掀起新一輪的多模態(tài)技術浪潮,“讀圖”與“長文本理解”成為衡量AI智商的重要標準。然而,作為連接圖像與文本的“橋梁”,傳統(tǒng)的CLIP(對比語言-圖像預訓練)模型在面對復雜、多細節(jié)的長文本描述時卻常出現(xiàn)一個問題:描述越豐富,圖文匹配反而越差。
近日,中國聯(lián)通數(shù)據(jù)科學與人工智能研究院在這一領域取得重要進展,提出全新視覺語言對齊框架HiMo-CLIP,通過創(chuàng)新性建模語義層級與單調性,在不修改編碼器架構的前提下,實現(xiàn)了長文本、短文本場景的全維度性能突破。相關論文已入選國際權威人工智能會議AAAI 2026 Oral。
據(jù)介紹,傳統(tǒng)CLIP模型在處理文本時,往往把句子當作“一鍋粥”,不能在復雜的上下文中捕捉到最具區(qū)分度的特征。這將導致兩個典型問題:語義層級和語義單調性的缺失。
為了讓AI“越來越懂”,HiMo-CLIP提出兩個核心組件,即層次化解構(HiDe)、單調性感知對比損失(MoLo),讓模型具備了“分層理解”和“越詳細越匹配”的能力。
HiMo-CLIP的提出標志著多模態(tài)學習從“扁平化”向“結構化”的重要轉變。正如論文中所說:“對齊跨模態(tài)表示的多個語義抽象層次,對符合認知的視覺-語言理解至關重要。”這一突破不僅提升了長文本檢索性能,更為AI系統(tǒng)理解人類語言的豐富層次結構鋪平了道路,讓機器真正“看懂”我們描述的世界。
據(jù)了解,中國聯(lián)通數(shù)據(jù)科學與人工智能研究院將持續(xù)深化多模態(tài)對齊技術的創(chuàng)新與應用,攻克多模態(tài)理解中復雜語義結構建模的關鍵環(huán)節(jié),讓具備認知一致性的AI模型在智能客服、醫(yī)療影像分析等更多場景中發(fā)揮核心價值,推動多模態(tài)智能技術向更智能、更可靠、更貼近人類認知的方向發(fā)展。