在多模態任務中,視覺語言模型(VLMs)起著至關重要的作用,如圖像檢索、圖像說明和醫學診斷等。這些模型的目標是將視覺數據與語言數據進行對齊,以實現更高效的信息處理。然而,目前的 VLMs 在理解否定方面仍面臨重大挑戰。
否定在許多應用中至關重要,例如區分 “沒有窗戶的房間” 和 “有窗戶的房間”。盡管 VLMs 取得了顯著進展,但在處理否定陳述時,現有模型的表現卻大幅下降。這種限制尤其在安全監控和醫療保健等高風險領域中顯得尤為重要。
現有的 VLMs,如 CLIP,采用共享嵌入空間來對齊視覺和文本表示。雖然這些模型在跨模態檢索和圖像說明等任務上表現出色,但在處理否定語句時卻顯得力不從心。此問題的根源在于預訓練數據的偏差,訓練數據主要由肯定示例構成,導致模型將否定與肯定陳述視為同義。因此,現有的基準測試,如 CREPE 和 CC-Neg,采用了簡單的模板示例,無法真實反映自然語言中否定的豐富性和深度。這使得 VLMs 在進行精準的語言理解應用時,如查詢醫學影像數據庫中的復雜條件,面臨巨大挑戰。
為了解決這些問題,來自麻省理工學院、谷歌 DeepMind 和牛津大學的研究人員提出了 NegBench 框架,用于評估和改進 VLMs 對否定的理解能力。該框架評估兩個基本任務:檢索與否定(Retrieval-Neg),檢驗模型根據肯定和否定描述檢索圖像的能力;多項選擇題與否定(MCQ-Neg),評估模型在微妙理解上的表現。NegBench 使用大量合成數據集,如 CC12M-NegCap 和 CC12M-NegMCQ,包含數百萬個涵蓋豐富否定場景的標題,從而提高模型的訓練和評估效果。
通過結合真實和合成的數據集,NegBench 有效克服了現有模型的限制,顯著提高了模型的性能和泛化能力。經過微調的模型在檢索和理解任務上都表現出顯著改善,特別是在處理否定查詢時,模型的召回率提高了10%。在多項選擇任務中,準確率提升了多達40%,顯示出在微妙的肯定和否定標題之間進行區分的能力大大增強。
NegBench 的提出,填補了 VLMs 在理解否定方面的關鍵空白,為構建更強大的人工智能系統鋪平了道路,尤其在醫學診斷和語義內容檢索等關鍵領域具有重要意義。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。