字節跳動與中國科學技術大學合作研發的多模態文檔大模型DocPedia已成功突破了分辨率的極限,達到了2560×2560的高分辨率。這一成果是通過研究團隊采用了一種新的方法,解決了現有模型在解析高分辨文檔圖像方面的不足。
在此研究中,提出了DocPedia,一個高分辨率多模態文檔大模型,與業內先進模型相比,其分辨率明顯提高,達到2560×2560,而其他模型的上限僅為336×336,無法解析高分辨率文檔圖像。
DocPedia的性能得到了顯著提升,尤其在關鍵信息抽取和視覺問答方面的能力上。通過論文中的示例展示,DocPedia能夠理解高分辨率文檔圖像和自然場景圖像中的指令內容,并準確提取相關的圖文信息。這包括了從圖像中挖掘車牌號、電腦配置等文本信息,甚至對手寫文字的準確判斷。
結合圖像中的文本信息,DocPedia還可以利用其大模型推理能力,根據上下文分析問題,并回答圖像中沒有展示的擴展內容。
在DocPedia的訓練過程中,研究團隊采用了兩個階段的方法:預訓練和微調。在預訓練階段,大語言模型的視覺編碼器部分被優化,以使其輸出與大語言模型對齊。這一階段主要注重對感知能力的訓練,包括文字和自然場景的感知。微調階段涉及整個模型的端到端優化,并采用感知-理解聯合訓練策略,進一步提高了DocPedia的性能。
特別值得注意的是,DocPedia從頻域的角度出發解決分辨率問題。通過提取高分辨率文檔圖像的DCT系數矩陣,并在不損失圖文信息的前提下進行空間分辨率下采樣,通過級聯的頻域適配器進一步進行分辨率壓縮和特征提取。這種方法在將圖像輸入到視覺編碼器之前,大大減少了token數量,提高了效率。
總體而言,DocPedia在多模態文檔大模型領域取得了顯著的突破,其高分辨率和優化訓練策略使其在各項測試基準上均表現出色。該研究為推動多模態文檔理解領域的發展提供了有力的支持。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。