近日,摩根大通推出了DocLLM,這是一種為多模態(tài)文檔理解而設(shè)計的生成式語言模型。DocLLM作為LLM的輕量級擴(kuò)展,用于分析企業(yè)文檔,涵蓋了形式、發(fā)票、報告、合同等在文本和空間模態(tài)交匯處具有復(fù)雜語義的文檔。
與現(xiàn)有的多模態(tài)LLM不同,DocLLM策略性地避免了昂貴的圖像編碼器,專注于邊界框信息,以融入空間布局結(jié)構(gòu)。該模型引入了一個分離的空間注意機(jī)制,通過將經(jīng)典變壓器中的注意機(jī)制分解為一組分離的矩陣。
DocLLM通過采用一個以學(xué)習(xí)填充文本片段為重點的預(yù)訓(xùn)練目標(biāo),來處理視覺文檔中的不規(guī)則布局和異構(gòu)內(nèi)容。
該模型具有一個分離的空間注意機(jī)制,促進(jìn)文本和布局模態(tài)之間的交叉對齊,以及一個擅長有效處理不規(guī)則布局的填充預(yù)訓(xùn)練目標(biāo)。
在預(yù)訓(xùn)練DocLLM時,數(shù)據(jù)來自兩個主要來源:IIT-CDIP測試集1.0和DocBank。前者包括與上世紀(jì)90年代煙草行業(yè)的法律訴訟相關(guān)的500多萬份文件,而后者包括50萬份具有獨(dú)特布局的文件。
對各種文檔智能任務(wù)進(jìn)行廣泛評估顯示,DocLLM在16個已知數(shù)據(jù)集中有14個的性能優(yōu)越于最先進(jìn)的LLM。該模型在4個設(shè)置中對先前未見數(shù)據(jù)集的強(qiáng)大泛化能力表現(xiàn)出色。
可見,未來摩根大通將以輕量級方式將視覺融入DocLLM,并進(jìn)一步增強(qiáng)其能力的承諾。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。