瑞士聯(lián)邦理工學(xué)院(EPFL)與蘋果的研究人員合作開發(fā)的4M框架在人工智能領(lǐng)域引起了廣泛關(guān)注。該框架的核心目標(biāo)是訓(xùn)練多模態(tài)基礎(chǔ)模型,能夠跨足多個模態(tài)和任務(wù),以提高視覺處理的可伸縮性和多樣性。在自然語言處理領(lǐng)域,大型語言模型(LLMs)的訓(xùn)練已經(jīng)變得流行,但在視覺領(lǐng)域,仍然需要創(chuàng)建同樣靈活和可擴(kuò)展的模型。為了克服這些障礙,研究團(tuán)隊提出了一種訓(xùn)練單一Transformer編碼器-解碼器的策略,該策略使用了一種名為“Massively Multimodal Masked Modeling”(4M)的方法。
該方法通過結(jié)合遮蔽建模和多模態(tài)學(xué)習(xí)的優(yōu)點,實現(xiàn)了強大的跨模態(tài)預(yù)測編碼能力和共享場景表示。4M通過使用模態(tài)特定的分詞器,能夠?qū)⒉煌袷降妮斎朕D(zhuǎn)換成集合或序列的標(biāo)記,從而使單一Transformer可以用于文本、邊界框、圖片或神經(jīng)網(wǎng)絡(luò)特征等各種模態(tài)的訓(xùn)練。這種標(biāo)記化的方法不僅提高了模型的兼容性和可伸縮性,還避免了使用任務(wù)特定的編碼器和頭部,使得Transformer能夠在任何模態(tài)下保持完全參數(shù)共享。
值得注意的是,4M框架在訓(xùn)練效率方面也取得了成功。它通過利用輸入和目標(biāo)遮蔽,即從所有模態(tài)中隨機選擇少量標(biāo)記作為模型輸入和另一組作為目標(biāo),實現(xiàn)了對大量模態(tài)的高效訓(xùn)練目標(biāo)。這種策略在防止計算成本隨模態(tài)數(shù)量增加而急劇增加的同時,還允許在不同和大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,而無需多模態(tài)/多任務(wù)注釋。
總的來說,4M框架通過使用多模態(tài)遮蔽建模目標(biāo),實現(xiàn)了可控生成模型的訓(xùn)練,這使得模型能夠根據(jù)任何模態(tài)進(jìn)行條件化。這為用戶意圖的多樣表達(dá)和各種多模態(tài)編輯任務(wù)提供了可能。通過對4M框架性能的深入分析,研究團(tuán)隊展示了其在許多視覺任務(wù)和未來發(fā)展中的巨大潛力。這一研究不僅對于提高視覺處理模型的靈活性和性能至關(guān)重要,也為人工智能領(lǐng)域的未來發(fā)展提供了有益的啟示。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。