Meta最近發(fā)布了一個名為Chameleon的多模態(tài)模型,它在多模態(tài)模型發(fā)展中設立了新的標桿。Chameleon是一個早期融合的基于token的混合模態(tài)模型家族,能夠理解并生成任意順序的圖像和文本。它通過一個統(tǒng)一的Transformer架構,使用文本、圖像和代碼混合模態(tài)完成訓練,并且對圖像進行分詞化,生成交錯的文本和圖像序列。
Chameleon模型的創(chuàng)新之處在于其早期融合方法,所有處理流程從一開始就映射到一個共同的表示空間,讓模型能夠無縫處理文本和圖像。它在各種任務上展示了廣泛的能力,包括視覺問答、圖像標注、文本生成、圖像生成和長形式混合模態(tài)生成。在圖像標注任務上,Chameleon達到了最先進的性能,并且在文本任務上超越了Llama-2,與Mixtral8x7B和Gemini-Pro等模型競爭。
Chameleon模型在技術上面臨了重大挑戰(zhàn),Meta的研究團隊引入了一系列架構創(chuàng)新和訓練技術。例如,他們開發(fā)了新的圖像分詞器,基于8192大小的codebook,將512×512的圖像編碼為1024個離散的token。此外,Chameleon使用了sentencepiece開源庫訓練的BPE分詞器。
在預訓練階段,Chameleon使用了混合模態(tài)數(shù)據(jù),包括純文本、文本-圖像對以及文本和圖像交錯的多模態(tài)文檔。預訓練分為兩個階段,第一階段無監(jiān)督學習,第二階段混合更高質量的數(shù)據(jù)。
Chameleon模型在基準評估中全面超越了Llama2,在常識推理、閱讀理解、數(shù)學問題和世界知識領域都取得了顯著的效果。在人工評估和安全測試中,Chameleon-34B的表現(xiàn)也遠遠超過了Gemini Pro和GPT-4V。
盡管Chameleon缺少GPT-4o中的語音能力,但Meta的產品管理總監(jiān)表示,他們非常自豪能夠支持這個團隊,并希望讓GPT-4o更接近開源社區(qū)。這可能意味著不久的將來,我們可能會得到一個開源版的GPT-4o。
Chameleon模型的發(fā)布,展示了Meta在多模態(tài)模型領域的重大進展,它不僅推動了多模態(tài)模型的發(fā)展,也為未來的研究和應用提供了新的可能性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。