APE 是一種全開源的多模態(tài)分割模型,其獨(dú)特之處在于采用了獨(dú)立建模每個(gè)類別名實(shí)例的方法。以往的方法通常將多個(gè)類別名聯(lián)結(jié)成一個(gè)單獨(dú)的 Prompt,但 APE 通過對每個(gè)類別名或描述短語進(jìn)行獨(dú)立建模,可以學(xué)習(xí)到不同實(shí)例之間的差異。此外,APE 還通過壓縮 Word-Level Embeddings 為 Sentence-Level Embeddings 來減少計(jì)算復(fù)雜度和內(nèi)存消耗,從而有效地表達(dá)語義信息。
APE 采用了不同的特征融合方式來處理不同類型的 Prompt。對于純類別名的文本特征,采用一種 “zero” 文本 token 作為替代,以避免過擬合問題。而對于語言描述的文本特征,采用特定的融合方式將其與視覺特征進(jìn)行語義級的理解。此外,APE 還通過矩陣乘法計(jì)算 Object Embeddings 和 Prompt Embeddings 之間的相似度,從而實(shí)現(xiàn)一次性檢測和分割。
APE 還通過統(tǒng)一前景和背景粒度來提高分割效果。在分割任務(wù)中,前景和背景的粒度是不同的,但傳統(tǒng)方法往往面臨前背景沖突的問題。為此,APE 提出統(tǒng)一前景和背景的粒度,將背景的不同塊視為獨(dú)立的標(biāo)簽,從而使模型可以采用統(tǒng)一的架構(gòu)訓(xùn)練前景和背景數(shù)據(jù),并方便地融入大規(guī)模的 Class-Agnostic 數(shù)據(jù)。
APE 在各個(gè)檢測、分割和指向性檢測數(shù)據(jù)集上都取得了強(qiáng)力結(jié)果。特別是在 D3數(shù)據(jù)集上,APE 的表現(xiàn)顯著優(yōu)于其他方法。在開集檢測任務(wù)中,APE 在常見數(shù)據(jù)集上的效果也明顯優(yōu)于其他方法。此外,APE 還在開集分割任務(wù)和視覺定位任務(wù)上取得了競爭性的結(jié)果,在 RoboFlow100和 ODinW 評測基準(zhǔn)上取得了新的 SOTA。
APE 是一種非常有潛力的多模態(tài)分割模型,具有廣泛的應(yīng)用前景。通過獨(dú)立建模每個(gè)類別名實(shí)例、壓縮 Word-Level Embeddings 為 Sentence-Level Embeddings、采用不同的特征融合方式、通過矩陣乘法進(jìn)行 Object Embeddings 和 Prompt Embeddings 之間的相似度計(jì)算以及統(tǒng)一前景和背景粒度,APE 在多個(gè)常見數(shù)據(jù)集上取得了強(qiáng)力的分割效果,并展現(xiàn)出競爭力的結(jié)果。未來的研究可以進(jìn)一步探索 APE 在其他視覺任務(wù)中的應(yīng)用,以及對其方法進(jìn)行優(yōu)化和改進(jìn)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。