為了解決人臉身份保存和可編輯性方面的問題,研究人員提供了一個獨特的免優化框架(名為 DreamIdentity)。通過創建一個獨特的多詞多尺度身份編碼器 (M2ID 編碼器),以實現準確的身份表示,并使用自增強的可編輯性學習方法將編輯任務移到訓練階段。他們的方法既保持了身份的一致性,又實現了文本引導的靈活修改,有效實現了身份再語境化。
據了解,傳統的文本到圖像模型可以根據自然語言描述生成與特定人臉身份相關的不同情境的圖像。然而,現有的優化無關方法在保持身份的同時保持模型的可編輯性方面存在困難。
由于基于擴散的大規模文本到圖像 (T2I) 模型,創建視覺材料的學科最近發生了變化。這些 T2I 模型使制作引人入勝、富有表現力且以人為本的圖形變得簡單。這些模型的一個有趣的用途是,它們能夠根據日常生活中特定人的面孔(我們的家人、朋友等),使用自然語言描述生成與身份相關的各種情況。身份重新情境化挑戰與圖1所示的典型 T2I 任務不同,要求模型在遵守文本提示的同時保持輸入面部識別(即 ID 保留)。
為每個人臉身份個性化預訓練的 T2I 模型是一種可行的方法。它需要學習通過增強單詞嵌入或微調模型參數來將特定單詞與本質相關聯。由于每個身份的優化,這些基于優化的方法可能會更有效。為了避免耗時的每個身份優化,各種免優化方法建議直接將從預訓練圖像編碼器(通常是 CLIP)獲得的圖像特征映射到詞嵌入中。然而,這會損害 ID 的保存。因此,這些技術存在損害原始 T2I 模型編輯技能的危險,因為它們要么需要微調預訓練 T2I 模型的參數,要么改變原始結構以注入額外的網格圖像特征。
簡而言之,所有并發的免優化工作都在努力保持身份,同時保持模型的可編輯性。他們認為,兩個問題,即(1)錯誤的身份特征表示和(2)訓練和測試目標不一致,是現有無優化研究中上述困難的根本原因。一方面,目前最好的 CLIP 模型在 top-1人臉識別準確率上仍然比人臉識別模型差很多(80.95% vs.87.61%),這表明所使用的通用編碼器(即 CLIP)通過同時努力不足以完成身份重新情境化工作。此外,CLIP 的最后一層功能主要關注高級語義而不是精確的面部描述, 輸入面部的可編輯性受到使用普通重建目標來學習單詞嵌入的所有并發任務的負面影響。為了解決上述身份保存和可編輯性方面的困難,他們提供了一個獨特的免優化框架(名為 DreamIdentity),具有準確的身份表示和一致的訓練/推理目標。更準確地說,他們在 Vision Transformer 的架構中創建了獨特的多字多尺度 ID 編碼器(M2ID 編碼器),以實現正確的識別表示。該編碼器在相當大的人臉數據集上進行了預訓練,并將多尺度特征投影到多詞嵌入中。
中國科學技術大學和字節跳動的研究人員提出了一種新穎的自我增強可編輯性學習方法,將編輯任務轉移到訓練階段。該方法使用 T2I 模型通過生成名人面孔和各種目標編輯的名人圖像來構建自增強數據集。M2ID 編碼器使用此數據集進行訓練,以提高模型的可編輯性。他們對這項工作做出了以下貢獻:他們認為,由于錯誤的表示和不一致的訓練/推理目標,現有的免優化方法對于 ID 保存和高可編輯性來說是無效的。
從技術上講,(1)他們建議使用 M2ID 編碼器,這是一種具有多重嵌入投影的 ID 感知多尺度特征,用于適當的表示。(2) 它們結合了自我增強的可編輯性學習,使底層 T2I 模型能夠提供高質量的數據集進行編輯,以實現一致的訓練/推理目標。綜合研究證明了他們的方法的有效性,有效地實現了身份保留,同時允許靈活的文本引導修改或身份重新上下文化。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。