在CVPR2024上,美國英特爾研究院的蔡志鵬博士及其團隊提出了一種名為L-MAGIC(Language Model Assisted Generation of Images with Coherence)的新技術。這項技術通過結合語言模型和圖像擴散模型,實現了高質量、多模態、零樣本泛化的360度場景生成。
核心特點:
結合語言模型和擴散模型:L-MAGIC利用自然圖像連接不同模態的輸入,并通過條件擴散模型如ControlNet從各種模態輸入生成自然圖像。
迭代變形和填充:在獲得自然圖像后,L-MAGIC通過迭代變形(warping)和填充(inpainting)生成360度場景的多個視角,使用基于擴散的圖像填充模型(如Stable Diffusion v2)生成缺失像素。
語言模型控制:L-MAGIC使用語言模型自動控制擴散模型,根據每個視角需要生成的場景內容,有效保持語言及擴散模型的泛化性。
多樣化場景生成:L-MAGIC能夠生成多樣化的全局場景結構,無需微調,從而實現多樣化場景的高質量生成。
多模態輸入:除了自然圖像,L-MAGIC還能接受文字、手繪草圖、深度圖等多種模態的輸入。
實驗結果表明:
L-MAGIC在圖像到360度場景生成及文字到360度場景生成任務中均達到了SOTA(State of the Art)。
能夠生成具有多樣化360度場景結構的全景圖,并且能夠平滑地完成360度閉環。
除了文字和自然圖像,L-MAGIC還能夠使用ControlNet接受多樣化的輸入,如深度圖、設計草圖等。
技術應用:
L-MAGIC還能夠利用深度估計模型生成場景的沉浸式視頻和三維點云,為場景理解和可視化提供了更多可能性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。