序言背景 - 索拉和穩定擴散3
最近,在同一時期,兩個AI巨頭Openai和穩定性分別發布了他們的新作品-Sora [1]和穩定的擴散3 [2]。令人驚訝的是,這兩家公司的研究團隊采用了擴散變壓器體系結構。術語擴散變壓器并不熟悉它。當DIT [3]首次掛起Arxiv時,我只是在潛意識中以為這項工作只是擴散模型家族的額外選擇,而我對此并沒有太多關注。但是今天,我們回顧了Sora和穩定擴散的兩個熱門話題的擴散變壓器3。AI巨頭的動作為我們提供了一些靈感。
一些偏僻的單詞 - 我的一些早期隨機想法
在穩定擴散進入公眾眼前之前,我仍然對擴散模型有一個嚴肅的刻板印象,他認為擴散模型只是一個充滿“學術風格”的模型。我特別記得,為了嘗試DDPM對測試集的效果,我會盡快閱讀DDPM紙,并下載模型,調試并一口氣準備好測試集。結果,我發現需要幾分鐘的時間來拍攝一張照片,這使我感到不知所措。
在CVPR接受穩定的擴散[4]之后,我開始再次提高對擴散模型的看法,但是當時我對基于馴服變壓器,Maskgit和Muse代表的技術的技術更加樂觀。這主要是因為自2017年以來,變壓器對計算機視覺社區的影響已經滲透到各個子場中,并且在無意中確定了變壓器的位置。后來,Chatgpt的出現進一步固定了變壓器的狀態,我什至開始富有想象力:變形金剛在自然語言處理領域取得了巨大的成功。基于變壓器即將到來的多模式統一的時代是否即將到來?從今天開始,這個問題確實很棒,但是足以證明變形金剛確實值得。
預知
那么,所謂的擴散變壓器到底是什么?為了易于理解,有必要在引入它之前了解其一些先發制人的知識。顧名思義,可以簡單地將擴散變壓器分為:擴散變壓器=擴散 +變壓器。這對應于我們將在下面介紹的主流擴散模型(潛在擴散模型)和變壓器模型。
潛在擴散模型
一些大wig上的其他大wig已經給出了關于什么是擴散模型的詳細說明,您可以自己搜索它們。簡而言之,該模型通過“添加噪聲”來污染圖片的像素,從而了解“去除噪聲”的過程。生成圖片時,模型逐漸將完整的高斯噪聲降低,并逐步恢復,直到模型輸出圖像中的每個像素不再是噪聲,這是我們期望的干凈圖像。
什么是潛在擴散模型?顧名思義,擴散模型消除噪聲的對象已從“像素”變為“隱藏的空間特征”。隱藏的擴散模型分別包括兩個部分
結合了前兩個,我們獲得了隱藏的擴散模型,并使用穩定的擴散模型體系結構呈現最經典:


穩定擴散的模型體系結構圖。紅色區域代表壓縮模型的過程,將圖片轉換為特征。綠色區域代表擴散模型的學習和生成過程。變壓器
Transformer首先用于機器翻譯任務,即完成具有相同長度和長度的句子的翻譯過程,其處理的對象是“ word”(soken)。說到變壓器,我們與之相關的最簡單的事情是它的自我發揮機制,這也很清楚。今天,我們需要更多地關注變壓器模型本身的另一個功能 - 自動回歸(AR)。

變壓器機器翻譯流程圖
Transformer是一種經典的自動回歸模型,就像LSTM一樣。那么什么是自動性?我認為與與Chatgpt的互動結合使用很容易理解。當我們在網絡上與Chatgpt交談時,我們會發現Chatgpt的答復實際上會一個一個一個彈出。換句話說,此過程可以稱為“下一個單詞預測”(在這里借用GPT預培訓方法的陳述以促進理解,兩者本質上是不同的)。
應該注意的是,“單詞”可能是英語中的每個單詞,也可能是用來表示圖像的某種形式,這是一個更廣泛的定義。然后,對于圖像中的單詞,需要與上一篇文章中的壓縮模型結合使用。如前所述,壓縮模型的過程具有準確的損失。特定的損失在于,在壓縮模型將連續圖像處理成特征之后,該圖像需要在特征空間中離散,即最初是小數的像素值將被處理為整數。這樣,確切的值將變得不準確,從而導致準確性喪失。當計算機處理文本時,它實際上會看到一堆整數。為了促進人類的理解,我們人為地建立了一個詞匯,以一種自然語言對應。這個過程稱為令牌。同樣,對于離散圖像功能,我們還可以得到這樣的詞匯,稱為代碼簿,與代碼書相對應的單詞將用作變壓器的輸入并進一步處理。
那么,如果要生成圖像stable是什么意思?怎么讀,變形金剛會怎么做?結合了以前的壓縮模型過程,讓我們以馴服變壓器為例。它首先需要預測一個單詞,然后將此單詞用作下一個預測的“信息”。變形金剛將進一步預測基于此單詞的下一個單詞,然后將上一個單詞(該單詞)發送給變壓器本身,依此類推。最后,直到模型預測的一定數量的單詞之前,這些單詞可以組合成圖片的相應特征,然后從壓縮模型恢復到圖片(像素),我們可以用肉眼識別。
概括
盡管潛在擴散模型和變壓器為人工智能的發展增添了很大的標記,但這些技術也具有固有的缺點。對于擴散模型,自2020年DDPM的誕生以來,連續三年的工作延續了原始的經典U-NET架構,并且仍然依靠網絡結構設計中的早期研究經驗,并有很大的改進空間;始終批評的變壓器是其“錯誤積累”。簡而言之,錯誤擴散來自變壓器“預測下一個單詞”的生成模型。如果之前生成的單詞是錯誤的,那么在生成后續單詞時,模型將“將是錯誤的”,這將導致錯誤的積累。擴散模型從一代范式中避免了這個問題,因為它同時消除了所有像素的噪聲(我們稱此范式為非自動化范圍)。如何同時解決這兩者的缺點已成為一個很好的研究主題。
現在我們既了解擴散模型又了解變壓器,一個自然的想法是:如果我們做“ A+B”怎么辦?如果此“ A+B”可以同時解決上述問題,那么它自然會更好。因此,我們將在下面談論擴散變壓器。
什么是擴散變壓器?

擴散變壓器來自文章“具有變壓器的可擴展擴散模型”。這項工作的作用是通過“ A+B”的想法將隱藏的擴散模型與變壓器結合在一起。我們研究了AI巨人通過研究動機,方法設計和個人思想所青睞擴散變壓器的原因。
研究動機
工作的動機實際上與上一篇文章中描述的擴散模型的缺點一致。基于早期工作經驗,擴散模型仍然有很大改進網絡結構設計的空間。受隱藏空間擴散模型范式的啟發stable是什么意思?怎么讀,這項工作成功地用變壓器取代了擴散模型中的經典U-NET結構。在進一步改善網絡體系結構的復雜性的前提下,它可以顯著提高產生的圖像的質量,并在Imagenet數據集的生成任務上獲得2.27 FID得分(FID分數2.27是標準數據集Imagenet的驚人得分)。
方法設計

擴散變壓器的模型架構圖
總體而言,擴散變壓器(DIT)具有一種特殊的機制,可以添加和denoise圖像,以及強大的變壓器自我發揮機制,以及上一篇文章中提到的變壓器“預測下一個單詞”的特征。給定輸入圖像,DIT首先通過擴散模型的標準噪聲添加過程污染壓縮特征,從而拼接了噪聲結合特征,條件特征和地面真實的相應特征,并將它們輸入變壓器以輸出結果,完成了DIT講道。

DIT訓練過程的示意圖
在訓練過程中,DIT計算標準LSIMPLE = ∥?θ(XT)??T∥22至①和②的擴散損失。同時,DIT還限制了①和③之間的KL差異,以確保預測σ與地面真相分布一致。

對于每個DIT模塊的詳細信息,我們可以在其論文中介紹模型架構圖(從右到左):

修補過程圖

為什么Spade模塊擴散變壓器的模型結構圖?
擴散變壓器的研究動機實際上很簡單。它結合了隱藏擴散模型實現的相對良好的性能效果與變壓器強大的模型體系結構相結合,希望將擴散模型提高到更高的水平。正如Openai和穩定性都選擇了擴散變壓器一樣,這使我考慮了它。實際上,該模型還有其他可用選項,例如Mamba。那么,什么可以使擴散變壓器成為AI巨人的獨特選擇?

穩定擴散3生成包含文本的圖片

Sora壓縮視頻的流程圖


由Sora生成的2K圖像,擴散變壓器擬合的應用
Fit [7]是DIT的隨后延續,來自“ Fit:擴散模型的靈活視覺變壓器”。

擬合與DIT之間的區別
已解決,但沒有完全解決。盡管DIT解決了U -NET問題,但從SORA和穩定擴散3的成功應用來看,擴散變壓器的設計無疑取得了巨大的成功,但與此同時,DIT架構也帶來了由于變壓器的存在,即變壓器的分辨率固定問題,也帶來了新的問題。擬合的誕生是使DIT體系結構能夠應用于任何決議。具體而言,FIT用繩索(繩索,旋轉位置嵌入)替換了DIT的原始位置代碼,并將自我注意力的機制變成了掩蓋的自我注意機制。有趣的是,這項工作的靈感來自一些大型語言模型的工作,并用Swiglu代替了Feed前層中的MLP。無論是在訓練還是測試過程中,FIT都會將輸入擴展到最大長度,并且在生成圖像時,僅采用與分辨率相關的單詞數量,以通過任何分辨率通過擴散變壓器實現圖像生成。

適合模型架構圖Unidiffuser
Unidiffuser [8]是另一個將擴散模型與變壓器結合的工作,從“一個變壓器擬合了大規模的多模式擴散中的所有分布”。
寫完這篇文章后,我在文章開始時就在不知不覺中回應了我對變形金剛的多模式統一性的想象。當我第一次閱讀Zhu Jun老師團隊的Unidiffusers時,我非常了不起。不僅是因為變壓器“真正”統一了模態,而且還通過擴散模型統一了,回憶也很有趣。

Unidiffuser的效果顯示

從上圖中,我們可以看到Unidiffuser不僅可以意識到文本和圖片貝語網校,還可以完成多個任務,例如同時生成文本和圖片,圖像描述,無條件的圖像/文本生成,圖片/文本/文本變化,圖片/文本編輯,圖片插值等,這在很大程度上從一代人的角度實現了多模型的統一性。

擴散器與其他定制擴散器之間差異的示意圖
具體來說,Unidiffuser可以同時以兩種不同的模式,圖片和文本處理數據,總體解決方案只需要稍作更改。在訓練過程中,對于整個Unidiffuser的輸出,我們可以根據經典的擴散損失對其進行重寫,然后GET:EX0,Y0,?X,?Y,TX,TY = ∥?θ(XTX,YTY,YTY,YTY,TX,TY) - [?X,?Y]∥22;在測試過程中,無分類器指導也適用于Unidiffuser架構。就統一模式而言,Unidiffuser有幾個有趣的設計:

Unidiffuser的模型架構圖摘要
Sora和穩定擴散3的到來,無論是在科學研究中還是應用程序實施中,都在2024年為AIGC社區帶來了新的活力。擴散的變壓器作為后起之秀,使每個人都期待它。我想知道今年的擴散變壓器是否會再次顛覆AIGC范式,例如2022年的穩定擴散。當我撰寫本文時,我在編寫它時變得越來越好奇。
參考
1.^Video?Generation?Models?as?World?Simulators?https://openai.com/research/video-generation-models-as-world-simulators
2.^Stable?Diffusion?3?https://stability.ai/news/stable-diffusion-3
3.^Scalable?Diffusion?Models?with?Transformers?https://arxiv.org/abs/2212.09748
4.^High-Resolution?Image?Synthesis?with?Latent?Diffusion?Models?https://arxiv.org/abs/2112.10752
5.^Taming?Transformer?for?High-Resolution?Image?Synthesis?https://arxiv.org/abs/2012.09841
6.^Semantic?Image?Synthesis?with?Spatially-Adaptive?Normalization?https://arxiv.org/abs/1903.07291
7.^FiT:?Flexible?Vision?Transformer?for?Diffusion?Model?https://arxiv.org/abs/2402.12376
8.^One?Transformer?Fits?All?Distributions?in?Multi-Modal?Diffusion?at?Scale?https://arxiv.org/abs/2303.06555
9.^All?are?Worth?Words:?A?ViT?Backbone?for?Diffusion?Models?https://arxiv.org/abs/2209.12152