科學也可以如此靠近

史丹福大學「黑盒學習」研究:使用神經變分推理的無向圖模型


2018年1月19日07時 今日科學 雷克世界
雷克世界

圖:UNSPLUSH

原文來源:arXiv

作者:Volodymyr Kuleshov、Stefano Ermon

「雷克世界」編譯:嗯~阿童木呀、多啦A亮

摘要

機器學習中的許多問題可以自然地用無向圖模型的語言表達。在這裡,我們提出了無向模型的黑箱學習和推理算法,優化了模型的對數似然的變分近似。我們的方法的核心是我們表示為靈活神經網絡的函數q參數化配分函數的上限。它在學習過程中使得配分函數成為可能,加速採樣,並通過統一的變分推理框架來訓練各種混合有向/無向模型。我們經驗性地證明了我們的方法在幾個流行的生成建模數據集上的有效性。

介紹

機器學習中的許多問題可以自然地用無向圖模型的語言表達。無向圖模型用於計算機視覺、語音識別、社會科學、深度學習等其他領域。許多基本的機器學習問題都以無向模型為中心,然而,這類分布的推理和學習會帶來很大的計算挑戰。

在這裡,我們嘗試通過針對無向機率圖模型P的新變分推理和學習技術來解決這些挑戰。我們方法的核心是,無向機率模型P的對數劃分函數的上限是由一個近似分布q來表示的,我們表示為一個靈活的神經網絡。當q = p時,我們的界是緊密的,對q感興趣的類在q的參數中是凸的。最有趣的是,它導致了對數似然函數log

p的下限,這使得我們能夠在一個類似於黑盒變分推理的變分框架中擬合無向模型。

我們的方法相比以前的方法有了許多優點。首先,它能夠以黑箱方式訓練無向模型,即我們不需要知道模型的結構來計算梯度估計(例如,如在吉布斯採樣中那樣)。相反,我們的估計只需要評估模型的非標準化機率。在q和p聯合優化時,我們的界也提供了一種在學習過程中跟蹤配分函數的方法。在推理時,從我初始化的MCMC鏈(或者它本身可以提供樣本)的無向模型中,學習的近似分布q可以用來加速採樣。此外,我們的方法自然地集成了最近的有向圖模型的變分推理方法。我們預計我們的方法將在自動化機率推理系統中最為有用。

作為我們如何使用這些方法的一個實例,我們研究了不同類別的混合有向/無向模型,並展示了如何在一個統一的黑箱神經變分推理框架中對它們進行訓練。那些混合模型已經在早期的深度學習文獻中很流行,並從神經科學的原理中獲得靈感。它們對相同數量的變量也具有較高的建模能力。相當有趣的是,我們確定了設置使模型也更容易訓練。

實驗

對近似分布可視化

我們訓練了限玻爾茲曼機(RBM)模型,對q的每一步執行兩個梯度步驟。上圖顯示了混合伯努利q的每個組分的平均分布; 人們可以在其中區分各種數字的形狀。這證實q確實接近於p。

加速無向模型的採樣

模型完成訓練後,我們可以用近似q來初始化一個MCMC採樣鏈。

由於q是p的粗略近似,因此產生的鏈應該混合得更快。為了證實這個想法,我們在隨機初始化的吉布斯(Gibbs)抽樣鏈(頂部)以及從q(底部)樣本初始化的鏈中繪製相鄰圖形樣本。後一種方法在幾個步驟中看起來的數字似乎是可信的,而前者產生樣本是比較模糊的。

相關研究

其實,我們的研究主要啟發於對變分自編碼器和相關模型的黑盒變分推理,其中,涉及對由神經網絡參數化的近似後驗機率進行擬合。而我們的研究為無向模型提供了類似的方法。廣泛應用的無向模型包括受限深度玻爾茲曼機(Restricted and Deep Boltzmann Machines)以及深度信念網絡(Deep Belief

Networks)。而與我們的研究最為接近的就是離散的VAE模型。然而,Rolfe試圖對p(x|z)進行有效的優化,而RBM的先驗p(z)是使用PCD進行優化的。在我們的研究中是使用標準技術來對p(x|z)進行優化的,並且將著重關注p(z)。

更普遍地來講,我們的研究提出了一種替代性方法,可以替代基於採樣的學習方法,而大多數無向模型的變分方法都是以推理為中心的。我們的方法可以擴展到中小型數據集,並且在混合有向/無向生成式模型(hybrid directed-undirected generative

models)中最為有用。它的速度可與PCD方法媲美,並能夠提供附加的益處,如分區函數追蹤(partition function tracking)和加速採樣。最重要的是,我們的算法是黑盒式的,並且在不需要知道模型結構的情況下就可以推導出梯度或進行分區函數評估。我們預期我們的方法將在諸如Edward這樣的自動推理系統中最為有用。

另外,我們方法的可擴展性局限性主要在於,當q與P不能進行很好的擬合時,對梯度和分區函數進行蒙特卡羅評估中的高方差。在實際中,我們發現諸如擬似然(pseudo-likelihood)這樣的簡單度量法在診斷這個問題上是非常有效的。當用RBM先驗對深度生成模型進行訓練時,我們注意到弱q的引入模型崩潰了(但是訓練仍然收斂)。然後我們通過增加q的複雜性並使用更多的樣本解決了這些問題。最後,我們還發現q梯度的得分函數評估器不能很好地向較高的維度擴展。而更好的梯度評估器可能會進一步改進我們的方法。

結論

綜上所述,本文提出了新的無向模型的變分學習和推理算法,從重要抽樣和χ2散度最小化的角度出發,優化了配分函數的上限。我們的方法通過黑匣子的方式訓練無向模型,並將在自動推理系統中產生作用。我們的框架在速度方面與採樣方法相比具有競爭性,並且提供了額外的優點,如配分函數跟蹤和加速採樣。我們的方法也可以用來訓練使用統一變分框架的混合有向/無向模型。最有趣的是,它使具有離散潛變量的生成模型更具表現力和更容易訓練。

論文下載:


延伸閱讀

測聽:常見的8種聽力測試

零的突破!"中國天眼"首次發

以後吃飯請放下手裡的刀叉勺筷,讓食物自動飄到你嘴

昂貴藥物使副作用更加嚴重

男孩外出遊玩發現古物,專家鑑定價值百萬後,他果斷


熱門內容

友善連結



APP