收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

科學報 科學文摘 AI

AI又一突破!用AI理解AI,MIT推出多模態自動可解釋智能體MAIA_模型_實驗_方法


字體大小:
更新日期:20241016
文章欄目:
文章標籤:   
 

AI又一突破!用AI理解AI,MIT推出多模態自動可解釋智能體MAIA_模型_實驗_方法

撰文 | 馬雪薇

從《超體》中以藥物刺激大腦,到賽博朋克文化中用電子乾涉入侵腦空間,人類對人腦操縱的可能性有過很多幻想。想象一下,如果人類真的可以直接操縱人腦的每一個神經元,會怎樣呢?

到那時,人類將能夠直接理解這些神經元在感知特定物體時的作用,有希望做出一些非常「科幻」的事情。

在現實生活中,這樣的實驗在人腦中幾乎是難以實施的,但在人工神經網絡卻是可行的。然而,由於模型往往含有數百萬神經,過於龐大且複雜,理解起來需要大量人力,這就使得大規模的模型理解成為一項極具挑戰性的任務。

為此,來自麻省理工學院計算機科學與人工智能實驗室(MIT CSAIL)的研究團隊推出了一個利用神經模型自動進行模型理解任務的系統——MAIA,即「多模態自動可解釋智能體」。

MAIA 使用預訓練的視覺語言模型來自動化理解神經模型的任務。模塊化的設計使 MAIA 能夠靈活地評估任意系統,並輕松地添加新的實驗工具。此外,它可以自動執行複雜的實驗,使用迭代實驗方法來測試假設,並根據實驗結果更新假設。

加州大學伯克利分校助理教授 Jacob Steinhardt 認為,擴大這些方法可能是理解和安全監督人工智能系統最重要的途徑之一。但是,研究團隊認為, 增強的 MAIA 並不會取代人類對人工智能系統的監督。MAIA 仍然需要人工監督來發現諸如確認偏差和圖像生成/編輯失敗之類的錯誤。

真實效果怎麼樣?

現有的自動化可解釋性方法僅僅是一次性地對數據進行標記或可視化,而 MAIA 則能夠生成假設,設計實驗來測試它們,並通過迭代分析來改進其理解。通過將預訓練的視覺-語言模型(VLM)與可解釋性工具庫相結合,該多模態方法可以通過編寫和運行針對特定模型的定向實驗來響應用戶查詢,不斷改進其方法,直到能夠提供全面的答案。

MAIA 框架的核心是一個由預訓練的多模態模型(如 GPT-4V)驅動的智能體,該智能體能夠自動執行實驗以解釋其他系統的行為。它通過將可解釋性子例程組合成 Python 程序來實現這一點。

AI又一突破!用AI理解AI,MIT推出多模態自動可解釋智能體MAIA_模型_實驗_方法

amocity
amocity

  


圖 | MAIA 架構

研究團隊在神經元描述範式上評估 MAIA,研究顯示,MAIA 在真實模型和合成神經元數據集上均取得了優異的描述效果,預測能力優於基線方法,並與人類專家相當。

AI又一突破!用AI理解AI,MIT推出多模態自動可解釋智能體MAIA_模型_實驗_方法

圖 | 評估 MAIA 描述

此外,MAIA 在移除虛假特征和揭示偏見方面都表現出良好的應用潛力,可以幫助人類用戶更好地理解模型行為,並改進模型的性能和公平性。

用 MAIA 移除虛假特征

虛假特征會影響模型在真實世界場景中的魯棒性。MAIA 可以識別並移除模型中的虛假特征,從而提高模型的魯棒性。研究團隊使用 ResNet-18 在 Spawrious 數據集上進行訓練,該數據集中包含四種不同背景的狗品種。

在數據集中,每個狗品種與特定背景(例如雪,叢林,沙漠,海灘)虛假相關,而在測試集中,品種-背景配對是混亂的。研究團隊使用 MAIA 來找到一個最終層神經元的子集,該神經元可以獨立於虛假特征魯棒地預測單個狗的品種,只需改變用戶提示中的查詢。

結果顯示,MAIA 可以有效地移除模型中的虛假特征,從而提高模型的魯棒性。

用 MAIA 揭示偏見

amocity
amocity

  


模型可能存在偏見,導致其在某些情況下表現不佳。而 MAIA 可以自動揭示模型中的偏見。研究團隊使用 ResNet-152 在 ImageNet 上進行訓練,並使用 MAIA 檢查模型輸出中的偏見。

amocity
amocity

  


在實驗過程中,MAIA 被提示生成與特定類別相關的圖像,並觀察模型對這些圖像的響應。之後,MAIA 發現了一些模型對特定子類或與特定類別相關的圖像有偏好。

這表明 MAIA 可以幫助識別模型中的偏見,從而改進模型。

AI又一突破!用AI理解AI,MIT推出多模態自動可解釋智能體MAIA_模型_實驗_方法

圖|MAIA 模型偏見檢測

不足與展望

雖然 MAIA 在自動可解釋性方面展現出巨大潛力,但仍存在一些局限性。

首先,MAIA 的解釋能力受限於其使用的工具,如 Stable Diffusion 和 GPT-4。這些工具的局限性(例如圖像生成質量、成本、訪問限制)會直接影響 MAIA 的性能。未來可以考慮開發更強大的內部工具,或尋找開源替代方案,以提高系統的可靠性和可訪問性。

其次,MAIA 的解釋並非形式化驗證,而是基於實驗結果和自然語言描述。這可能導致解釋存在偏差或誤導。未來可以考慮將形式化驗證方法(例如因果推理、理論分析)融入 MAIA,以提高解釋的准確性和可靠性。

此外,MAIA 無法完全避免常見錯誤,例如確認偏差、過度解釋、小樣本結論等。未來可以考慮引入自我反思機制,使 MAIA 能夠識別和糾正自身錯誤,並提高解釋的魯棒性。

展望未來,這篇論文的共同作者 Rott Shaham 表示:「我認為我們實驗室的下一步自然是要超越人工系統,將這些類似的實驗應用於人類感知。傳統上,這需要手動設計和測試刺激,這是一個勞動密集型的過程。有了我們的智能體,我們可以擴大這個過程,同時設計和測試大量的刺激。」

延伸閱讀
AI臉