科學也可以如此靠近

人工智慧學天文?大AI時代的天文研究要到哪裡去?

6月
04
2018

2018年6月04日18時 今日科學 NASA中文

NASA中文

人工智慧對我們而言並不陌生,可能你在每一日的生活中,無數次使用到人工智慧而不自知:比如你最近滾動過某個網站頁面,觀看過某個視頻,使用了手機的語音控制功能,檢查過收件箱,或者檢索了某個詞語,這些實際上都使用了一類能夠從以往經驗中自動學習的複雜計算機算法。

對於上面說的這些事情,「人工智慧」這個概念雖然不算錯,但也許還是過於新奇——今天,仍然沒有一台計算機具有完備的智力或者自主性。不過,電腦程式所能做的事情有可能正經歷著範式轉變。和人類為計算機明確地編程不同,算法可以使用數據來構建它們自己的數學模型——有時這些模型過於複雜,以至於人類難以理解。人工智慧的這種活動被稱為機器學習,它能夠過濾海量的數據。

在過去幾年裡,幾乎在天文領域的每個部分都出現了人工智慧的身影,考慮到天文學正面臨的數據洪潮,這似乎應不足為奇。從系外行星、變星到宇宙學,在即將來臨的下一個十年的天文研究中,機器學習無疑將扮演越來越重要的角色。

人工智慧和大數據時代正在改變我們研究天文的方式。

大數據,大機遇

機器學習並非一個全新的概念,早在20世紀50年代,就湧現出了一批先行者。但長期以來,它都因為無法實現、不切實用而被人們所忽視,它要求極其強大的計算能力才能運行。正是因為大數據技術的出現,以及計算技術的顯著提升,才最終促成機器學習技術的騰飛。

有一個很有名的例子,Andrew Ng(史丹福大學)曾負責領導「谷歌大腦」項目,他利用了1000萬部YouTube視頻來訓練一個算法辨認家貓(為什麼是喵? (´・ω・`) )。

看貓

谷歌的計算機科學家們訓練了一個強大的神經網絡,讓它在許多其它事物中識別出貓臉。它「學習」了 1000 萬張從YouTube 視頻中截取的像素圖片。當被要求給出一隻貓時,它生成了這幅令人信服的圖像。

機器學習的用武之地並未局限於網際網路上的狂想。在天文領域中,大數據無處不在。「毫無疑問,我們正處於被我們稱作『巡天天文』的時代」。斯隆數字化巡天(SDSS)已經拍攝了全天的三分之一,但是在新近的和未來的項目面前,它已經相形見絀。新的標杆是大口徑全天巡視望遠鏡(LSST),計劃於2022年開始科學運行。它將監視宇宙時空中的370億個恆星和星系,生成一部時長十年的南天電影,每晚它都可以產出相當於整個SDSS計劃的數據量。

還有其它一些項目:2013年,「暗能量巡天」開始為數以億計的星系編制星圖;2014年,「蓋亞」衛星開始測繪銀河系裡的數十億顆恆星;2017年底,「茲威基瞬變源工廠」將看到它的第一縷光,它每小時能夠掃描3750平方度的天區。現在,用於天文研究的數據量已經太過巨大,更不用說以往巡天中的檔案數據,「人力無法與之匹配」,即便有幾十個研究生和數千名公眾科學家的幫助,也不可能單靠人眼仔細看完所有的數據。

不僅是大

在計算機科學中,「大」數據,不僅僅是指體量,它們往往還具有多樣性和高產生速度。大數據是以不同格式呈現(例如圖像、光譜和時間序列數據)的海量數據,而且還必須被以一種很及時的方式處理。

在Brian

Nord(費米實驗室)曾讓20名科學家花費了好幾個月的時間來仔細查看超過250平方度的深空圖像。他們要找出能夠指示強引力透鏡的反常構形,在那些位置,星系團或大質量星系會使來自背景天體的光線彎折。科學家們必須在暗能量巡天覆蓋的整整5000平方度範圍並有可能給出三倍於此的引力透鏡又上一個數量級的原始數據集裡一一辨別,以免錯失任何可能的輻射源。

幸運的關鍵巧合

要形成一個強引力透鏡,需要一點兒好運。首先,兩個物體必須以正確的方式排成一列,這樣才能依靠其中之一的引力放大來自後方的另一個物體的光線;其次,人類要想在浩瀚天空中找到這樣一個很小的透鏡,必須有一點兒運氣。

Nord說:「要目視掃描的像素數大得令人痛苦。這是如此令人絕望,必須找出一種更好的辦法。』」在一定程度上受到了特斯拉公司的自動駕駛汽車的激勵,於是他開始設法將人力從這種工作中解放出來。

他設計並構建了DeepLensing,這是一個機器學習程序,能夠辨認出扭曲變形的星系圖片。DeepLensing包含三套神經層,神經層充當了過濾器,可以選出輸入圖片中的特徵結構,訓練完成後,最後一個神經層就能給出最終的決定:是引力透鏡,或者不是引力透鏡。

天網

這幅概要圖描述了一個簡單的神經網絡,數據會進入每個神經元,並進行一次簡單的運算,再被輸入下一個神經層。最後一個神經層可以匯聚結果,形成答案。

與人腦中的大約1000億個神經元相比,這些網絡顯得極其簡單。實際上,只要數十行代碼就能構建出一個基礎的神經網絡。但是,從數學上看,結果就是尺度巨大,有時大至難以理解的線性代數。

雖然DeepLensing還只是一項發展中的工作,但它已經能夠實現一些其它方法無法完成的任務:在模擬中,快速地過濾數以千計的輸入圖像,並在辨識引力透鏡時保持90%以上的準確率。

大海撈針

機器學習完全可以用「大海撈針」式的研究來形容。因此,當Elena Rossi(荷蘭萊頓天文台)準備研究極其罕見的超高速恆星時,機器學習就成為了她所需要的重要工具。

這類恆星正在高速遠離銀河系的中心,它們有可能是通過與銀河系中心的特大質量黑洞的引力彈射作用被拋出。迄今為止,天文學家只找到了大約20顆超高速星,但是Rossi預計,在「蓋亞」衛星正在監視的10億顆恆星中,至少能找到100顆以上的超高速星。而利用這些恆星的運動軌跡,可以探查出包裹著整個銀河系的暗物質雲的形狀。但是要描繪出一顆超高速星在暗物質暈里的整個軌道,她首先就必須了解它在空間中的運動狀況。Rossi不僅要以遠低於百萬分之一的比例從普通恆星中辨別出這類罕見的恆星,而且還要處理不完整的數據。

逃逸恆星

這幅藝術畫描繪了一顆恆星逃離銀河系的過程,可以讓恆星逃離星系的環境是極其罕見的。這種超高速星因此很難發現,除非天文學家採用創新性的方法。

Rossi構建了一個足夠複雜的神經網絡,可以從數據中提取出所需特徵,進一步過濾和提取數據,並構建起一個日益靈活的神經網絡。Rossi將算法置入循環測試,以達到最效果。「我們仍在試圖理解我們的工具」,她說。

這個算法正在驗算「蓋亞」衛星公布的首批數據,其中的恆星總數達10億,結果找到了80個候選超高速星,經過後續觀測,最終,該團隊發現了6顆超高速星,對於首輪搜尋,這是一份相當不錯的收穫。這個算法還帶來了另一個驚喜:5顆並非來自於銀河系中心的逃逸恆星,每顆的速度都在400到780公里/秒之間。這些恆星有可能曾經是銀河系盤中的雙星系統的一部分,當它們的伴星發生超新星爆發時將其拋出。「我們的算法找出了此類過程的一個非常特殊的例子。」

2018年4月,「蓋亞」衛星將發布下一批數據,也許能幫助確認Rossi的發現。天文學家們已經成功地完善了機器學習,使之可以重構出已知的罕見天體的樣本。但是自我學習算法還能做更多的工作——發現全新的天體類型。現在,機器正逐步具備「系統性發現新事物」的能力。

建立聯繫

人們正試著讓這些程序走得更遠——不僅僅在未來的研究中實現「大海撈針」,還能夠研究整個「海底」。

自我學習算法可以在數據的特徵結構之間建立不可預見的聯繫,使計算機可以對所有的天體進行歸類並總結其特點。這種能力可以幫助解決LSST所面臨的最大難題之一。當這台望遠鏡在下個十年的初期開始工作時,每晚能獲取15

TB的亮度測量數據,但是不能得到另一種關鍵數據:光譜。儘管如此,天文學家仍可以通過恆星的顏色,以及可以追蹤恆星亮度隨著時間的變化情況的光變曲線獲得大量信息。

2015年,加州大學伯克利分校讀研究生的Adam Miller,以及他的導師Joshua

Bloom,意識到機器學習可以在變星的亮度測量數據和物理性質之間建立聯繫。他們利用一個決策樹集合(總體上被稱為隨機性森林)進行了一次概念驗證。每棵樹都會問一系列問題,從而將變星分類。這些問題並不是程序設定好的;這些決策樹會根據它們受訓的數據來決定問題。

星系動物園的計算

今天,類似「宇宙動物園」( Zooniverse )的公眾科學項目可以對大批量的星系和其它天體進行分類,而未來的大數據巡天,例如 LSST ,則將產生更多的數據,上述方法已經不敷使用。

哈勃空間望遠鏡拍攝的星系團 MACS0416.1–2403 的圖像(左), Alex Hocking (英國赫特福德大學)等人訓練了一個多部分機器學習算法,以自動識別產星星系,包括透鏡狀星系(右上)和橢圓星系(右下)。

從樹到森林

隨機性森林算法都是一些決策樹的集合。每棵樹的形狀都不相同,它們可以對數據提出不同問題,人類不能規劃數據的權重——決策樹會自己決定向數據提出什麼問題。

結果就是,機器學習可以將LSST從一台單純測量變星隨時間變化的儀器,變為一具可以測量恆星光譜以及物理性質的光譜儀。Bloom稱其為「一個怪異的令人頭疼的問題」。

「這就像坐在屋裡,聽一些人在房間另一邊歌唱」,Bloom說:「而你根據他們唱了什麼,就可以說出他們的年齡有多大,性別是什麼,頭髮是什麼顏色。」

黑箱問題

儘管具有令人難以置信的潛力,但機器學習在天文領域中的應用只是剛剛起步,而這種延遲的部分原因只是因為人們的猶豫。

「機器學習的普遍問題在於,你總是能得到一個答案」,Bloom告誡:「而這的確很危險。」因為機器學習在建立聯繫和模式識別上比人類更有優勢,利用這些算法就導致了一個顯著的風險:天文學家獲得的答案也許只是一個答案,甚至可能是錯誤答案,而他們對此並不了解。

Ashley

Villar(哈佛大學)曾陷入過這種混亂,當她在研究重元素或金屬的不同含量可能會怎樣改變爆炸的情況時,構建了一個小型的神經網絡,以更好地理解Ia型超新星。她對這個算法進行了訓練,它開始產生輸出:當她輸入Ia型超新星的光譜,該算法就會報告其前身星的金屬含量。但它是如何做出決定的,這個答案是否總是正確的?回答這個問題是機器學習在今天所面臨的最大挑戰之一。

當算法缺失一些數據時,它會犯下多大的錯誤?Villar認為,它的錯誤越嚴重,這一部分在選取答案時的權重就越大。解釋一個算法究竟是如何做到它所做的,又或者可以讓它做夢。正如Ingo

Waldmann(倫敦大學學院)所說:「做夢只不過是往回運轉。」

面對即將來臨的專門系外行星任務的時代,Waldmann構建了一個快速的、三層的神經網絡用於識別各種分子在其系外行星光譜中留下的印記。ROBERT不再需要仔細閱讀數以百計的溫度曲線圖、分子譜線和雲霧機率數據,而只要學習水分子在一張系外行星光譜中出現的模式。為了測試該算法是如何學習這種聯繫的,Waldmann對它做了修改。他不再向ROBERT提供一張光譜,而是簡單地告訴它:「水」,然後就讓它生成自己的關於有水的系外行星光譜應是什麼樣的看法。

水之夢

為了檢驗 RPBERT (自動系外行星辨識)算法能否學會找出系外行星大氣中的水在其光譜中留下的印記,讓它去「做夢」。在輸入了標籤「水」之後,該算法給出了一個水的光譜的描述,它非常像真正的光譜。

「當我首次構建ROBERT時,它非常複雜」,Waldmann說:「當我讓它『做夢』時,它得出了一條真的非常嘈雜的光譜。然後我就意識到……」它有太多太多的神經元,以至於其中的很多並不活躍——它們只是坐在那裡,產生噪音。在Waldmann減少了神經層和神經元的數量後,算法的夢開始成形了,帶來了一張水譜線的逼真畫像。但ROBERT是否也理解與這些模式相聯繫的隱含的物理原理?「我想它可以。沒有什麼理由說它肯定不可以」,Waldmann推測。但問題在於他並不肯定。這就是神經網絡的問題——你並不知道它們知道些什麼。」

構建和理解一個機器學習算法的棘手,及其輸出的巨大潛力,都反映在了此類研究所獲得的反響上。當Villar在美國天文學會的一次會議上展現了她的超新星研究工作時,她回憶道:「一些人確實為之興奮。他們認為,它就是終極的辦法,它將解開一切謎團。無疑也有些人完全拒絕它,他們認為它太可怕。」

但有很多天文學家預言,機器學習將在天文領域中發揮重要作用,也許會變得像望遠鏡那樣重要。在下一個十年中,機器學習無疑將取代或者廢除一些傳統的分析技術。可能它還將更進一步,假如自然界是以非常複雜的法則所撰述的,以至於只有機器學習算法能夠描述未來的巡天觀測所獲得的數據,那麼情況將會如何?我們也許會構建出一些算法,它們會給予我們一個答案,但這個答案根本不是我們所能理解的。

「這是一種瘋狂的想法」,Bloom謹慎地說。但是在面對機器學習時,這個想法的確出現了,「這就有點兒像一個糖果店裡的興奮小孩,而且是在所有孩子醒來之前。」

今天下午14時30分,國家天文台的學術報告,主題是:利用人工智慧尋找宜居區的地外行星;報告人:佛羅里達大學的葛健教授。

科技館直播連結(純英文):https://www.cdstm.cn/zhibo/201712/t20171219_665098.html 騰訊直播連結(有中文同傳):https://view.inews.qq.com/a/KEP2017121502799902 (或戳閱讀原文)

了解更多人工智慧學天文,

參閱本期《 中國國家天文 》!

創造不可知。

節選 / 《中國國家天文》2017第十二月號


延伸閱讀

「大貓想吃小貓」,老虎難於在樹上捕殺花豹

很神奇的地球冷知識!

幾塊錢跟幾十塊錢的牙膏到底區別在哪裡

這四個外來物種,對中國吃貨的力量,一無所知

我們都被蒙蔽了雙眼, 從太空中看地球, 它如同患


熱門內容

友善連結