近年來,隨著技術(shù)日益進(jìn)步,天文學(xué)研究中產(chǎn)生了海量數(shù)據(jù)。天文學(xué)家要想從郭守敬望遠(yuǎn)鏡、“中國天眼”FAST、LSST大型綜合巡天望遠(yuǎn)鏡等遍布世界的大型望遠(yuǎn)鏡捕獲的海量數(shù)據(jù)中找出有價值的信息以資研究,無異于大海撈針。
如何高效地處理這些數(shù)據(jù),已成為現(xiàn)代天文學(xué)面臨的一項(xiàng)重要挑戰(zhàn)。由于人工智能在海量數(shù)據(jù)分析和處理方面所具有的突出優(yōu)勢,它也很自然地走入了天文學(xué)家的視野。
日前,中國科學(xué)院云南天文臺麗江天文觀測站龍潛研究員與云南大學(xué)中國西南天文研究所宇宙學(xué)研究組爾欣中教授團(tuán)隊(duì)合作,利用人工智能深度學(xué)習(xí)的方法,發(fā)現(xiàn)了38個新的強(qiáng)引力透鏡候選體,為研究天體物理學(xué)問題提供了新的可靠的“宇宙探針”候選體。英國《皇家天文學(xué)會月刊》發(fā)表了這項(xiàng)研究成果。
天文觀測產(chǎn)生海量數(shù)據(jù) 用機(jī)器學(xué)習(xí)給天體分類已十分普遍
隨著下一代大規(guī)模測光巡天項(xiàng)目的開展,人們期待發(fā)現(xiàn)數(shù)以萬計的強(qiáng)引力透鏡系統(tǒng)。但如何在海量天體圖像中快速地找到強(qiáng)引力透鏡候選體?近年來,人工智能的快速發(fā)展,給人類提供了一種新的可能。
以2009年發(fā)射升空的世界首個用于探測太陽系外類地行星的飛行器開普勒太空望遠(yuǎn)鏡為例,僅在起初3年半的任務(wù)期內(nèi),就監(jiān)控了超過15萬個恒星系統(tǒng),同時也產(chǎn)生了海量數(shù)據(jù)。這些數(shù)據(jù)通常要經(jīng)由計算機(jī)處理,但當(dāng)計算機(jī)識別出一定的信號時,又必須依靠人類分析,判斷其是否是行星軌道所產(chǎn)生的,這項(xiàng)巨大的篩查工作單靠美國國家航空航天局(NASA)的科學(xué)家或科學(xué)小組,是無法有效完成的。
“如此大的數(shù)據(jù)量,人工分析在很多時候已經(jīng)達(dá)不到所需要的速度。借助人工智能的優(yōu)勢,我們可以極大地提升對數(shù)據(jù)的分析速率?!饼垵撓蚩萍既請笥浾呓榻B,人工智能展現(xiàn)出來的效率和準(zhǔn)確性遠(yuǎn)高于傳統(tǒng)方法。
龍潛研究員長期從事人工智能深度學(xué)習(xí)方面的研究。近期,他與爾欣中教授團(tuán)隊(duì)合作,構(gòu)建并訓(xùn)練了一個卷積神經(jīng)網(wǎng)絡(luò),用來尋找強(qiáng)引力透鏡系統(tǒng)。他們把這個網(wǎng)絡(luò)應(yīng)用到歐洲南方天文臺2.6米巡天望遠(yuǎn)鏡(VST)千平方度巡天數(shù)據(jù),并找到了38個新的強(qiáng)引力透鏡候選體。此次構(gòu)建的神經(jīng)網(wǎng)絡(luò),也可應(yīng)用于其他大型望遠(yuǎn)鏡的巡天數(shù)據(jù)。
“在這項(xiàng)工作中,我們用計算機(jī)分別模擬了強(qiáng)引力透鏡圖像和非強(qiáng)引力透鏡圖像,從而來訓(xùn)練計算機(jī)。我們發(fā)現(xiàn),在準(zhǔn)備訓(xùn)練計算機(jī)的圖像時,非強(qiáng)引力透鏡圖像比強(qiáng)引力透鏡更加重要?!睜栃乐姓f,開始的分析中,他們使用簡單的規(guī)則星系圖像作為非強(qiáng)引力透鏡訓(xùn)練樣本,發(fā)現(xiàn)結(jié)果正確率非常低。只有把各種可能的非引力透鏡圖像都考慮進(jìn)來之后,才能得到比較好的結(jié)果。
“這就像在教電腦認(rèn)識什么是狗的時候,還要告訴它貓、羊、牛等都不是狗。而如果你只告訴它貓不是狗,電腦有非常大的概率把羊、牛認(rèn)成狗?!饼垵撜f,目前利用機(jī)器學(xué)習(xí)來對天文學(xué)中各種天體分類已經(jīng)非常普遍,最簡單的是把恒星和星系分開,或者把不同行態(tài)的星系進(jìn)行分類,以及利用星系的多重顏色來估計星系的距離等。
每秒可識別上萬張照片 新型神經(jīng)網(wǎng)絡(luò)便于實(shí)時修改、訓(xùn)練和測試
人眼看強(qiáng)引力透鏡系統(tǒng)的圖像,最快就是每秒鐘看一張圖。而計算機(jī)每秒鐘可以識別成千上萬張圖片。
龍潛研究員和爾欣中教授團(tuán)隊(duì)此番訓(xùn)練的這個卷積神經(jīng)網(wǎng)絡(luò),可以充分利用GPU進(jìn)行并行加速,通過裝備更多或更強(qiáng)的GPU,系統(tǒng)可以根據(jù)實(shí)際需要極大提升搜索速度和效率。
“這個神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,主要使用模擬數(shù)據(jù),只使用了很少的人工標(biāo)注數(shù)據(jù),由于模擬數(shù)據(jù)可以任意生成,因此多樣性遠(yuǎn)大于人工標(biāo)注數(shù)據(jù),進(jìn)一步根據(jù)數(shù)據(jù)的特點(diǎn)調(diào)節(jié)訓(xùn)練參數(shù)和訓(xùn)練算法,使神經(jīng)網(wǎng)絡(luò)的泛化能力得到了極大的提高?!饼垵撜f,此外,研究人員使用新型科學(xué)計算語言Julia完全自定義網(wǎng)絡(luò)結(jié)構(gòu),由于Julia語言兼具速度和靈活性,使得神經(jīng)網(wǎng)絡(luò)在CPU和GPU上都有良好的性能,并且可以任意切換,因此非常有利于研究人員實(shí)時修改、訓(xùn)練和測試。
“我們還通過對引力透鏡數(shù)據(jù)的研究,定制了有針對性的小型網(wǎng)絡(luò),有效地抑制了過擬合現(xiàn)象,同時實(shí)驗(yàn)證明該網(wǎng)絡(luò)具有與大型網(wǎng)絡(luò)相似的準(zhǔn)確率。相比大型網(wǎng)絡(luò),小型網(wǎng)絡(luò)在普通計算機(jī)終端就可以訓(xùn)練和測試,不需要依賴大型GPU集群,這為天文工作者使用和改進(jìn)網(wǎng)絡(luò)提供了便利?!饼垵撜f。
目前,隨著技術(shù)與裝備水平快速發(fā)展,人工智能在天文學(xué)上的應(yīng)用還會越來越多?!拔覀冇媱潓σ恍┳冊吹亩嗖ǘ喂庾兦€來進(jìn)行機(jī)器的快速分類,這樣在實(shí)施大樣本巡天的時候,電腦可以自動對所發(fā)現(xiàn)的變源進(jìn)行篩選,并對我們感興趣的天體做出提示,以便進(jìn)一步開展后續(xù)研究工作?!睜栃乐姓f,正因?yàn)槿斯ぶ悄艿膸椭?,天文研究者得以從耗時單調(diào)的數(shù)據(jù)篩查分析中解脫出來,當(dāng)人力“大海撈針”難以招架之日,正是人工智能大顯身手之時。(記者 趙漢斌 通訊員 陳 艷)
(責(zé)任編輯:蔡文斌)