科學也可以如此靠近

深度學習之圖像簡史


2018年4月08日22時 今日科學 跟着程序員的文案
跟着程序員的文案

摘要: 人用一雙肉眼如何識別不同類別的圖像,如何在圖像中分割出形形色色的物體,如何從模糊的圖像中想像出物體的輪廓,如何創作出天馬行空的圖畫,是目前機器視覺圖像處理領域關注的熱點問題。全世界的研究者都希望有朝一日,計算機能代替人眼來識別這一幅幅圖像,發現在圖像中隱藏的密碼。

人,是感官的動物。

我們的大腦,像一塊複雜度極高的CPU,每天在接收著各種格式的數據,進行著無休止的計算,我們以各種感官接觸著這個世界,抽取著不同感官下的信息,從而認知了世界。而圖像作為承載信息最為豐富的一種媒介,在人類探索智慧的歷史中,一直占據著重要的位置。人用這樣一雙肉眼如何識別不同類別的圖像(image classification and pattern

recognition),如何在圖像中分割出形形色色的物體(semantic segmentation and object detection),如何從模糊的圖像中想像出物體的輪廓(image super-resolution),如何創作出天馬行空的圖畫(image

synthesis),都是目前機器視覺圖像處理領域關注的熱點問題。全世界的研究者都希望有朝一日,計算機能代替人眼來識別這一幅幅圖像,發現在圖像中隱藏的密碼。

圖像分類

圖像分類是圖像處理中的一個重要任務。在傳統機器學習領域,去識別分類一個一個圖像的標準流程是特徵提取、特徵篩選,最後將特徵向量輸入合適的分類器完成特徵分類。直到2012年Alex

Krizhevsky突破性的提出AlexNet的網絡結構,藉助深度學習的算法,將圖像特徵的提取、篩選和分類三個模塊集成於一體,設計5層卷積層加3層全連接層的深度卷積神經網絡結構,逐層對圖像信息進行不同方向的挖掘提取,譬如淺層卷積通常獲取的是圖像邊緣等通用特徵,深層卷積獲取的一般是特定數據集的特定分布特徵。AlexNet以15.4%的創紀錄低失誤率奪得2012年ILSVRC(ImageNet大規模視覺識別挑戰賽)的年度冠軍,值得一提的是當年亞軍得主的錯誤率為26.2%。AlexNet超越傳統機器學習的完美一役被公認為是深度學習領域裡程碑式的歷史事件,一舉吹響了深度學習在計算機領域爆炸發展的號角。

(圖為李飛飛博士和她的ImageNet數據集)

時間轉眼來到了2014年,GoogleNet橫空出世,此時的深度學習,已經歷ZF-net,

VGG-net的進一步精鍊,在網絡的深度,卷積核的尺寸,反向傳播中梯度消失問題等技術細節部分已有了詳細的討論,Google在這些技術基礎上引入了Inception單元,大破了傳統深度神經網絡各計算單元之間依次排列,即卷積層->激活層->池化層->下一卷積層的範式,將ImageNet分類錯誤率提高到了6.7%的高水平。

在網絡越來越深,網絡結構越來越複雜的趨勢下,深度神經網絡的訓練越來越難,2015年Microsoft大神何愷明(現就職於Facebook AI Research)為了解決訓練中準確率先飽和後降低的問題,將residual

learning的概念引入深度學習領域,其核心思想是當神經網絡在某一層達到飽和時,利用接下來的所有層去映射一個f(x)=x的函數,由於激活層中非線性部分的存在,這一目標幾乎是不可能實現的。

但ResNet中,將一部分卷積層短接,則當訓練飽和時,接下來的所有層的目標變成了映射一個f(x)=0的函數,為了達到這一目標,只需要訓練過程中,各訓練變量值收斂至0即可。Resdiual

learning的出現,加深網絡深度提高模型表現的前提下保證了網絡訓練的穩定性。2015年,ResNet也以3.6%的超低錯誤率獲得了2015年ImageNet挑戰賽的冠軍,這一技術也超越了人類的平均識別水平,意味著人工智慧在人類舞台中崛起的開始。

圖像中的物體檢測

圖像分類任務的實現可以讓我們粗略的知道圖像中包含了什麼類型的物體,但並不知道物體在圖像中哪一個位置,也不知道物體的具體信息,在一些具體的應用場景比如車牌識別、交通違章檢測、人臉識別、運動捕捉,單純的圖像分類就不能完全滿足我們的需求了。

這時候,需要引入圖像領域另一個重要任務:物體的檢測與識別。在傳統機器領域,一個典型的案例是利用HOG(Histogram of Gradient)特徵來生成各種物體相應的「濾波器」,HOG濾波器能完整的記錄物體的邊緣和輪廓信息,利用這一濾波器過濾不同圖片的不同位置,當輸出響應值幅度超過一定閾值,就認為濾波器和圖片中的物體匹配程度較高,從而完成了物體的檢測。這一項工作由Pedro

F. Felzenszalb, Ross B. Girshick, David Mcallester還有Deva Ramanan以Object Detection with Discriminatively Trained Part-Based Models共同發表在2010年9月的IEEETransactions on Pattern Analysis and Machine

Interlligence期刊上。

(傳統機器學習典型案例,HOG特徵濾波器完整的記錄了人的整體輪廓以及一些如眼睛、軀幹、四肢等特徵部位的細節信息)

時間如白駒過隙,驚鴻一瞥,四年過去,Ross B. Girishick已由當年站在巨人肩膀上的IEEE Student Member成長為了AI行業內獨當一面的神級人物,繼承了深度學習先驅的意志,在2014年CVPR會議上發表題為Rich Feature Hirarchies for Accurate Object Detection and

SemanticSegmentation文章。RCNN,一時無兩,天下皆知。

(圖為深度學習「上古四傑」,從左向右依次為<1>卷積神經網絡的提出者Yan Lecun,<2>被譽為「深度學習之父」,深度學習領路人,近期逆流而行提出深度網絡Capsule概念的Geoffery Hinton,<3>《Deep Learning》一書作者Yoshua Bengio, <4>前斯坦福人工智慧實驗室主任Andrew Ng(吳恩達))

RCNN的核心思想在於將一個物體檢測任務轉化為分類任務,RCNN的輸入為一系列利用selectivesearch算法從圖像中抽取的圖像塊,我們稱之為region proposal。

經過warping處理,region proposals被標準化到相同的尺寸大小,輸入到預先訓練好並精細調參的卷積神經網絡中,提取CNN特徵。得到了每一個proposal的CNN特徵後,針對每一個物體類別,訓練一個二分類器,判斷該proposal是否屬於該物體類別。2015年,為了縮短提取每一個proposal的CNN特徵的時間,Girishick借鑑了Spatial

Pooling Pyramid Network(SPPnet)中的pooling技術,首先利用一整幅圖像提取CNN特徵圖譜,再在這張特徵圖譜上截取不同的位置的proposal,從而得到不同尺寸的feature proposals,最後將這些feature

proposals通過SPPnet標準化到相同的尺寸,進行分類。這種改進,解決了RCNN中每一個proposal都需要進行CNN特徵抽取的弊端,一次性在整圖上完成特徵提取,極大的縮短了模型的運行時間,因而被稱作「Fast R-CNN」,同名文章發表於ICCV 2015會議。

2015年,Girishick大神持續發力,定義RPN(region-proposal-network)層,取代傳統的regionproposal截取算法,將region proposal的截取嵌入深度神經網絡中,進一步提高了fast R-CNN的模型效率,因而被稱作「Faster R-CNN」,在NIPS2015上Girishick發表了題為「Faster R-CNN:

Towards Real-Time Object Detection with RegionProposal Networks」的關鍵文章,完成了RCNN研究領域的三級跳壯舉。

(圖為RCNN算法流程,最終可識別「馬」以及騎在馬背上的「人」)

圖像生成

隨著時代的發展,科學家們不僅僅是技術的研究者,更是藝術的創造者。

在人工智慧領域的另一位新一代靈魂人物,Ian Goodfellow在2014年提出了Generative Adversarial

Net的概念,通過定義一個生成器(generator)和一個判別器(discriminator)來完成圖像生成任務。其原理在於生成器的任務是從隨機噪聲中「創造」出接近目標圖像的「假圖像」去欺騙判別器,而判別器的任務是去甄別哪一些圖像是來自於真實的數據集,哪一些圖像是來自於生成器,在生成器和判別器的互相對抗中,通過合理的損失函數設計完成訓練,最終模型收斂後,判別器的機率輸出為常數0.5,即一幅圖像來自於生成器和真實數據集的機率相同,生成器生成的圖像的機率分布無限趨近於真實數據集。

GAN技術成為2015,2016年深度學習研究的熱門領域,在圖像恢復、降噪、超分辨重建等方向獲得了極佳的表現,衍生出一系列諸如WGAN,Info-GAN,DCGAN,Conditional-GAN等技術,引領了一波風潮。

(圖為利用Cycle-GAN技術,由一幅普通的照片生成莫奈、梵谷等風格的油畫)

圖像的故事才剛剛開始。

當我們把一幀幀圖像串聯在一起,變成流動的光影,我們研究的問題就從空間維度上擴展到了時間維度,我們不僅需要關心物體在圖像中的位置、類別、輪廓形狀、語義信息,我們更要關心圖像幀與幀之間的時間關係,去捕捉、識別一個物體的運動,去提取視頻的摘要,去分析視頻所表達的含義,去考慮除了圖像之外的聲音、文本標註,去處理一系列的自然語言,我們的研究一步一步,邁向了更廣闊的星辰與大海。

圖像和視頻,都是虛擬的一串串數字,一個個字節,但卻讓這個世界更加真實。

(微信搜索:tucodec,聯繫我們


延伸閱讀

超級細菌每年殺死千萬人?該古代病毒或成唯一解藥

科學家或發現首個「星際來客」

中國航天技術多強?美媒給出高度讚揚:30年來只有

堅持|生命的綻放|你確定你真的不點開看?

貓咪經常被心大的主人忘記在門外,此後性格大變好奇


熱門內容

友善連結



APP