第249章 離譜的技術
步態(tài)識別技術難以實現(xiàn)不僅是因為建立模型復雜。
當很久沒見到一個人之后,特別是孩子,由于變化較大,人眼就難以識別出對方了。
在機器視覺領域其實也是如此,如果識別特征點變化太大,就會影響識別精度,比如一個人,孩提時和長大后,面部特征變化會特別明顯,讓人臉識別去辨認,肯定難以辨識。
對于步態(tài)識別而言,這一樣適用。
如果只是幾年之內的成長變化,由于特征點變化幅度不大依舊可以進行有效識別,但如果十幾年的時間,特征點已經(jīng)發(fā)生非常明顯的改變,那將沒辦法有效識別。
雖然事實上,這樣的使用技術在實際應用中也基本不會出現(xiàn),人類使用技術來進行生產(chǎn)生活的目的是提高工作效率、改善生活品質,根據(jù)效益最大化的原則,人類會自發(fā)的讓工具發(fā)揮最大效能。在合適的時間合適的地點合適的場景使用最合適的工具,而且是工具中最有效的那個部分,利用其所長舍棄其所短。
所以,為了機器視覺工具能夠發(fā)揮最大功用,人類會根據(jù)實際需要,動態(tài)的采集信息,不斷更新最新數(shù)據(jù),以便相應技術可以達到最好的效果,促進社會生產(chǎn)生活的發(fā)展,否則刻舟求劍也不會成為千古笑談。
但是系統(tǒng)所提供的步態(tài)識別卻可以基本上一次識別之后便能通過核心計算衍生出之后這個人一生其余階段可能擁有的步態(tài)。
對于這項騷操作章杉簡直不知道該用什么形容。
最變態(tài)的是系統(tǒng)提供的步態(tài)識別,還兼具姿態(tài)識別功能。
步態(tài)識別是主要基于人的走路姿態(tài)(提取的特征點還包括體型特征、肌肉力量特點、頭型等上百個識別要素)進行身份識別的一種生物識別技術。步態(tài)識別與身份緊密關聯(lián),可以通過步態(tài)識別目標人物身份,可應用于刑偵破案、嫌疑人檢索等場景。
姿態(tài)識別可以實現(xiàn)人體動作、手指運動等姿態(tài)的估計,對于描述人體姿態(tài)、預測人體行為至關重要。主要基于對人體關鍵節(jié)點的觀察,比如骨骼、關節(jié)等。姿態(tài)識別無關身份,可通過研究人的姿態(tài)應用于跌倒檢測、虛擬試衣、體感游戲等場景。
這些都對深度學習有很高的要求。
深度學習(英語:deep learning)是機器學習的分支,是一種以人工神經(jīng)網(wǎng)絡為架構,對資料進行表征學習的算法。
深度學習是機器學習中一種基于對數(shù)據(jù)進行表征學習的算法。觀測值(例如一幅圖像)可以使用多種方式來表示,如每個像素強度值的向量,或者更抽象地表示成一系列邊、特定形狀的區(qū)域等。而使用某些特定的表示方法更容易從實例中學習任務(例如,人臉識別或面部表情識別)。深度學習的好處是用非監(jiān)督式或半監(jiān)督式的特征學習和分層特征提取高效算法來替代手工獲取特征。
表征學習的目標是尋求更好的表示方法并創(chuàng)建更好的模型來從大規(guī)模未標記數(shù)據(jù)中學習這些表示方法。表示方法來自神經(jīng)科學,并松散地創(chuàng)建在類似神經(jīng)系統(tǒng)中的信息處理和對通信模式的理解上,如神經(jīng)編碼,試圖定義拉動神經(jīng)元的反應之間的關系以及大腦中的神經(jīng)元的電活動之間的關系。
至今已有數(shù)種深度學習框架,如深度神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡和深度置信網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡已被應用在計算機視覺、語音識別、自然語言處理、音頻識別與生物信息學等領域并獲取了極好的效果。
另外,“深度學習”已成為時髦術語,或者說是人工神經(jīng)網(wǎng)絡的品牌重塑。
深度學習框架,尤其是基于人工神經(jīng)網(wǎng)絡的框架可以追溯到1980年福島邦彥提出的新認知機,而人工神經(jīng)網(wǎng)絡的歷史更為久遠。1989年,揚·勒丘恩(Yann LeCun)等人開始將1974年提出的標準反向傳播算法應用于深度神經(jīng)網(wǎng)絡,這一網(wǎng)絡被用于手寫郵政編碼識別。盡管算法可以成功執(zhí)行,但計算代價非常巨大,神經(jīng)網(wǎng)路的訓練時間達到了3天,因而無法投入實際使用。
許多因素導致了這一緩慢的訓練過程,其中一種是由于爾根·施密德胡伯的學生賽普·霍克賴特于1991年提出的梯度消失問題。
最早的進行一般自然雜亂圖像中自然物體識別的深度學習網(wǎng)絡是翁巨揚(Juyang W發(fā)表的生長網(wǎng)(Cresceptron)。
它也是第一個提出了后來很多實驗廣泛采用的一個方法:現(xiàn)在稱為最大匯集(max-pooling)以用于處理大物體的變形等問題。
生長網(wǎng)不僅直接從雜亂自然場景中學習老師指定的一般物體,還用網(wǎng)絡反向分析的方法把圖像內被識別了的物體從背景圖像中分割出來。
2007年前后,杰弗里·辛頓和魯斯蘭·薩拉赫丁諾夫(Ruslan Salakhutdinov)提出了一種在前饋神經(jīng)網(wǎng)絡中進行有效訓練的算法。這一算法將網(wǎng)絡中的每一層視為無監(jiān)督的受限玻爾茲曼機,再使用有監(jiān)督的反向傳播算法進行調優(yōu)。
在此之前的1992年,在更為普遍的情形下,施密德胡伯也曾在循環(huán)神經(jīng)網(wǎng)絡上提出一種類似的訓練方法,并在實驗中證明這一訓練方法能夠有效提高有監(jiān)督學習的執(zhí)行速度。
自深度學習出現(xiàn)以來,它已成為很多領域,尤其是在計算機視覺和語音識別中,成為各種領先系統(tǒng)的一部分。在通用的用于檢驗的數(shù)據(jù)集,例如語音識別中的TIMIT和圖像識別中的ImageNet, Cifar10上的實驗證明,深度學習能夠提高識別的精度。與此同時,神經(jīng)網(wǎng)絡也受到了其他更加簡單歸類模型的挑戰(zhàn),支持向量機等模型在年代到21世紀初成為過流行的機器學習算法。
硬件的進步也是深度學習重新獲得關注的重要因素。高性能圖形處理器的出現(xiàn)極大地提高了數(shù)值和矩陣運算的速度,使得機器學習算法的運行時間得到了顯著的縮短。
由于腦科學方面的大量研究已表明人腦網(wǎng)絡不是一個級聯(lián)的結構,深度學習網(wǎng)絡在2001年后正逐漸被更有潛力的基于腦模型的網(wǎng)絡所替代。
深度學習的基礎是機器學習中的分散表示(distributed representation)。分散表示假定觀測值是由不同因子相互作用生成。在此基礎上,深度學習進一步假定這一相互作用的過程可分為多個層次,代表對觀測值的多層抽象。不同的層數(shù)和層的規(guī)模可用于不同程度的抽象。
深度學習運用了這分層次抽象的思想,更高層次的概念從低層次的概念學習得到。這一分層結構常常使用貪心算法逐層構建而成,并從中選取有助于機器學習的更有效的特征。
不少深度學習算法都以無監(jiān)督學習的形式出現(xiàn),因而這些算法能被應用于其他算法無法企及的無標簽數(shù)據(jù),這一類數(shù)據(jù)比有標簽數(shù)據(jù)更豐富,也更容易獲得。這一點也為深度學習贏得了重要的優(yōu)勢。
一部分最成功的深度學習方法涉及到對人工神經(jīng)網(wǎng)絡的運用。人工神經(jīng)網(wǎng)絡受到了1959年由諾貝爾獎得主大衛(wèi)·休伯爾(David H. Hubel)和托斯坦·威澤爾(Torsten Wiesel)提出的理論啟發(fā)。休伯爾和威澤爾發(fā)現(xiàn),在大腦的初級視覺皮層中存在兩種細胞:簡單細胞和復雜細胞,這兩種細胞承擔不同層次的視覺感知功能。受此啟發(fā),許多神經(jīng)網(wǎng)絡模型也被設計為不同節(jié)點之間的分層模型。
福島邦彥提出的新認知機引入了使用無監(jiān)督學習訓練的卷積神經(jīng)網(wǎng)絡。揚·勒丘恩將有監(jiān)督的反向傳播算法應用于這一架構。
事實上,從反向傳播算法自年代提出以來,不少研究者都曾試圖將其應用于訓練有監(jiān)督的深度神經(jīng)網(wǎng)絡,但最初的嘗試大都失敗。賽普·霍克賴特在其博士論文中將失敗的原因歸結為梯度消失,這一現(xiàn)象同時在深度前饋神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡中出現(xiàn),后者的訓練過程類似深度網(wǎng)絡。在分層訓練的過程中,本應用于修正模型參數(shù)的誤差隨著層數(shù)的增加指數(shù)遞減,這導致了模型訓練的效率低下。
為了解決這一問題,研究者們提出了一些不同的方法。于爾根·施密德胡伯于1992年提出多層級網(wǎng)絡,利用無監(jiān)督學習訓練深度神經(jīng)網(wǎng)絡的每一層,再使用反向傳播算法進行調優(yōu)。在這一模型中,神經(jīng)網(wǎng)絡中的每一層都代表觀測變量的一種壓縮表示,這一表示也被傳遞到下一層網(wǎng)絡。
另一種方法是賽普·霍克賴特和于爾根·施密德胡伯提出的長短期記憶神經(jīng)網(wǎng)絡(LSTM)。
2009年,在ICDAR 2009舉辦的連筆手寫識別競賽中,在沒有任何先驗知識的情況下,深度多維長短期記憶神經(jīng)網(wǎng)絡獲取了其中三場比賽的勝利。
斯文·貝克提出了在訓練時只依賴梯度符號的神經(jīng)抽象金字塔模型,用以解決圖像重建和人臉定位的問題。
其他方法同樣采用了無監(jiān)督預訓練來構建神經(jīng)網(wǎng)絡,用以發(fā)現(xiàn)有效的特征,此后再采用有監(jiān)督的反向傳播以區(qū)分有標簽數(shù)據(jù)。杰弗里·辛頓等人于2006年提出的深度模型提出了使用多層隱變量學習高層表示的方法。這一方法使用斯摩棱斯基于1986年提出的受限玻爾茲曼機對每一個包含高層特征的層進行建模。模型保證了數(shù)據(jù)的對數(shù)似然下界隨著層數(shù)的提升而遞增。當足夠多的層數(shù)被學習完畢,這一深層結構成為一個生成模型,可以通過自上而下的采樣重構整個數(shù)據(jù)集。辛頓聲稱這一模型在高維結構化數(shù)據(jù)上能夠有效地提取特征。
吳恩達和杰夫·迪恩領導的谷歌大腦團隊創(chuàng)建了一個僅通過YouTube視頻學習高層概念(例如貓)的神經(jīng)網(wǎng)絡。
其他方法依賴了現(xiàn)代電子計算機的強大計算能力,尤其是年,在于爾根·施密德胡伯位于瑞士人工智能實驗室IDSIA的研究組中,丹·奇雷尚(Dan Ciresan)和他的同事展示了利用GPU直接執(zhí)行反向傳播算法而忽視梯度消失問題的存在。這一方法在揚·勒丘恩等人給出的手寫識別MNIST數(shù)據(jù)集上戰(zhàn)勝了已有的其他方法。
截止2011年,前饋神經(jīng)網(wǎng)絡深度學習中最新的方法是交替使用卷積層(convolutional layers)和最大值池化層(max-pooling layers)并加入單純的分類層作為頂端。訓練過程也無需引入無監(jiān)督的預訓練。從2011年起,這一方法的GPU實現(xiàn)多次贏得了各類模式識別競賽的勝利,包括IJCNN 2011交通標志識別競賽和其他比賽。
這些深度學習算法也是最先在某些識別任務上達到和人類表現(xiàn)具備同等競爭力的算法。
深度神經(jīng)網(wǎng)絡是一種具備至少一個隱層的神經(jīng)網(wǎng)絡。與淺層神經(jīng)網(wǎng)絡類似,深度神經(jīng)網(wǎng)絡也能夠為復雜非線性系統(tǒng)提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力。深度神經(jīng)網(wǎng)絡通常都是前饋神經(jīng)網(wǎng)絡,但也有語言建模等方面的研究將其拓展到循環(huán)神經(jīng)網(wǎng)絡。卷積深度神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)在計算機視覺領域得到了成功的應用。此后,卷積神經(jīng)網(wǎng)絡也作為聽覺模型被使用在自動語音識別領域,較以往的方法獲得了更優(yōu)的結果。
其他神經(jīng)網(wǎng)絡模型類似,如果僅僅是簡單地訓練,深度神經(jīng)網(wǎng)絡可能會存在很多問題。常見的兩類問題是過擬合和過長的運算時間。
深度神經(jīng)網(wǎng)絡很容易產(chǎn)生過擬合現(xiàn)象,因為增加的抽象層使得模型能夠對訓練數(shù)據(jù)中較為罕見的依賴關系進行建模。對此,權重遞減或者稀疏等方法可以利用在訓練過程中以減小過擬合現(xiàn)象。
另一種較晚用于深度神經(jīng)網(wǎng)絡訓練的正規(guī)化方法是丟棄法(“dropout“ regularization),即在訓練中隨機丟棄一部分隱層單元來避免對較為罕見的依賴進行建模。
:。:
(https://www.dzxsw.cc/book/170215/8834970.html)
1秒記住大眾小說網(wǎng):www.dzxsw.cc。手機版閱讀網(wǎng)址:m.dzxsw.cc