自動駕駛、深度學(xué)習(xí)、語音識別技術(shù)為何近年才突破?

7月23日,阿里巴巴大數(shù)據(jù)科學(xué)家金榕在造物節(jié)“科技大咖說”上進(jìn)行了演講,和現(xiàn)場的觀眾談?wù)撽P(guān)于數(shù)據(jù)和人工智能等問題,以下為現(xiàn)場演講。
數(shù)據(jù)是自動駕駛、深度學(xué)習(xí)、語音識別技術(shù)突破的根源
今天我想說的話題,是數(shù)據(jù)和智能之間的關(guān)系。
我們首先來看一個汽車自動駕駛的例子?,F(xiàn)在自動駕駛這個名詞已經(jīng)炒得很火熱,但實際上這是一個非常老的話題。
美國卡內(nèi)基梅隆大學(xué)有一個項目-Alvin Project,目的是做一個自動駕駛的車,1994年已經(jīng)成功地把車從東海岸開到西海岸,全程120公里每小時的速度,基本上是自動駕駛。
大家也許會覺得疑惑,為什么一個20年就已經(jīng)成型的技術(shù)直到現(xiàn)在才開始商業(yè)化?實際上一個重要的原因就在于數(shù)據(jù)的問題。
早期做自動駕駛,收集的數(shù)據(jù)非常少,大概只有幾十個小時的駕駛數(shù)據(jù),對復(fù)雜路況的處理能力比現(xiàn)在低很多,安全性不夠。今天的廠商可以收集幾十萬小時的駕駛數(shù)據(jù),而且數(shù)據(jù)處理能力很強,能讓車在非常復(fù)雜的情況下具有良好的處理能力。從這個意義上來講,大數(shù)據(jù)很重要。
另外的例子是Google的AlphaGo。很多年前IBM的Deep Blue(深藍(lán))是非常成功的例子,他制作了一套系統(tǒng)能夠跟國際最好的象棋大師做對弈。而AlphaGo系統(tǒng)里的深度學(xué)習(xí)、強化學(xué)習(xí)等,實際上在20年前已在游戲中應(yīng)用。

1996年有一個系統(tǒng)叫TD(λ)的算法,有幾位科學(xué)家把這個算法應(yīng)用在一個在美國挺流行的游戲上,很快成為了世界冠軍。
更神奇的地方在于,AlphaGo需要讀人類棋手的棋譜,從中吸取經(jīng)驗成長成為世界頂級的選手,但是對于TD(λ)的算法來講,當(dāng)時做了兩個不同版本的算法,這兩個版本自己跟自己下了150萬盤,就成了世界冠軍。某種意義上講,是自學(xué)成才的算法。
那么為什么AlphaGo系統(tǒng)大部分的核心技術(shù)點,實際上在20年前都已經(jīng)很成熟,直到今天面紗才被揭開?關(guān)鍵還是數(shù)據(jù)問題。20年前的計算機不足以處理這么多的數(shù)據(jù),而現(xiàn)在可以。
還有一個比較重要的點是語音識別技術(shù)。近幾年這項技術(shù)有了突飛猛進(jìn)的發(fā)展,智能手機普遍應(yīng)用語音交互。但實際上語音識別技術(shù)是從60年代開始的。很多技術(shù)很早就有人嘗試,而近兩年獲得成功,歸結(jié)于數(shù)據(jù)處理能力和計算能力,使得它能夠變成更加智能化的工具?! ?/p>

數(shù)據(jù)有一個非常厲害的能力就是挖掘價值。以花唄為例,花唄的背后實際上是個人的信用分,這個信用分基于個人以前的整體行為,把所有的交易行為都形成數(shù)據(jù),數(shù)據(jù)會告訴系統(tǒng)個人有多大的可能還錢或者有多大的還付能力。這個跟美國以前的信用體系有非常大的差別,完全從數(shù)據(jù)上挖掘行為,測量信用。
另外一方面,很多顧客會關(guān)注如何把花唄分?jǐn)?shù)提高?這就需要學(xué)習(xí)智能的機器人從模型里提取有用的信息,并告訴個人達(dá)到目的的途徑。
壓縮感知技術(shù)將會非常重要
在過去的十年間,我認(rèn)為在統(tǒng)計數(shù)學(xué)產(chǎn)生了一個非常有力量的技術(shù),它的中文名是壓縮感知。這個技術(shù)是非常有趣的技術(shù),可以重現(xiàn)歷史。
大家設(shè)想一下,如果你有一個非常老的、破損嚴(yán)重的照片,你肯定想要有一個機器可以把很破損的照片恢復(fù)的沒有瑕疵。有了壓縮感知技術(shù)之后,這些破損的照片,可以重現(xiàn)成很完美完整的照片。這是非常頂尖的幾個科學(xué)家在最近幾年做的杰出的工作帶來的成果。
有了這個技術(shù),大家會想是不是相機運用這個技術(shù)可以做一些改變?現(xiàn)在的數(shù)碼相機很便宜,其中一個非常重要的原因,在于數(shù)碼相機的感光材料是硅,人的感光區(qū)間和硅的感光區(qū)間差不多,所以硅可以成為非常好的傳感器來形成圖像。
但硅做不到紅外的感光區(qū),而紅外感光材料非常昂貴,所有紅外或紫外相機通常都很昂貴。想要獲得高清照片很昂貴。
所以現(xiàn)在很多公司想要用比較簡陋的相機拍攝,運用壓縮感知技術(shù)把它重現(xiàn)成很好看的照片。美國的萊斯大學(xué)正在做單光子相機,希望能做到只測量一個光子就可以把整個圖片完完整整的呈現(xiàn)出來。
我個人覺得壓縮感知這樣的技術(shù),會在以后的時間內(nèi)成為非常重要的技術(shù)。
人工智能和人的智能有什么差別?
接下來我想再談?wù)勚悄?。對于智能,每個人都有不同的定義。從機器學(xué)習(xí)或者是人工智能角度來看,所謂的智能是一個決策函數(shù),這個決策函數(shù)有一個輸入,比如說一個照片會給出一個決策,它告訴你照片的人是什么。
現(xiàn)在幾乎所有的機器學(xué)習(xí)、人工智能的方法,不管是AlphaGo,還是語音識別、自動駕駛幾乎都是用這個方法為基礎(chǔ)的。這個智能是我們經(jīng)常說的人工智能,實際上它跟人的智能還有一個很大的差別,最大的差別就在于他們對數(shù)據(jù)的依賴。
小孩在學(xué)習(xí)各種技能時的一個學(xué)校過程最多幾十遍,人的學(xué)習(xí)可以依賴于相當(dāng)少的樣本學(xué)到知識、技能。但是機器智能基于決策函數(shù)的學(xué)習(xí)方式,需要巨大的數(shù)據(jù)支持。這就是為什么說只有有了巨大的數(shù)據(jù),人工智能才會普遍運用起來。如果數(shù)據(jù)低于一定的程度,這樣的函數(shù)是不可能被學(xué)習(xí)下來的。
最后總結(jié)一下,我們正處于一個激動人心的時代,在這個時代能夠利用非常大的數(shù)據(jù)、計算能力,讓那些十年前、二十年前研發(fā)出來的算法,發(fā)揮出巨大的價值。
但同時也要認(rèn)識到現(xiàn)在這樣一個基于函數(shù)技術(shù)的機器學(xué)習(xí)或者說是人工智能的方法,也有一個巨大的局限性,對樣本的數(shù)量有很大的依賴。
到底我們應(yīng)該怎么去看待人在學(xué)習(xí)過程中的能力?為什么說人只要需要幾個樣本就能把一個技能學(xué)好,而機器學(xué)不好?
從這個角度來講,我認(rèn)為現(xiàn)在的數(shù)據(jù)巨大成功同時也是給在座每一位年輕人的一個巨大的機會,去探究人到底是怎么學(xué)習(xí)的。