加勒比一本heyzo高清视频-免费精品无码av片在线观看-无码国产精品一区二区免费模式-去干成人网-成在人线av无码免费

物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

谷歌 Ngrams :大數(shù)據(jù)如何創(chuàng)造錯(cuò)覺(jué)

作者:本站采編
來(lái)源:機(jī)器之心
日期:2016-06-22 09:48:59
摘要:如果我說(shuō)美國(guó)人現(xiàn)在開始越來(lái)越以自我為中心了,你也許會(huì)想這個(gè)老家伙肯定又要嘟囔些「過(guò)去才是好日子」之類的。但是,如果我說(shuō)我有著對(duì)1500億個(gè)文本詞語(yǔ)的分析來(lái)支持這個(gè)的宣稱呢?在幾十年前,這樣規(guī)模的證據(jù)簡(jiǎn)直是天方夜譚。而在今天,1500億個(gè)數(shù)據(jù)已經(jīng)過(guò)時(shí)了?!复髷?shù)據(jù)」分析的熱潮已經(jīng)卷過(guò)了生物學(xué)、語(yǔ)義學(xué)、金融學(xué)以及其相間的各種領(lǐng)域。
關(guān)鍵詞:大數(shù)據(jù)谷歌


  如果我說(shuō)美國(guó)人現(xiàn)在開始越來(lái)越以自我為中心了,你也許會(huì)想這個(gè)老家伙肯定又要嘟囔些「過(guò)去才是好日子」之類的。但是,如果我說(shuō)我有著對(duì)1500億個(gè)文本詞語(yǔ)的分析來(lái)支持這個(gè)的宣稱呢?在幾十年前,這樣規(guī)模的證據(jù)簡(jiǎn)直是天方夜譚。而在今天,1500億個(gè)數(shù)據(jù)已經(jīng)過(guò)時(shí)了?!复髷?shù)據(jù)」分析的熱潮已經(jīng)卷過(guò)了生物學(xué)、語(yǔ)義學(xué)、金融學(xué)以及其相間的各種領(lǐng)域。

  盡管沒(méi)有人能夠在如何定義上取得一致,但大致概念是找到足夠大的數(shù)據(jù)庫(kù),這樣他們可以發(fā)現(xiàn)傳統(tǒng)調(diào)查里無(wú)法發(fā)現(xiàn)的規(guī)律。這些數(shù)據(jù)來(lái)源于數(shù)百萬(wàn)個(gè)現(xiàn)實(shí)用戶的行為,例如,發(fā)推特或信用卡消費(fèi),并且這些行為需要上千臺(tái)計(jì)算機(jī)來(lái)收集、存儲(chǔ)與分析。而對(duì)于許多計(jì)算機(jī)和研究者來(lái)說(shuō),這個(gè)投資是值得的,因?yàn)閿?shù)據(jù)中的規(guī)律可以解鎖從基因序列到明日股票價(jià)格的一切信息。

  但是有一個(gè)問(wèn)題:我們會(huì)不禁認(rèn)為在如此驚人數(shù)量的數(shù)據(jù)的支持下,基于大數(shù)據(jù)的研究不可能是錯(cuò)的。然而,數(shù)據(jù)的海量特征會(huì)給結(jié)果灌注一種錯(cuò)誤的確定感。許多的結(jié)果都是不真實(shí)的——而其原因會(huì)讓我們重新思考那些盲目信任大數(shù)據(jù)的研究。

  在語(yǔ)言和文化中,大數(shù)據(jù)隆重地在 2011 年出場(chǎng),那時(shí)谷歌發(fā)布了它的 Ngrams 工具。谷歌在《Science》雜志中發(fā)表的文章大張旗鼓地宣布, Ngrams 可以讓用戶在谷歌掃描書籍?dāng)?shù)據(jù)庫(kù)中尋找特定短語(yǔ)——這個(gè)數(shù)據(jù)庫(kù)囊括了幾乎 4% 的出版過(guò)的書籍!——并獲知這些短語(yǔ)的頻率如何隨著時(shí)間而變化。這篇論文的作者預(yù)言了「文化經(jīng)濟(jì)學(xué)」的降臨,一個(gè)基于大量數(shù)據(jù)的對(duì)文化的研究,并且自此以后,谷歌 Ngrams 變成了一個(gè)幾乎無(wú)限的娛樂(lè)來(lái)源——但也是語(yǔ)義學(xué)、心理學(xué)和社會(huì)學(xué)的一座金礦。例如,他們搜羅了數(shù)百萬(wàn)書籍去展示,是的,美國(guó)正在變得愈來(lái)愈個(gè)人主義,我們正在「每一年都在加速忘記我們的過(guò)去」,道德理想正在從我們的文化意識(shí)中消失。

 

  我們正在失去「希望」:網(wǎng)絡(luò)漫畫《xkcd》的作者 Randal Munroe 所創(chuàng)造的許多有趣的小漫畫之一是一個(gè)關(guān)于「希望」的 Ngrams 表格。如果 Ngrams 真的反射出了我們的文化,我們也許正在前往一個(gè)黑暗的未來(lái)。

  問(wèn)題開始于 Ngrams 語(yǔ)料庫(kù)建立的方式。在去年十月發(fā)表的一篇研究中,三位來(lái)自佛蒙特大學(xué)(University of Vermont,UVM)的研究者指出,總體來(lái)說(shuō),Google Books 收納了每 一本書的復(fù)印版。這與它的最初目標(biāo)完美相符:讓這些書本的內(nèi)容完全呈現(xiàn)于谷歌的強(qiáng)大檢索技術(shù)中。盡管從社會(huì)學(xué)研究的角度來(lái)說(shuō),它讓語(yǔ)料庫(kù)有了危險(xiǎn)的歪曲。

  舉個(gè)例子,一些書籍淪落到了低于它們真正文化重量的境地:《指環(huán)王》的影響力還沒(méi)有《巴伐利亞的巫術(shù)迫害》多。而相反的,一些作家則開始變得十分凸顯。從英文小說(shuō)的數(shù)據(jù)來(lái)看,你可以總結(jié)出在上世紀(jì)初期的20年里,每個(gè)角色的兄弟都叫做 Lanny。實(shí)際上這個(gè)數(shù)據(jù)甚至反映了一位(并不一定是受歡迎的)作家 Upton Sinclair 有多么多產(chǎn):他寫出了11部有著同一個(gè)「Lanny Budd」的小說(shuō)。  


  到底誰(shuí)是 Lanny ?:「Lanny」與其他英文小說(shuō)中常見名字相對(duì)比的谷歌 Ngrams 圖標(biāo)

  更加糟糕的是 Ngrams 并不是已出版書籍的一種連續(xù)的、平衡的縮影。同一份 UVM 的研究證明,在許多發(fā)生的創(chuàng)作變化之中,值得注意的是開始于上世紀(jì)60年代的科幻小說(shuō)的增多。所有這些都讓我們很難相信谷歌的 Ngrams 能夠準(zhǔn)確地反映出文字文化主流隨著時(shí)間的變化。


  FIGURE 圖表:主要用于標(biāo)題的大寫字母F開頭的「Figure」使用頻率在20世紀(jì)大幅上升,意味著語(yǔ)料庫(kù)中科技文章開始增加。這也許解釋了一些關(guān)于社會(huì)的問(wèn)題,但是并沒(méi)有更多解釋大多數(shù)社會(huì)是如何用這些詞語(yǔ)的。

  即使通過(guò)了數(shù)據(jù)的來(lái)源的檢驗(yàn),在「理解」這一關(guān)依然存在尖銳的問(wèn)題。的確,像「性格」和「尊嚴(yán)」這樣的用詞在過(guò)去幾十年的使用也許下降了。但是這意味著人們對(duì)于道德的關(guān)注就減少了嗎?伊利諾伊斯大學(xué)香檳分校的英文學(xué)教授 Ted Underwood 警告說(shuō),不要這么快下定義。他指出,我們現(xiàn)在關(guān)于道德的理解也許與在 19、20世紀(jì)之交時(shí)的概念有著巨大出入,并且「尊嚴(yán)」也許因?yàn)榉堑赖碌脑蜃兊弥饾u普及化。因此任何我們從將眼下的關(guān)聯(lián)投射到過(guò)去所總結(jié)的結(jié)論都是可疑的。

  當(dāng)然了,這些對(duì)于統(tǒng)計(jì)學(xué)和語(yǔ)義學(xué)來(lái)說(shuō)都不是新鮮事。數(shù)據(jù)與表征是他們的面包與黃油。而谷歌 Ngrams 不同的是,它有著讓純粹的數(shù)據(jù)遮蔽了我們的雙眼并導(dǎo)致人們誤入歧途的危險(xiǎn)。

  這種傾向不僅僅出現(xiàn)在對(duì)于 Ngrams 的研究中。相似的錯(cuò)誤也損害著各種大數(shù)據(jù)項(xiàng)目。例如,谷歌的 Google Flu Trends(GFT)項(xiàng)目。誕生于 2008 年的 GFT 項(xiàng)目會(huì)計(jì)算數(shù)百萬(wàn)的谷歌檢索中「發(fā)燒」與「咳嗽」等詞語(yǔ)出現(xiàn)的數(shù)量,利用它們?nèi)ァ割A(yù)測(cè)」多少人得了流感。有了這些估測(cè),公眾健康機(jī)構(gòu)就能夠在疾疫控制中心從醫(yī)生報(bào)告中得出真正數(shù)量的兩周前就采取行動(dòng)。

  當(dāng)大數(shù)據(jù)不再被看成一個(gè)萬(wàn)金油的時(shí)候,它才會(huì)真正有顛覆性。

  最初,GFT 宣稱自己有 97% 的準(zhǔn)確度。但是根據(jù)西北大學(xué)文檔的研究,這種準(zhǔn)確度僅僅是一個(gè)僥幸。首先,GFT 完全忽視了 2009 年春天和夏天「豬流感」的蔓延(最后證實(shí) GFT 大部分預(yù)測(cè)的是冬天)。接著,系統(tǒng)開始去過(guò)度預(yù)測(cè)流感。實(shí)際上,它在 2013 年的峰值預(yù)測(cè)是真實(shí)的140%。最終,谷歌直接停了整個(gè)項(xiàng)目。

  那么,到底是哪里錯(cuò)了呢?有了 Ngrams,人們會(huì)不再仔細(xì)考慮他們手中數(shù)據(jù)的來(lái)源和詮釋。谷歌檢索中的數(shù)據(jù)資源并不是一個(gè)靜止的野獸。當(dāng)谷歌開始自動(dòng)補(bǔ)充檢索內(nèi)容時(shí),用戶們開始習(xí)慣于接受提供的關(guān)鍵詞,扭曲 GFT 所看到的搜索。在理解方面,GFT 的工程師在最開始讓 GFT 采用面值數(shù)據(jù);幾乎每一個(gè)檢索術(shù)語(yǔ)都被當(dāng)成潛在的流感指示。有了數(shù)百萬(wàn)個(gè)檢索術(shù)語(yǔ)后,GFT 毫無(wú)疑問(wèn)的開始過(guò)度詮釋一些季節(jié)性的詞語(yǔ),例如把「雪」來(lái)當(dāng)做流感的證據(jù)。

  但是,當(dāng)大數(shù)據(jù)不再被看做是萬(wàn)金油時(shí),它才真正具有了顛覆性。哥倫比亞大學(xué)的研究者 Jeffrey Shaman 和其他許多團(tuán)隊(duì)在流感預(yù)測(cè)上利用 CDC 去補(bǔ)償 GFT 的誤差,其結(jié)果比 CDC 和 GFT 兩者都要好。根據(jù) CDC 來(lái)看,「Shaman 的團(tuán)隊(duì)測(cè)試了這個(gè)季節(jié)已經(jīng)出現(xiàn)的實(shí)際流感的模型」。通過(guò)將過(guò)去的短時(shí)間情況納入到考慮當(dāng)中,Shaman 和他的團(tuán)隊(duì)精確調(diào)整了他們的數(shù)學(xué)模型,去更好地預(yù)測(cè)未來(lái)。團(tuán)隊(duì)所需要的就是去嚴(yán)格地評(píng)估關(guān)于數(shù)據(jù)的假設(shè)。

  為了不讓我自己聽起來(lái)像一個(gè)反谷歌斗士,我不得不再說(shuō)下,谷歌絕對(duì)不是唯一的一個(gè)犯錯(cuò)者。我的妻子,一位經(jīng)濟(jì)學(xué)家,曾在一家統(tǒng)計(jì)整個(gè)互聯(lián)網(wǎng)的職位發(fā)布并收集整合成為國(guó)家勞動(dòng)部門的統(tǒng)計(jì)數(shù)據(jù)的公司工作。公司的經(jīng)理曾經(jīng)夸口他們分析了整個(gè)國(guó)家 80% 的職位,數(shù)據(jù)的數(shù)量致使他們盲目走向了誤解的方向。舉例來(lái)說(shuō),一家當(dāng)?shù)氐奈譅柆斠苍S會(huì)發(fā)布一個(gè)銷售助理職位,而它實(shí)際上想要招十個(gè),或者它也許會(huì)讓這個(gè)發(fā)布一直在掛在那里幾周,直至人滿為止。

  因此,相比于屈服在「大數(shù)據(jù)廢墟」下,我們最好在心里保持我們的質(zhì)疑——即使在有人提到海量文字支持的時(shí)候。

人物訪談