神奇的大數(shù)據(jù)!微軟幾乎猜對所有奧斯卡大獎
David Rothschild是微軟紐約研究院一名經濟學家,在2012年美國總統(tǒng)大選中,他正確預測了51個選區(qū)中50個地區(qū)的選舉結果,準確性高于98%。不久前,David Rothschild通過大數(shù)據(jù)分析,對第85屆屆奧斯卡各獎項的歸屬進行了預測。
北京時間今日上午,第85屆奧斯卡金像獎頒獎禮在美國好萊塢舉行,《逃離德黑蘭》摘得最佳影片獎,李安憑借《少年派的奇幻漂流》獲得最佳導演獎,其它各項大獎也都塵埃落定。
那么這次David Rothschild的大數(shù)據(jù)預測準不準?答案令人稱奇,微軟大數(shù)據(jù)分析堪稱預言帝,除最佳導演外,其它各項獎預測全部命中。
David Rothschild預測的最佳導演獎得主是斯蒂芬·斯皮爾伯格(Steven Spielberg)(影片《林肯》),而最終拿下該獎項的華裔導演李安。
第85屆奧斯卡主要獲項獲獎名單:
最佳影片:《逃離德黑蘭》Argo
最佳導演:李安 Ang Lee(《少年派的奇幻漂流》 Life of Pi)
最佳男主角:丹尼爾·戴-劉易斯 Daniel Day-Lewis(《林肯》 Lincoln)
最佳女主角:詹妮弗·勞倫斯 Jennifer Lawrence(《烏云背后的幸福線》 Silver Linings Playbook)
最佳男配角:克里斯托弗·瓦爾茲 Christoph Waltz(《被解放的姜戈》 Django Unchained)
最佳女配角:安妮·海瑟薇 Anne Hathaway(《悲慘世界》 Les Miserables)
最佳動畫長片:《勇敢傳說》 Brave
最佳歌曲:《Skyfall》(《007之大破天幕殺機》 阿黛爾 Adele)
想進一步了解David Rothschild的大數(shù)據(jù)分析模式?請看下面CNET對于其預測理念的報道:
David Rothschild表示:“我預測奧斯卡金像獎得主的方法與預測其它事情的方法完全相同,其中包括政治。首先關注最有效的數(shù)據(jù),然后創(chuàng)建不受任何特別年份結果干擾的統(tǒng)計模型,所有模型都根據(jù)歷史數(shù)據(jù)進行測試、校正,我們在建模時很有耐心,確保模型能夠正確預測外樣本結果,而不僅僅是過去發(fā)生的結果。我們創(chuàng)建的模型是能夠預測未來的,而不只是過去發(fā)生的?!?/P>
他指出:“科學是相同的,但證明哪些數(shù)據(jù)最有用卻存在千差萬別?!?/P>
你或許會認為一個能夠攻克選票近1.27億張變化莫測總統(tǒng)大選的預測模型也一定能夠在預測不太復雜的事件中輕松獲勝,如奧斯卡投票,其投票成員不足6000人,但美國總統(tǒng)大選與奧斯卡投票采用的數(shù)據(jù)大相徑庭。
David Rothschild透露:“我通常關注四個不同類型的數(shù)據(jù):投票數(shù)據(jù)、預測市場數(shù)據(jù)、基本數(shù)據(jù)和用戶產生的數(shù)據(jù)。在預測政治時,我采用基礎數(shù)據(jù)如過去的選舉結果、義務和經濟風向標。通過基礎數(shù)據(jù)建立一個基準,然后轉向預測市場數(shù)據(jù)和投票數(shù)據(jù),因為這兩個類型的數(shù)據(jù)吸收并包含了更多選舉信息。2012年總統(tǒng)大選預測時,我使用了少量用戶產生的數(shù)據(jù),但Xbox Live數(shù)據(jù)對補充重大事件實時分析起了關鍵作用?!?/P>
“預測奧斯卡金像獎花落誰家時缺少民意測驗投票數(shù)據(jù),而基本票房回報和電影評分等數(shù)據(jù)也很難有效統(tǒng)計。我更關注的是預測市場數(shù)據(jù),這是主要因素,同時采用部分用戶生成內容的數(shù)據(jù)分析,這有助于理解電影內部和不同類別之間的相關度,例如影片《林肯》會贏得多少個獎項?”David Rothschild說。
David Rothschild強調:“每當我關注一個新領域,我都會認真考慮一些關鍵事情,確保自己的預測更有意義?!?/P>
·首先,我會確定最中肯的預測。至于奧斯卡金像獎得主預測,我關注的是所有24個類別的獲勝概率,并會預測各個類別主流電影的總獎項。
·其次,我的所有預測結果會實時更新。從研究觀點看,實時更新預測結果至關重要,我們能夠獲悉最初預測與最終事件之間發(fā)生的不同事件的價值。這些事件就是奧斯卡獎項歸屬的前奏。
·最后,我借助特定領域的歷史數(shù)據(jù)建模,然后通過不斷升級模型確保預測的準確度。我還想強調的是,我們所做的一切都是為了盡可能保證領域獨立性,確保所有問題的可衡量性。如果該研究能夠催生出更高效的預測方法、在眾多領域適用于大量問題,將對微軟、對學術界和這個世界都有價值。”(RFID世界網編輯整理)