微軟即將開(kāi)源REEF大數(shù)據(jù)框架
微軟開(kāi)發(fā)出一套名為REEF(即可保留評(píng)估執(zhí)行框架的簡(jiǎn)稱)的大數(shù)據(jù)框架,并有意在一個(gè)月之內(nèi)將其推向開(kāi)源。REEF在設(shè)計(jì)上以下一代Hadoop資源管理器YARN為運(yùn)行基礎(chǔ),尤其適合完成機(jī)器學(xué)習(xí)類任務(wù)。
微軟公司技術(shù)研究員兼信息服務(wù)部門(mén)CTO Raghu Ramakrishnan在本周一上午于芝加哥舉辦的知識(shí)發(fā)掘與數(shù)據(jù)發(fā)現(xiàn)國(guó)際大會(huì)上,以主題演講的形式介紹了REEF項(xiàng)目與微軟的開(kāi)源規(guī)劃。
YARN是一款資源管理器,最初作為Apache Hadoop項(xiàng)目的組成部分開(kāi)發(fā)而來(lái),旨在幫助用戶在由多臺(tái)物理設(shè)備構(gòu)成的同一套集群內(nèi)運(yùn)行并管理多種任務(wù)類型(例如批量MapReduce、與Storm及/或圖形處理包共同實(shí)現(xiàn)流處理等)。這項(xiàng)新機(jī)制不僅能夠縮減機(jī)構(gòu)所需管理的系統(tǒng)數(shù)量,而且能在同一位置以同一批數(shù)據(jù)為基礎(chǔ)執(zhí)行不同類型的分析工作。在某些情況下,全部數(shù)據(jù)工作流甚至可以完全在同一套設(shè)備集群內(nèi)進(jìn)行處理。
不過(guò)根據(jù)Ramakrishnan的解釋,某些工作類型(例如機(jī)器學(xué)習(xí))對(duì)于YARN類框架并不適合,因?yàn)樗鼈儗?duì)于數(shù)據(jù)移動(dòng)、任務(wù)監(jiān)控以及前續(xù)結(jié)果集迭代(以避免多次重啟)等功能存在特殊要求。針對(duì)REEF,Ramakrishnan表示這是一套運(yùn)行在YARN之上的庫(kù);雖然他并未深入探討其具體運(yùn)作機(jī)制,但宣稱REEF能在一定程度上解決上述問(wèn)題。
但他曾明確解釋稱,REEF被分為兩大主要部分:首先是作為容納REEF服務(wù)的YARN容器——Evaluator;然后是使用戶代碼運(yùn)行在Evaluator當(dāng)中的Activity。他還為我們帶來(lái)一段工作流演示,即在YARN當(dāng)中啟動(dòng)Evaluator,并以Evaluator為容器實(shí)現(xiàn)Activity代碼運(yùn)行直到結(jié)束。值得一提的是,同一Evaluator還可以再次啟動(dòng)并維持其初始狀態(tài),這樣其它Activity進(jìn)程也可以針對(duì)初始數(shù)據(jù)實(shí)現(xiàn)運(yùn)行。據(jù)推測(cè),微軟很可能是利用某種SQL查詢或者其它機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)這樣的效果。
從理論上講,REEF是一種非常有趣的技術(shù)。它希望解決企業(yè)在嘗試對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析時(shí)所面對(duì)的遺留問(wèn)題。我們期待微軟正式發(fā)布REEF之后,再?gòu)膶?shí)際使用中獲取更多效果信息。盡管目前尚未實(shí)踐證明,但REEF仍然值得關(guān)注——這是因?yàn)槲④浺呀?jīng)對(duì)Hadoop(YARN即為Hadoop的重要組成部分)及開(kāi)源社區(qū)表現(xiàn)出高度關(guān)注。就在幾年前,微軟還在尋找Hadoop的替代方案及專有平臺(tái)。如今,軟件巨頭已經(jīng)開(kāi)始在Hadoop技術(shù)社區(qū)中傾注心力,希望借開(kāi)源之力助自己更上一層樓。