加勒比一本heyzo高清视频-免费精品无码av片在线观看-无码国产精品一区二区免费模式-去干成人网-成在人线av无码免费

物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

RFID半結(jié)構(gòu)化巨量資料分析 如何是好?

作者:RFID世界網(wǎng)收錄
來源:DIGITIMES
日期:2012-10-16 14:16:40
摘要:傳統(tǒng)的BI或資料倉儲(chǔ)(Data Warehouse),系擅長(zhǎng)于處理結(jié)構(gòu)化資料,亦即一般存放于關(guān)聯(lián)式數(shù)據(jù)庫的數(shù)據(jù),對(duì)于XML、Logs、Click-Stream、RFID Tags等半結(jié)構(gòu)化資料,抑或網(wǎng)頁、電子郵件、多媒體、實(shí)時(shí)訊息等非結(jié)構(gòu)化資料,處理能力一向都不太好,少量處理如此,面對(duì)現(xiàn)今爆炸性的「巨量」,那更是無力應(yīng)付。所以企業(yè)若一味緬懷過去,運(yùn)用傳統(tǒng)資料倉儲(chǔ)、資料采礦(Data Mining)等工具鑒往知來,恐將事與愿違,因?yàn)檫@些工具所帶出的分析結(jié)果,對(duì)于企業(yè)競(jìng)爭(zhēng)力的提升作用,已經(jīng)愈來愈小。

  舉世聞名的Wal-Mart,藉由經(jīng)年累月的結(jié)帳資料分析,締造了「尿布與啤酒」的驚奇故事,大家這才乍然醒悟,原來看似風(fēng)馬牛不相及的事物,也蘊(yùn)藏著不為人知的致勝秘訣,顯見商業(yè)分析之重要性;但「尿布與啤酒」畢竟屬于事后分析,Wal-Mart現(xiàn)在更想做的,已經(jīng)不僅止于此。

  盡管「巨量資料」或「海量資料」等詞匯,幾乎已經(jīng)密集延燒了一整年,但Big Data議題不僅未見絲毫疲態(tài),這把火反倒愈燒愈旺,成為企業(yè)蓄積智慧與洞察力的絕佳寶庫,許多高階主管,都樂此不疲從巨量資料中探索致勝秘訣,據(jù)此建立競(jìng)爭(zhēng)優(yōu)勢(shì)。放大

  Wal-Mart過去為人樂道的尿布與啤酒傳奇,已成為「?jìng)鹘y(tǒng)」。新的商業(yè)分析技術(shù)正在興起,可以挖掘出過去顯為人知的訊息。

巨量資料分析架構(gòu)示意圖

  乃至于全球最大的軟件公司微軟(Microsoft),也將巨量資料與行動(dòng)應(yīng)用、云端運(yùn)算、企業(yè)生產(chǎn)力(含企業(yè)社群)等另三項(xiàng)議題,列為「主導(dǎo)未來十年產(chǎn)業(yè)變化」的四大趨勢(shì)之一;其認(rèn)為多年以來,商業(yè)智慧一直扮演重要角色,如今隨著互聯(lián)裝置及應(yīng)用程序的大量運(yùn)用,引發(fā)爆炸性的資料增長(zhǎng),遂使得商業(yè)智慧愈趨朝向巨量資料靠攏,成為企業(yè)賴以洞燭機(jī)先的關(guān)鍵利器。

  值得一提的,隨著巨量資料、商業(yè)智慧彼此間擦撞火苗,也讓現(xiàn)今的商業(yè)分析內(nèi)涵,出現(xiàn)了有別以往重大轉(zhuǎn)變;在過去,商業(yè)分析的重點(diǎn),僅在于冰山之上已知可見的結(jié)構(gòu)化數(shù)據(jù),偏向事后分析型態(tài),然而今后,其重點(diǎn)已經(jīng)轉(zhuǎn)向?yàn)楸街碌奈粗畔?,且泰半屬于大家從前鮮少進(jìn)行分析的非結(jié)構(gòu)化資料型態(tài)。

  Wal-Mart過去為人津津樂道的尿布與啤酒傳奇,至此已可歸類為「?jìng)鹘y(tǒng)」的商業(yè)分析,展望未來,企業(yè)倘若只是做到這一步,并不足以掌握關(guān)鍵契機(jī);所以Wal-Mart早就不以此為自滿,而是主動(dòng)分析顧客搜尋商品的行為,以及用戶透過搜尋引擎尋找到Wal-Mart網(wǎng)站的關(guān)鍵字,利用這些關(guān)鍵詞的分析結(jié)果發(fā)掘顧客需求,以規(guī)劃下一季商品的促銷策略。

  不僅如此,Wal-Mart還瞄準(zhǔn)了當(dāng)今最炙手可熱的社群網(wǎng)站,期望從顧客在Facebook、Twitter等網(wǎng)站上對(duì)商品的討論,早一步掌握潛在消費(fèi)需求,終至創(chuàng)造「比父親更早知道女兒懷孕」的另一驚奇故事。

  面臨新挑戰(zhàn) 企業(yè)亟需培育新智能

  即便許多企業(yè),所屬業(yè)態(tài)與Wal-Mart大相逕庭,生財(cái)模式也與Wal-Mart多所歧異,但可以肯定的是,隨著全球經(jīng)濟(jì)情勢(shì)與商業(yè)環(huán)境的改變,未來企業(yè)規(guī)模無論是大或小、從業(yè)資歷不管是深或淺,都無可避免一定會(huì)面臨諸多新挑戰(zhàn)。

  這些挑戰(zhàn),包括了商品的競(jìng)爭(zhēng)與價(jià)格壓力漸增、新市場(chǎng)的需求擴(kuò)大、人力資源管理難度攀升,以及企業(yè)永續(xù)性與法規(guī)遵循的要求愈趨嚴(yán)格;在此前提下,企業(yè)別無他法,勢(shì)必得力求推動(dòng)更多的創(chuàng)新,加快技術(shù)研發(fā)的速度,并設(shè)法改善客戶服務(wù)與盈利能力。

  意欲將前述條件逐一付諸實(shí)踐,對(duì)于絕大多數(shù)企業(yè)而言,其實(shí)并不容易,因而導(dǎo)致大部分公司抗御經(jīng)濟(jì)情勢(shì)與商業(yè)環(huán)境變動(dòng)的能力,都顯得有所不足,為業(yè)務(wù)發(fā)展埋下不確定因子;于是乎,現(xiàn)今不管身處哪一國(guó)度、哪一垂直產(chǎn)業(yè)領(lǐng)域的企業(yè)用戶,最殷切的期盼,便是尋求一個(gè)好的解決方案,借以幫助他們節(jié)省金錢、提高生產(chǎn)力、帶動(dòng)業(yè)績(jī)的成長(zhǎng)。

  以上三個(gè)愿望,看似平凡無奇,理應(yīng)不難達(dá)成,實(shí)則不然,主因在于當(dāng)前世局變遷速度加快,連帶造成各項(xiàng)新挑戰(zhàn)接踵而至,使得企業(yè)很難再沿用過去熟悉的方法,實(shí)現(xiàn)這些基本目標(biāo),必須援引新的方式,建立新的智能,才可望扭轉(zhuǎn)整個(gè)局面。

  如何培育新智能?答案就在于巨量資料分析!

  傳統(tǒng) vs. 現(xiàn)代 商業(yè)分析大不同

  傳統(tǒng)的BI或資料倉儲(chǔ)(Data Warehouse),系擅長(zhǎng)于處理結(jié)構(gòu)化資料,亦即一般存放于關(guān)聯(lián)式數(shù)據(jù)庫的數(shù)據(jù),對(duì)于XML、Logs、Click-Stream、RFID Tags等半結(jié)構(gòu)化資料,抑或網(wǎng)頁、電子郵件、多媒體、實(shí)時(shí)訊息等非結(jié)構(gòu)化資料,處理能力一向都不太好,少量處理如此,面對(duì)現(xiàn)今爆炸性的「巨量」,那更是無力應(yīng)付。

  所以企業(yè)若一味緬懷過去,運(yùn)用傳統(tǒng)資料倉儲(chǔ)、資料采礦(Data Mining)等工具鑒往知來,恐將事與愿違,因?yàn)檫@些工具所帶出的分析結(jié)果,對(duì)于企業(yè)競(jìng)爭(zhēng)力的提升作用,已經(jīng)愈來愈小。

  那么該如何是好?即是設(shè)法強(qiáng)化半結(jié)構(gòu)化與非結(jié)構(gòu)化巨量資料的處理能力,以期填補(bǔ)既有商業(yè)分析機(jī)制的先天缺陷;其大致的運(yùn)作原理是,運(yùn)用一套全新的解決方案,先針對(duì)內(nèi)外部巨量資料加以儲(chǔ)存、運(yùn)算、處理與分析,然后再把其處理或分析結(jié)果,轉(zhuǎn)變?yōu)槟撤N結(jié)構(gòu)化格式,如此一來,BI或資料倉儲(chǔ)便可擷取這些結(jié)果,為終端使用者進(jìn)一步提供相關(guān)的索引或搜尋。

  于是乎,最擅長(zhǎng)處理半結(jié)構(gòu)化與非結(jié)構(gòu)化資料的Hadoop-MapReduce,遂成為巨量資料分析架構(gòu)當(dāng)中的重要環(huán)節(jié),從以往鮮為人知,變成今時(shí)今日的當(dāng)紅技術(shù);根據(jù)市場(chǎng)研究機(jī)構(gòu)MarketAnalysis.com預(yù)估,時(shí)值2013~2018年期間,Hadoop-MapReduce市場(chǎng)的復(fù)合成長(zhǎng)率高達(dá)58%,到了2018年其產(chǎn)值將達(dá)22億美元,放眼各項(xiàng)IT產(chǎn)品或技術(shù),具備類似于Hadoop-MapReduce增長(zhǎng)幅度的項(xiàng)目,其實(shí)并不多見。

  綜此,建立Hadoop-MapReduce分散式運(yùn)算架構(gòu),似已成為企業(yè)跨足巨量資料分析的必經(jīng)之途,但要想在這條路上走得安穩(wěn),企業(yè)必須先把大環(huán)境給營(yíng)造出來,首先便是導(dǎo)入云端運(yùn)算,藉由虛擬化技術(shù)將一群廉價(jià)的運(yùn)算資料,匯集于可供挪移調(diào)度的資源池。

  其次則是建立資料儲(chǔ)存(Storage)與擷取(Retriever)機(jī)制,因此舉凡HDFS(Hadoop Distributed File System)分散式檔案系統(tǒng),以及立基于欄位(Column)的HBase數(shù)據(jù)庫系統(tǒng),顯然都成為企業(yè)IT人員的必修學(xué)分。

  HDFS有一個(gè)更傳神的稱謂-NameNode,負(fù)責(zé)將檔案切割成為固定大小的區(qū)塊,然后再將各個(gè)區(qū)塊分散儲(chǔ)存至不同的DataNode上,運(yùn)作原理彷彿Linux檔案系統(tǒng)里頭的Inode;因檔案儲(chǔ)存皆跨越實(shí)體機(jī)器,所以HDFS可被為一項(xiàng)虛擬的分散式檔案系統(tǒng),與傳統(tǒng)檔案系統(tǒng)分割Block后都存放到同一機(jī)器的做法,的確大不相同。

  至于HBase,我們可以這樣解釋,簡(jiǎn)單來說,Hadoop就是一套實(shí)現(xiàn)Google Map & Reduce的工具,而HBase則用以實(shí)現(xiàn)Big Table設(shè)計(jì)概念,兩者皆屬于Apache項(xiàng)目的一環(huán),也都以Java作為主要程序語言。Hbase是一種足以迅速存取大量資料的數(shù)據(jù)庫設(shè)計(jì)方法,它運(yùn)用Row-Oriented、Column Family等思維,俾使用戶便于儲(chǔ)存具備不同欄位屬性的資料,爾后亦可援引Row Key,快速讀取其所需要的資料。

  而不管是HBase,以及負(fù)責(zé)將單一工作分散至不同集群加以平行運(yùn)算的MapReduce,大家都需構(gòu)筑在HDFS基礎(chǔ)之上,所以無論在建立HBase或Hadoop時(shí),皆需設(shè)定聯(lián)系HDFS的Server與Port,以便于讓同一份檔案,可被復(fù)制到不同的運(yùn)算節(jié)點(diǎn)。

  一旦運(yùn)用Hadoop-MapReduce負(fù)責(zé)處理半結(jié)構(gòu)化與非結(jié)構(gòu)化資料,再配合傳統(tǒng)BI與資料倉儲(chǔ)對(duì)于結(jié)構(gòu)化資料之處理與分析,企業(yè)即可成功進(jìn)入Big Data世界,再從Big Data走向Total Data,從過去茫然未知的冰山下世界,深入萃取商業(yè)價(jià)值,借以預(yù)測(cè)未來、優(yōu)化競(jìng)爭(zhēng)策略、提振顧客滿意度。

  此處必須強(qiáng)調(diào),過去的資料采礦,通常是提出「會(huì)問」的問題,接著從這些問題找答案、找知識(shí),但進(jìn)入巨量資料分析,用戶心態(tài)勢(shì)必需要調(diào)整,轉(zhuǎn)而將重點(diǎn)置于「不會(huì)問」的問題,比方說經(jīng)由客戶在社群網(wǎng)站的意見討論,驅(qū)使下一個(gè)問題的產(chǎn)生,繼而探索解答,以利企業(yè)能從未知環(huán)境中創(chuàng)造價(jià)值。(RFID世界網(wǎng)編輯整理)

責(zé)任編輯:廖小亞