監(jiān)控公共云基礎(chǔ)設(shè)施及其服務(wù)
受到加速創(chuàng)新、降低成本和提高靈活敏捷性等機會的誘惑,使得當前的許多企業(yè)高管們紛紛都選擇將其企業(yè)組織的應(yīng)用程序遷移到公共云環(huán)境中。但企業(yè)組織究竟是否能夠盡可能最大程度地實現(xiàn)上述這些優(yōu)勢,部分將由企業(yè)現(xiàn)有的監(jiān)控能力決定。在本文中,我們將為廣大讀者諸君詳細介紹云環(huán)境可能帶來的監(jiān)控方面的挑戰(zhàn)難題,并還將同大家共同探討企業(yè)組織所需要采取相應(yīng)關(guān)鍵方法,以推動實現(xiàn)在云中的最大服務(wù)水平、效率和靈活性。
概述
當企業(yè)組織尋求在當前的應(yīng)用程序經(jīng)濟大環(huán)境下獲得競爭力時,許多企業(yè)組織越來越依賴于公共云服務(wù)?,F(xiàn)在,企業(yè)組織可以可靠地利用云產(chǎn)品提供各種基礎(chǔ)設(shè)施服務(wù),包括計算,存儲和應(yīng)用程序。以下,是一系列云服務(wù)興起,并迅速成為引人注目的替代方案的原因。
一、靈活敏捷性推動創(chuàng)新
在當前的應(yīng)用程序經(jīng)濟大環(huán)境下,應(yīng)用程序的創(chuàng)新快到不能再快了。企業(yè)客戶和最終用戶迫切需要更強大的功能和更好的體驗。
鑒于企業(yè)的領(lǐng)導(dǎo)者們試圖加快將他們創(chuàng)新型的新服務(wù)推向市場,他們必須擺脫傳統(tǒng)的IT方法。當他們需要擴展IT容量能力時,他們沒法再耐心等等待冗長的采購、測試和部署周期。
通過在公共云環(huán)境中運行工作負載,企業(yè)組織可以實現(xiàn)靈活敏捷性的顯著提升。他們可以更快速、更輕松地擴展其容量,從而可以立即適應(yīng)新的應(yīng)用程序和服務(wù)。如果需求下降,他們還可以相應(yīng)地立即減少其占用的空間。
新的服務(wù)器或服務(wù)可以按需提供,這意味著企業(yè)工作人員的時間不會再消耗在采購和安裝中。通過利用云環(huán)境,企業(yè)內(nèi)部的員工們可以花費更多的時間和精力將新的以應(yīng)用程序為中心的創(chuàng)新投入市場,并且可以更快地將這些創(chuàng)新推向市場。
二、運作效率和預(yù)算的靈活性
鑒于企業(yè)在市場中的競爭變得日益激烈,各種規(guī)模的企業(yè)組織都面臨著以最有效的方式利用資源的壓力。通常,他們承擔不起擴大其基礎(chǔ)設(shè)施容量能力所需的周期性的大量的資本支出;也負擔不起與重新分配基礎(chǔ)設(shè)施資源,以應(yīng)對不斷變化的市場條件相關(guān)的成本和中斷。
基于云的基礎(chǔ)架構(gòu)服務(wù)提供了一種令人信服的方式來緩解這一挑戰(zhàn)。通過利用按需彈性云服務(wù),企業(yè)組織可以擺脫與內(nèi)部部署基礎(chǔ)設(shè)施相關(guān)的大量的前期資本支出,轉(zhuǎn)而采用由業(yè)務(wù)預(yù)算而產(chǎn)生的現(xiàn)收現(xiàn)付服務(wù)。這也允許企業(yè)組織得以能夠根據(jù)業(yè)務(wù)目標的變化來重新確定IT資源的優(yōu)先級。
公共云的關(guān)鍵監(jiān)控挑戰(zhàn)
隨著企業(yè)組織將越來越重要的業(yè)務(wù)服務(wù)遷移到公共云環(huán)境,確保其客戶和用戶獲得優(yōu)化的體驗變得至關(guān)重要。然而,當在公共云中運行應(yīng)用程序時,跟蹤進度和管理性能和服務(wù)水平可能會給IT企業(yè)組織帶來諸多方面的挑戰(zhàn)。
一、對云服務(wù)及其運行過程缺乏全面的、可操作的見解
當企業(yè)組織將工作負載遷移到云環(huán)境中時,其IT團隊通常會通過利用其云服務(wù)提供商的監(jiān)控工具來啟動。通常,云服務(wù)供應(yīng)商的監(jiān)控產(chǎn)品并不是專門的監(jiān)控解決方案。這些工具缺乏管理員主動管理在云中運行的工作負載和進程的性能和服務(wù)級別所需的許多功能。
在使用一款公共云服務(wù)時,企業(yè)組織通常將注冊特定的基礎(chǔ)設(shè)施產(chǎn)品,如計算、存儲等。云服務(wù)提供商的工具只會為這些資源提供監(jiān)控指標,從而導(dǎo)致了只有非常窄的可見性。例如,一款工具會告訴你,CPU利用率是60%,但是其不會提供任何關(guān)于哪個進程或服務(wù)對該利用率負責的相關(guān)細節(jié)。
此外,許多這些工具限制了IT團隊進行歷史性能分析和未來容量規(guī)劃的程度。這些工具通常只提供初步的報告,只能讓客戶在短時間內(nèi)保留監(jiān)控數(shù)據(jù)。因此,依靠云服務(wù)提供商的監(jiān)控工具的零售商將難以追蹤季節(jié)性趨勢,因為它們無法評估年度統(tǒng)計數(shù)據(jù)。
從根本上說,云服務(wù)供應(yīng)商的工具缺乏有效監(jiān)控服務(wù)水平的能力。因此,很難有效地衡量針對SLA的云服務(wù)的性能,并使服務(wù)提供商對所提供的服務(wù)級別負責。
二、對遷移生命周期的洞察見解有限
隨著企業(yè)組織將應(yīng)用程序和工作負載遷移到云端,他們需要確保這些遷移可靠地發(fā)生。為此,有效地跟蹤開發(fā)和生產(chǎn)中的工作負載的性能是相當重要的。通過這樣做,員工們可以最有效地確保不會出現(xiàn)任何錯誤或性能問題。最終,他們需要能夠比較生產(chǎn)前期和生產(chǎn)后期的性能指標,以便他們可以繼續(xù)優(yōu)化服務(wù)水平,并從云中實現(xiàn)最大的收益。
三、云和混合IT環(huán)境的多監(jiān)控工具的復(fù)雜性加劇
盡管對于云服務(wù)的采用正在迅速增長,但現(xiàn)實情況則是,大多數(shù)企業(yè)組織今天所采用的都是混合的方式,在云中運行的某些工作負載,同時還在企業(yè)內(nèi)部部署環(huán)境中運行其他工作負載。當企業(yè)IT團隊依靠云服務(wù)供應(yīng)商特定的監(jiān)控技術(shù)時,實際的情況是:工具數(shù)量和相關(guān)的挑戰(zhàn)將會增加。企業(yè)客戶的IT團隊將需要繼續(xù)使用他們現(xiàn)有的企業(yè)內(nèi)部部署的工具,畢竟,他們已經(jīng)在這些工具上投入了大量時間來采購,配置和管理。而采用云服務(wù)供應(yīng)商的特定工具則代表了企業(yè)員工們還需要學(xué)習、使用和管理相關(guān)的其他元素。
更進一步加劇了復(fù)雜性的事實是,大多數(shù)企業(yè)組織最終將會利用來自多家服務(wù)供應(yīng)商的云服務(wù)?,F(xiàn)實情況是,每款應(yīng)用程序都有其獨特的要求,而每家云服務(wù)提供商的產(chǎn)品又分別具有其獨特的優(yōu)勢和劣勢。因此,對于每款不同的云服務(wù)而言,企業(yè)組織可能需要添加一個獨特的監(jiān)控工具的混合。最終的結(jié)果是,除了他們可能已經(jīng)有的用以監(jiān)控他們企業(yè)內(nèi)部部署的技術(shù)的幾十款工具之外,一家企業(yè)組織可能最終需要使用來自多家云服務(wù)提供商的監(jiān)控工具。
隨著工具數(shù)量的不斷增加,企業(yè)的行政負擔和成本也將隨之增加。此外,當出現(xiàn)問題時,工作人員將不得不花費大量時間從一款工具轉(zhuǎn)移到另一款工具,并參與跨職能團隊會議,以便隔離在分布式環(huán)境中的問題根源。
四、利用率洞察見解有限
當利用云服務(wù)時,企業(yè)按照其所使用的容量能力支付費用。然而,由于繁瑣而有限的監(jiān)控工具,跟蹤和充分了解當前和正在進行的資源利用率是很困難的。因此,企業(yè)組織冒著為他們并不需要的容量能力支出費用的風險,這減少了通過遷移到云服務(wù)可能實現(xiàn)的一些潛在的回報。此外,企業(yè)組織需要分析歷史數(shù)據(jù),以便更好地規(guī)劃未來的容量能力和預(yù)算,并向開發(fā)團隊提供基礎(chǔ)設(shè)施視角,進而提高應(yīng)用程序的性能。
五、缺乏端到端的用戶體驗監(jiān)控
由于所使用的點工具有限,企業(yè)客戶的IT團隊對于最重要的一個方面缺乏洞察力,即:最終用戶體驗的質(zhì)量。點工具提供了對于特定基礎(chǔ)架構(gòu)元素的監(jiān)控,但它們并不能提供從用戶的角度跟蹤性能和可用性的能力,也不能用于衡量跨多個分布式基礎(chǔ)架構(gòu)和服務(wù)的事務(wù)的端到端的響應(yīng)時間。
最終,IT團隊可能從可用的監(jiān)控指標看到各種基礎(chǔ)設(shè)施元素的表現(xiàn)良好,但實際上用戶可能仍然會覺得性能較慢,或者他們可能根本無法完成所需的交易。這種可見性的缺乏將使企業(yè)面臨冗長和昂貴的性能和可用性問題。
優(yōu)化公共云基礎(chǔ)架構(gòu)性能的關(guān)鍵成分
一、獲得對于跟蹤效果的可操作的洞察
通常,來自云供應(yīng)商的點工具或工具將提供許多指標,但是這些指標難以理解,很難提供一套精準的分析洞察力,并且不能正常化。他們?nèi)狈梢詢?yōu)化性能和更快解決問題所需的可行的洞察。故而企業(yè)客戶需要確保使用可操作的指標,為您的云基礎(chǔ)設(shè)施提供真正的洞察見解以及掌握如何利用它們。
二、在云中監(jiān)控應(yīng)用程序和服務(wù)的運行,以更快地檢測問題
當企業(yè)組織注冊公共云服務(wù)時,他們通常訂購的是特定的系統(tǒng)或基礎(chǔ)架構(gòu)服務(wù),例如服務(wù)器、存儲、數(shù)據(jù)庫等。雖然來自云服務(wù)提供商的工具將為這些基礎(chǔ)架構(gòu)元素提供監(jiān)控詳情細節(jié),但是它們不會對運行在這些元素之上的應(yīng)用程序或進程的性能提供任何可見性。這些工具可能只顯示CPU的利用率為60%,但并不清楚哪個進程負責了哪項具體的工作負載。而企業(yè)團隊需要這種可見性,以全面的方式了解和優(yōu)化績效。
三、建立云和企業(yè)本地內(nèi)部部署基礎(chǔ)架構(gòu)的統(tǒng)一視圖,以加快平均修復(fù)時間
現(xiàn)實情況是,大多數(shù)企業(yè)組織都是在內(nèi)部部署和基于云的環(huán)境中運行工作負載。在管理企業(yè)內(nèi)部來源的IT環(huán)境時具有統(tǒng)一的觀點是至關(guān)重要的。雖然公共云服務(wù)在對服務(wù)器和其他基礎(chǔ)設(shè)施元素的實際控制程度方面提供了顯著的差異,但現(xiàn)實情況則是,具有統(tǒng)一的視圖同樣重要。當IT團隊全面了解其基礎(chǔ)架構(gòu)的所有功能和利用率時,可以方便他們更快地解決問題。
四、跟蹤端到端的用戶體驗,以確保服務(wù)的可靠性
今天,當銀行的客戶登錄到移動手機端的應(yīng)用程序來檢查她的賬戶時,一些分布式環(huán)境可能支持互動。用戶可以登錄到在某家公共云服務(wù)提供商的環(huán)境中所托管的Web服務(wù)器,然后證書可以由本地服務(wù)器驗證,然后可以按照順序?qū)ν泄茉诘诙以铺峁┥痰脑O(shè)施中的后端系統(tǒng)進行帳戶詳細信息的訪問調(diào)用。至關(guān)重要的是,IT團隊可以從端到端跟蹤這些多步交易,并準確測量用戶正在接收哪種體驗。
五、讓企業(yè)IT團隊對智能報警知情
云環(huán)境具有很強的彈性,計算資源不斷地被轉(zhuǎn)移和處理,這可能會對基于基礎(chǔ)監(jiān)控工具的團隊造成嚴重破壞。
企業(yè)IT團隊需要能夠設(shè)置智能、動態(tài)更新的閾值,以便他們能夠確保在需要時獲得對于問題的準確判斷,而不會被虛假和冗余的警報所困擾。通過利用復(fù)雜的超時閾值分析,IT團隊可以識別真正的、持久的性能問題,并消除與偶爾尖峰相關(guān)聯(lián)的虛假警報。超時閾值分析可以自動識別潛在的性能下降的威脅,并發(fā)出早期的警告,以便管理員可以在內(nèi)部和外部用戶受到影響之前做出響應(yīng)。
高級平臺可以提供一份代表了管理員應(yīng)該注意的問題情況的優(yōu)先級列表清單。他們還可以在預(yù)計發(fā)生問題之前按時間排列這些問題項目,以提示首先要注意立即解決的問題。此外,監(jiān)控平臺需要提供與服務(wù)臺解決方案的集成整合,以便在發(fā)生問題時,IT團隊可以自動打開一個包含有關(guān)問題的所有相關(guān)詳細信息的服務(wù)清單。
六、建立快速的、基于模板的監(jiān)控部署
云環(huán)境的主要優(yōu)點之一是他們所具備的靈活敏捷性。但是,云環(huán)境動態(tài)的,彈性的屬性也向企業(yè)IT團隊提出了一些挑戰(zhàn)。鑒于虛擬化的、按需分配的資源不斷被打開和關(guān)閉,以適應(yīng)不斷變化的工作負載,監(jiān)測還需要在連續(xù)的基礎(chǔ)上開始和停止。
為了對這些環(huán)境進行有效和高效的監(jiān)控,IT團隊需要盡可能減少或消除人工手動操作。而為了實現(xiàn)這些目標,IT團隊需要建立用于監(jiān)控特定類別技術(shù)的模板,并盡可能最大限度地利用自動化來應(yīng)用這些模板。七、在整個遷移周期中利用監(jiān)控
隨著企業(yè)組織將應(yīng)用程序從企業(yè)本地基礎(chǔ)架構(gòu)遷移到云環(huán)境中,他們將需要使用監(jiān)控,以確保不會引發(fā)服務(wù)級別的中斷。為了在過渡期間實現(xiàn)最有效地管理服務(wù)水平,IT團隊應(yīng)采用以下方法:
在遷移到新的云環(huán)境中時立即建立起對服務(wù)的監(jiān)控,這是至關(guān)重要的,因為這是最有可能發(fā)生配置和其他與遷移有關(guān)的問題。
開發(fā)儀表板和報告,提供新的部署實施之前的預(yù)先的細?;谋容^,這對于發(fā)現(xiàn)可能表明性能和可用性問題出現(xiàn)的趨勢至關(guān)重要。
對服務(wù)進行綜合監(jiān)控,無論是在初始的企業(yè)內(nèi)部部署實施中運行,還是遷移到云環(huán)境之后。 這些監(jiān)控指標為最終用戶服務(wù)水平提供了無與倫比的前后比較,以便使得IT團隊可以最有效地確保云遷移不會導(dǎo)致任何性能下降。圖D、為了管理云和混合IT環(huán)境,許多企業(yè)都依賴于多點監(jiān)控工具
七、主動監(jiān)控云的利用率
許多決策者最終選擇遷移到云環(huán)境,正是因為節(jié)省了成本并且可以獲得預(yù)算的靈活性。然而,一旦進入云計算,IT團隊就需要主動管理容量,以確保在最初和長期時限內(nèi)實現(xiàn)最大的成本節(jié)約。要實現(xiàn)這些目標,請考慮:
歷史趨勢報告和儀表板。有了這些視圖,分析師們就可以跟蹤長期利用率的趨勢并評估年度比較。對于那些必須適應(yīng)季節(jié)性和劇烈波動的使用趨勢的企業(yè)組織而言,這些視圖尤其重要。
成本和利用率數(shù)據(jù)的智能閾值。通過建立智能化的、超時閾值警報,IT團隊可以確保在資源過度配置之前通知它們,從而更積極地管理服務(wù)水平和容量。此外,通過智能閾值,IT團隊可以不斷確保他們掌握利用不足的資源,從而更積極地持續(xù)削減開支。
結(jié)論
雖然云服務(wù)的實施所能夠帶來的益處的確是很大的,但對于許多企業(yè)組織來說,某些回報可能是他們難以駕馭的。監(jiān)控能力將在企業(yè)組織是否可以從云部署中實現(xiàn)最大的業(yè)務(wù)收益方面發(fā)揮至關(guān)重要的作用。只有借助強大的統(tǒng)一監(jiān)控,企業(yè)組織才能有效地跟蹤和管理用戶所接收到的服務(wù)水平,并使業(yè)務(wù)能夠最充分地利用云產(chǎn)品所提供的成本節(jié)約和靈活敏捷性的優(yōu)勢。