原文:《IT 運(yùn)維中變更管理的意義和常見(jiàn)問(wèn)題解答》

在企業(yè)的運(yùn)維管理過(guò)程中,很多時(shí)候會(huì)有變更產(chǎn)生。這些變更通常來(lái)源于基礎(chǔ)設(shè)施的升級(jí),容量管理、可用性管理、軟件更新、新服務(wù)的推出,服務(wù)級(jí)別目標(biāo)的變化等等。這些變更在執(zhí)行中常 常會(huì)引發(fā)以下一系列的負(fù)面影響。

 

1. 一個(gè)小小的變更引起了一個(gè)重大的故障。 

2. 一個(gè)變更進(jìn)行中發(fā)現(xiàn)沒(méi)有足夠的資源可被使用來(lái)繼續(xù)完成此變更。 

3. 緊急變更數(shù)量太大,導(dǎo)致團(tuán)隊(duì)成員疲于應(yīng)付。 

4. 在業(yè)務(wù)窗口時(shí)間執(zhí)行變更,導(dǎo)致業(yè)務(wù)時(shí)間段內(nèi)業(yè)務(wù)中斷。 

5. 一個(gè)變更未能在規(guī)定時(shí)間內(nèi)完成或是雖然變更已完成,卻效果不佳。此時(shí)發(fā)現(xiàn)此變更無(wú)法回滾。

 

場(chǎng)景一:合理的變更分類(lèi)的意義

 

場(chǎng)景描述:

某個(gè) IT 服務(wù)提供商已經(jīng)實(shí)現(xiàn)了變更管理流程,在運(yùn)營(yíng)一段時(shí)間后,經(jīng)常有客戶(hù)抱怨說(shuō),他們提交的 變更審批得很慢,特別是一些緊急情況下的變更。更讓客戶(hù)難以接受的是,對(duì)于那些簡(jiǎn)單的低風(fēng)險(xiǎn) 的變更也同樣也需要等待很長(zhǎng)時(shí)間才能夠被正式受理和審批。我們?nèi)绾蝸?lái)改進(jìn)這種現(xiàn)狀呢?

 

解決方法:

作為變更管理最主要的目的是讓企業(yè)的 IT 服務(wù)穩(wěn)定性提高并控制風(fēng)險(xiǎn),但這需要在穩(wěn)定性和靈活性 之間做一個(gè)平衡。場(chǎng)景中的情形就是缺乏靈活性的表現(xiàn)。為了提高該企業(yè)的變更受理與執(zhí)行的效率, 通常變更管理實(shí)施的第一步是先對(duì)變更請(qǐng)求進(jìn)行分類(lèi),在風(fēng)險(xiǎn)和效率之間達(dá)到一種權(quán)衡,從而提高 執(zhí)行變更的靈活性,最終達(dá)到提高客戶(hù)滿(mǎn)意度目的。 

對(duì)于那些風(fēng)險(xiǎn)低的,影響度低的,而且是經(jīng)常會(huì)發(fā)生的變更,如:新入職員工開(kāi)設(shè)系統(tǒng)賬號(hào)、為 他們開(kāi)通郵件服務(wù)等。我們可以定義為標(biāo)準(zhǔn)變更:此類(lèi)變更跳過(guò)繁瑣的審批與評(píng)估過(guò)程,把變更的受理與執(zhí)行權(quán)預(yù)先授予某一個(gè)職能單元,如:服務(wù)臺(tái)。這樣提高了此類(lèi)變更執(zhí)行的效率,必定 會(huì)提升客戶(hù)對(duì)于此類(lèi)變更執(zhí)行的滿(mǎn)意度。 

對(duì)于那些非常緊急的變更,由于時(shí)間上不允許有過(guò)多的拖延,并且不可能有太多的時(shí)間用于審批 甚至是測(cè)試,我們定義為緊急變更。對(duì)于這些變更我們直接直接由專(zhuān)家來(lái)執(zhí)行,優(yōu)先級(jí)設(shè)成最高 級(jí),馬上召開(kāi) CAB/EC(緊急變更顧問(wèn)委員會(huì))進(jìn)行評(píng)估和直接獲得最高級(jí)授權(quán),直接獲得變更執(zhí) 行的相關(guān)資源,有效減少變更掛起的時(shí)長(zhǎng)。從時(shí)間上縮短了受理與審批的周期。 

對(duì)于兼顧風(fēng)險(xiǎn)和效率的變更我們定義為正常變更,并根據(jù)影其響度劃分為不同的等級(jí)(如:Minor、 Significant、Major 等)。對(duì)于 Minor 類(lèi)型的變更直接由變更經(jīng)理審批,而不需要由 CAB 會(huì)議審 批,Significant 類(lèi)型分配給周期性的 CAB 會(huì)議,定義為 Major 類(lèi)型的通常是高風(fēng)險(xiǎn)、高影響度 的,直接由管理層來(lái)進(jìn)行審批和評(píng)估。通過(guò)這樣的分類(lèi)能有效地進(jìn)行風(fēng)險(xiǎn)控制,從而達(dá)到提高變 更成功率的目的。

總結(jié):由于有了一系列的分類(lèi),針對(duì)不同的變更給予不同的處理過(guò)程,避免了之前的所有變更都采 用相同的處理方式。實(shí)行一段時(shí)間后,客戶(hù)滿(mǎn)意度將有顯著的提高。

 

場(chǎng)景二:變更導(dǎo)致故障

 

場(chǎng)景描述:

某企業(yè)在周一業(yè)務(wù)繁忙時(shí)段上線(xiàn)了一個(gè)新的應(yīng)用——客戶(hù)關(guān)系管理系統(tǒng),此系統(tǒng)安裝在某一臺(tái)主機(jī) 上,此主機(jī)之前一直正常運(yùn)行著另一套系統(tǒng)——備件采購(gòu)管理系統(tǒng)。升級(jí)完以后發(fā)現(xiàn)客戶(hù)關(guān)系管理 系統(tǒng)能夠正常服務(wù),但原有的備件采購(gòu)管理系統(tǒng)無(wú)法登錄,導(dǎo)致當(dāng)天上午采購(gòu)管理系統(tǒng)這個(gè)應(yīng)用癱 瘓。IT 技術(shù)團(tuán)隊(duì)經(jīng)過(guò)一個(gè)上午的努力排除了故障,找出了原因,并恢復(fù)了服務(wù)。但業(yè)務(wù)部門(mén)對(duì) IT 卻提出了嚴(yán)重指責(zé),從管理的角度來(lái)思考,你更關(guān)注那個(gè)方面呢?問(wèn)題何在?

 

解決辦法: 

從技術(shù)的角度上來(lái)說(shuō),是由于之前主機(jī)上安裝了一套采購(gòu)管理系統(tǒng),使用的是 SQL Server 數(shù)據(jù)庫(kù), 并且默認(rèn)都是用 sa 帳號(hào)登錄。新的應(yīng)用同樣使用 SQLServer 數(shù)據(jù)庫(kù),新系統(tǒng)使用的數(shù)據(jù)庫(kù)也是 SQLServer 數(shù)據(jù)庫(kù),并且后臺(tái)登錄用戶(hù)名也是使用了和采購(gòu)管理系統(tǒng)相同的用戶(hù)名 sa,但密碼不同, 在安裝新應(yīng)用的過(guò)程中修改了原先的 sa 密碼,所以導(dǎo)致原有的備件采購(gòu)管理系統(tǒng)無(wú)法正常啟動(dòng)。 

從管理的角度上來(lái)說(shuō),變更的執(zhí)行需要在適當(dāng)?shù)臅r(shí)間做,也就是說(shuō)我們要選擇一個(gè)變更窗口,在這 個(gè)時(shí)間內(nèi)這樣就不會(huì)影響到業(yè)務(wù)或是對(duì)業(yè)務(wù)影響最小。變更窗口設(shè)在什么時(shí)間段呢?很容易想到就 是下班后或是雙休日,絕對(duì)不會(huì)是像周一這樣的業(yè)務(wù)繁忙時(shí)段。這個(gè)新應(yīng)用的安裝最多也就在 2 小 時(shí)內(nèi)可以完成,可選的時(shí)間段非常多。所以以上企業(yè)的問(wèn)題是在非變更窗口時(shí)間執(zhí)行變更,導(dǎo)致現(xiàn) 有的服務(wù)受到影響而中斷。所以每一個(gè)正常變更在評(píng)估變更時(shí)就要考慮到變更的影響度,預(yù)先設(shè)定 好變更窗口。這樣才能保證業(yè)務(wù)的正常運(yùn)作。

 

場(chǎng)景三:把緊急變更比例控制在合理的區(qū)間

 

場(chǎng)景描述:

某個(gè)制造企業(yè)緊急變更的數(shù)量占變更總數(shù)量的 80%。很多情況下由于緊急變更沒(méi)有足夠的時(shí)間來(lái)進(jìn) 行評(píng)估與測(cè)試,數(shù)量多的話(huà)會(huì)導(dǎo)致 IT 的穩(wěn)定性降低。所以應(yīng)該嚴(yán)格控制緊急變更的數(shù)量和比例,從 而減少變更的不確定因素。對(duì)于此種現(xiàn)狀,如何應(yīng)對(duì)和改善?

 

解決辦法: 

緊急變更 80%明顯高得離譜。首先找到這類(lèi)緊急變更的具體原因是什么,案例中發(fā)現(xiàn),這些緊急變 更都來(lái)源于同一個(gè)分類(lèi),都是關(guān)于一個(gè)生產(chǎn)管理系統(tǒng)的軟硬件的緊急變更。很多人認(rèn)為此生產(chǎn)管理 系統(tǒng)非常重要,如果存在問(wèn)題執(zhí)行一系列的緊急變更也是沒(méi)有辦法。但誰(shuí)又能保證如此多的緊急變 更能真正解決現(xiàn)有的故障率呢?緊急變更量大反而會(huì)使得系統(tǒng)更不穩(wěn)定。就好比是拆東墻補(bǔ)西墻。  

對(duì)于每一個(gè)重大變更都做好充分的評(píng)估與測(cè)試工作,這樣可以避免在重大變更發(fā)布后,再跟進(jìn)很多 修補(bǔ)的緊急變更。 

在重大變更時(shí)設(shè)定一段試運(yùn)行期,如果試運(yùn)行評(píng)價(jià)報(bào)告不夠好,或是不滿(mǎn)足當(dāng)初評(píng)估的預(yù)期,可以 考慮回滾,只有評(píng)估滿(mǎn)足預(yù)期并穩(wěn)定運(yùn)行的變更,才會(huì)被變更。 

總結(jié):需要對(duì)緊急變更的數(shù)量和比例做好嚴(yán)格的控制,從而保證變更的穩(wěn)定性。