原文:《ITIL4事件管理實踐》

ITIL4 事件管理的最佳的實踐

事件的定義

事件(Incident):服務的意外中斷或服務質量的下降。與ITIL V3相比,ITIL 4給出的定義更清晰。ITIL 3中把事件定義為“任何可被發現或辨別的事情,此類事情對于基礎設施的管理或IT服務的交付有重要意義,以及有助于評估可能致使服務出現的誤差。”工具

事件管理的目的是“確保將計劃外服務不可用或降級的時間減至最少,從而減小對用戶的負面影響。”也就是說,讓服務快速恢復。實現這一點的主要因素有兩個:早期事件檢測和快速恢復服務正常運行。ITIL 4強調了早期事件檢測,也就是更主動的進行異常管理,并在故障還未形成業務影響時盡快處理。學習

事件模型(Incident Model):一種可重復的方法來管理特定類型的事件。url

ITIL 4在快速恢復服務的正常運行方面,提出了“事件模型”的概念,意思是對于某些特定類型的事件,如常常發生的,能夠定義事件模型,包括解決方案,團隊,人員。那么事件模型的解決方案可使用知識管理實踐。spa

重大事件(Major Incident):具備重大業務影響的事件,須要當即協調解決。.net

重大事件的管理流程每每在大型企業中,獨立于通常事件管理流程,由于事件影響巨大,須要上報領導,也有可能上報監管部門。這類事件發生時,組織須要協調資源立刻解決,同時過后須要寫報告,開回顧會等等,比通常的事件作的工做多。建議針對重大事件,制定獨立的流程去管理。可是這里的難點在于如何區分重大事件和普通事件?翻譯

變通方案(Workaround):減小或消除還沒有徹底解決的事件或問題的影響的解決方案。設計

技術債:經過選擇變通方案而不是須要長時間的系統解決方案而累積的總返工積壓。

每每變通方案的聚焦帶來了技術債務,能夠經過“問題流程”來制定完全的解決方案,消除技術債務。



事件管理的范圍

事件管理的范圍包括:

檢測和記錄事件

診斷和調查事故

將受影響的服務和CI恢復到商定的質量

管理事件記錄

在整個事件生命周期內與相關利益相關者溝通

審查事件,并在解決后開始改進服務和事件管理實踐

當咱們說起范圍的時候須要將將事件管理和其余管理實踐的界面。

1. 事件和變動

變動的管理范圍是”對服務產生直接或間接影響的任何東西的添加、修改或刪除“,也就是說當對服務或產品進行增、刪、改時,咱們應該使用變動管理。變動管理解決的是兩個問題:第一, 是否應該作,這是變動以前的評估和分析,第二,是否作的正確,這是變動實施時的管控。若是變動完成后,發生問題,應該開事件工單,快速修復,同時關聯事件和變動的工單。

有人會說,這樣管理很麻煩,工單開來開去。可是這樣的好處是界面清晰,不須要區分各類場景。咱們經過事件和變動流程界面的清晰分割,也能夠對于變動的成功率進行必定的統計。有人會問,若是應用的變動失敗了,發生故障,不須要開事件工單,直接回滾變動就能夠,這樣應用的變動成功率同樣能夠統計。確實,可是咱們很差統一事件里面有多少是變動形成的,甚至在事件發生時,咱們不肯定是不是變動形成的。

從流程制定的角度來考慮,流程盡量不去區分應用的場景,進行場景細分的流程其設計太復雜,在實際執行過程當中容易混淆,形成混亂,最后的統計報表就是不許確的。因此,

2. 事件和服務請求:

服務請求是”由用戶或用戶受權表明提出的發起服務行動的請求,該服務行動已被視為服務交付的正常部分“。在企業中,服務請求大部分被應用于桌面支持,如安裝軟件,申請辦公設備。對于生成系統的服務請求多用于查詢。若是發生更改,須要變動流程的支持。

3. 事件與問題:

事件管理的范圍是快速恢復服務,問題管理的范圍是找根因。每每故障發生后,服務恢復完畢,想知道確切的緣由或者完全的解決方案,用問題管理流程會更合適。

有的企業把事件管理和問題管理混為一談,服務恢復后,業務部門不但愿IT部分關閉事件工單,找到根本緣由才能夠。這樣作的結果是,有不少故障,服務已經恢復正常運行,可是事件工單開了好久,事件的統計報表不能真實反映生成環境服務的情況。

客戶想知道故障發生的根本緣由,這是合理的要求。IT能夠用問題流程來找根因,建議有專門的問題經理來追蹤。這一點我寫問題管理實踐的時候再詳細描述。

4. 事件和服務臺:

服務臺是IT運維部門的窗口,服務臺的管理更偏向與溝通,話術等。

5. 事件和“監控與事態”:

事件管理是Incident Management, ITIL 4里把監控和事態(event)寫到了另外一個practice里。監控和事態實踐的范圍是監控的范圍,監控規則和閾值的設定,Event(事態)的分類分級,肯定事件的聯動規則。


事件實踐管理的成功因素

事件管理須要關注如下兩點:

1. 及早發現:

及早發現的落地實現實現須要強大的監控工具支持,流程管理上更多依賴與”監控和事態“管理。

2. 快速恢復

快速恢復的實現手段包括

1)集中會診(Swarming):尤為是出現重大故障時,技術專家要匯集起來,集中解決故障,恢復服務。

2)事件模型(Incident Model):對于常常發生的問題,能夠定義事件模型進行記錄。

3)定義好事件的優先級:事件的優先級時事件流程在實施過程當中的一個難點。通常從”緊急狀況“和”影響范圍“兩個維度來定義事件的優先級,但是這兩個維度大部分狀況下也是感性認知,很難用明確的Criteria來定義。因此實施的過程當中,客戶也IT部門常常會為優先級爭執。這一點須要根據企業的實際狀況來討論,制定解決辦法。



事件管理的流程

ITIL 4把事件管理的流程分為”事件處理流程“和”事件按期回顧流程“,強調了事件的過后回顧。

1. 事件處理流程圖見下:

image



1.主要活動為:

事件檢測:分為用戶匯報或者工具自動檢測

事件登記:服務臺代理執行事件注冊,或者技術工具自動注冊事件

事件分類:進行類別分類并分派工單,也分為手動和自動

事件診斷:若是分類不能提供對解決方案的理解,技術專家團隊將執行事件診斷。這可能涉及團隊之間事件的升級,或聯合技術,例如集中診斷。若是分類錯誤是由于CI分配不正確,要將此信息傳達給負責配置控制的人員。這里注意:事件能夠關聯CI項。

事件解決:若是解決方案不正確,須要再次回到事件診斷。

事件關閉:事件成功解決后,可能須要一些正式的關閉程序:

●用戶確認服務恢復

●處置成本計算和報告

●解決價格計算和開票

●問題調查啟動

●事件回顧。


2. 事件按期回顧:


image


事件的指標

ITIL 4列了一些指標示例,比較經常使用的是黑體標出的部分:


關鍵成功因素 重要指標

及早發現事故   事件發生與檢測之間的時間

                       經過監控和事件管理檢測到的事件百分比

快速有效地解決事件

               事件檢測和診斷驗收之間的時間

               診斷時間

               從新分配次數

               等待時間占總事件處理時間的百分比

               首次解決率

              知足商定的解決時間

              用戶對事件處理和解決的滿意度

              自動解決的事件百分比(若是實行了“故障自愈”的自動化處理手段)

              在用戶報告以前已解決的事件的百分比

持續改進事件管理方法

             使用先前肯定和記錄的解決方案解決事故的百分比

             使用事件模型解決的事件百分比隨著時間的推移關鍵實踐指標的改進

             事件解決的速度和有效性指標之間的平衡

角色和文化

             ITIL 4 在事件管理流程中強調了角色和文化。

             事件經理(Incident Manager):

             Incident Manager最好由專人負責,主要工做包括:

            根據組織設計,協調組織內或特定區域內的事件處理,如區域、產品和技術

            協調人工做業與事故,尤為是涉及多個團隊的事故

            監督和審查處理和解決事故的團隊的工做

            確保在整個組織內充分了解事件及其狀態

            按期進行事件審查,并開始改進事件管理實踐、事件模型和事件處理程序

            發展組織在事故管理實踐過程和方法方面的專業知識

            事件經理在某些組織下會擔任重大事件協調員的角色,這也是合理的,也能夠和兼任問題經理的角色。


若需要ITIL4事件管理完整實踐資料,請點擊右上角注冊賬號后向客服索取!

永服科技有限公司(簡稱“Servicehot”),運用ITIL、ISO20000、ITSS等最佳實踐方法,結合ServiceHot在國內外眾多行業客戶的IT服務管理、信息安全管理方面的成功實施經驗,協助客戶梳理并建設IT管理體系,推動企業數字化轉型,ServiceHot產品在數以百計的大型的國企、制造業、金融、IT互聯網等行業完成了實際的應用和推廣,主要案例包括:XX省農信、建信基金、中原銀行、國信證券、四川長虹、一汽啟明、中國移動、中國石化、華為、深信服、中航西飛、中航成飛、深圳航空、富力集團、華西醫院、西南民族大學、瀘州老窖、天原集團等。