原文:《商業(yè)銀行IT運維管理體系》

隨著金融科技發(fā)展的日新月異,信息技術在銀行系統(tǒng)扮演的角色越來越重要,銀行業(yè)的日常穩(wěn)定運營與IT系統(tǒng)緊密相關,信息技術早已成為與核心業(yè)務系統(tǒng)管理息息相關的重要要素。構建安全、穩(wěn)定、有序、高效的IT運維管理模式,是各商業(yè)銀行推動業(yè)務系統(tǒng)穩(wěn)定運行、加強自身競爭能力的關鍵所在,對促進商業(yè)銀行支付業(yè)務安全健康發(fā)展具有積極意義。

主要問題

IT運維管理是指基于網(wǎng)絡基礎設施建設,在網(wǎng)絡設施的運行狀態(tài)下,采用相對應的管理方法,對物理網(wǎng)絡、軟硬件環(huán)境等運行環(huán)境進行維護管理的IT管理工作,實現(xiàn)完善的IT運維管理是商業(yè)銀行提高經(jīng)營水平和服務水平的關鍵。從調研情況看,目前商業(yè)銀行IT運維管理工作存在一些問題,制約了商業(yè)銀行IT運維管理水平的進一步提升。例如:IT運維管理機制不完善,流程操作缺乏嚴肅性;運維管理過度依賴科技人員,不能形成與統(tǒng)一業(yè)務目標建設的合力;KPI關鍵績效指標考核機制不完善,不能全面準確反映真實的工作績效;缺乏管理工具,無法在IT運維過程中提供全面、安全、穩(wěn)定的運行支持;缺乏系統(tǒng)化的、詳盡的標準化建設,簡單的收集、梳理難以滿足未來企業(yè)IT信息化發(fā)展需要;突發(fā)事件的預警和告警無法實現(xiàn)統(tǒng)一可視化,導致IT運維事件響應來源不一,工作效率低下,突發(fā)事件應急能力較低。

管理思路

從商業(yè)銀行IT運維管理存在的問題分析看,應采取“三步走”模式逐步加以完善和改進:一是運維服務流程梳理,對服務工作任務分解、排列,形成固定服務程序;二是在服務流程、規(guī)范這兩個維度形成“服務工作標準”,確保操作流程統(tǒng)一性;三是利用IT工具約束工作任務,建立相應的KPI關鍵性指標,準確衡量服務質量。

在此基礎下,從六個方面進一步完善IT運維管理平臺。一是搭建統(tǒng)一監(jiān)管平臺。通過搭建統(tǒng)一監(jiān)管平臺,實現(xiàn)機房狀態(tài)、系統(tǒng)狀態(tài)、網(wǎng)絡吞吐、應用日志等基礎監(jiān)控和業(yè)務監(jiān)控的統(tǒng)一管理,擺脫監(jiān)控產品多、監(jiān)控場景單一的處境。二是實現(xiàn)基礎設施全面監(jiān)控。采用專業(yè)的運維監(jiān)控框架,結合行內自身特點進行適應性匹配,實現(xiàn)所有設備實時監(jiān)控。三是分析、歸類、整合高效化。借助ELK技術將分散在服務器中的數(shù)據(jù)收集、分類;采用運維監(jiān)控和ELK兩種采集方式,結合大數(shù)據(jù)手段,對數(shù)據(jù)進一步分析、歸類、整合等,為IT運維提供多種數(shù)據(jù)服務。四是數(shù)據(jù)分析的加強。利用互聯(lián)網(wǎng)成熟穩(wěn)定技術作為支撐,在統(tǒng)一監(jiān)控平臺基礎上,對各類監(jiān)控數(shù)據(jù)指標進行數(shù)據(jù)處理、趨勢分析,降低風險發(fā)生概率。五是強化突發(fā)事件處置能力。統(tǒng)一監(jiān)控平臺可在突發(fā)事件中觸發(fā)告警,對常規(guī)操作謹慎自動化嘗試處理,為突發(fā)事件的處理爭取時間。六是標準化與自動化相結合。信息科技管理平臺與統(tǒng)一監(jiān)控平臺相互對接,通過標準化流程推動自動化處理,保障運維合規(guī)化、標準化、自動化流程。自動化能力與標準化建設相輔相成,共同發(fā)展,為IT運維管理提供全面支撐。

管理目標

其一,自動化業(yè)務監(jiān)控——風險提示。統(tǒng)一監(jiān)控平臺以微服務架構模式,通過多個不同服務模塊對支付系統(tǒng)進行實時監(jiān)控,如:查詢查復、頭寸、凈借記限額、止付業(yè)務、退匯、掛賬未受理情況等,通過大數(shù)據(jù)趨勢分析,規(guī)律性展示業(yè)務高發(fā)時段,提醒運維人員提前做好風險防控。

其二,基礎環(huán)境信息收集——風險暴露?;A環(huán)境信息采集內容不斷增多,通過統(tǒng)一監(jiān)控平臺反映出來的如影響性能或安全方面的隱患逐漸顯露,及時調整系統(tǒng)、網(wǎng)絡、應用架構,盡早處理隱患,保障了支付系統(tǒng)的業(yè)務連續(xù)性,網(wǎng)銀交易超時率大幅降低。

其三,可視化信息查詢——風險靈活掌握。可視化信息查詢以“監(jiān)控隨行”為目標,實現(xiàn)多節(jié)點、自適應、跨平臺、多端適配,信息隨行方式,使相關業(yè)務、技術人員隨時隨地查詢統(tǒng)一監(jiān)控平臺的監(jiān)控信息,使支付基礎環(huán)境、業(yè)務指標、異常檢測通過預警、告警、可視化、數(shù)字化、自動化和多展示、多處理形式,提高受理效率,保證支付安全。

相關建議

一是強化信息共享。IT運維管理相關技術更新?lián)Q代速度較其它領域更快,相關技術人員需要接受的信息較多,加強信息的共享是避免出現(xiàn)技術盲區(qū)的有效手段之一。提供開放的分享空間,使員工通過討論的方式分享自己的經(jīng)驗與想法,加強信息流動力的同時激發(fā)員工的創(chuàng)新思考精神,各部門間相互學習,交流經(jīng)驗,從而達到增強整個IT運維管理團隊技術能力的目的,逐步擊破整個組織技術盲區(qū)。

二是加強運維流程管理。進一步完善運維管理流程,健全運維管理制度和標準,通過建設全面的監(jiān)控管理平臺將各個業(yè)務系統(tǒng)中的各種設備、軟件、業(yè)務應用均能納入到監(jiān)控平臺中來,消除管理對象之間差別、消除數(shù)據(jù)采集手段的差別、消除管理軟件的差別,對各種不同來源數(shù)據(jù)統(tǒng)一處理、統(tǒng)一展現(xiàn)、統(tǒng)一用戶登錄、統(tǒng)一權限控制。

三是增強應對突發(fā)事件能力。應急演練是檢驗IT運維管理體系成熟度、運維應急預案、系統(tǒng)承載力的重要手段。日常加強應急演練,是保障突發(fā)事件下IT運維管理相關系統(tǒng)正常運行的重要前提。在具體演練中,要制定詳細的演練方案,明確突發(fā)事件成因、目的、具體時間、演練成員等重要事項,針對演練過程中發(fā)現(xiàn)的問題,進行評估分析,完善IT運維管理應急體系,為應對突發(fā)事件打下堅實基礎。