在中國信息通信研究院與中國通信企業(yè)協(xié)會共同主辦的第二屆“鼎新杯”數(shù)字化轉型應用大賽中,北京移動和嘉為藍鯨聯(lián)合申報的“北京移動云計算智能運維平臺建設項目”,從兩千余個申報案例中脫穎而出,最終榮獲大賽二等獎。
中國移動通信集團北京有限公司(下稱北京移動)成立于1999年,隸屬于中國移動通信集團公司,秉承“正德厚生,臻于至善”的企業(yè)核心價值觀,緊密圍繞“做世界一流企業(yè),成為移動信息專家”的戰(zhàn)略定位,以卓越品質鍛造一流信息服務,用創(chuàng)新精神努力實現(xiàn)從優(yōu)秀向卓越的新跨越,著力推動“移動改變生活”。
一、初探自動化,轉型亟需新動能
自成立以來,北京移動始終保持行業(yè)信息化領跑者的身份,堅持“以追求卓越,讓數(shù)字化生活更美好”為使命,志愿成為“客戶首選的數(shù)字化服務的引領者”。為快速響應業(yè)務需求,IT團隊前期從技術平臺建設切入,使用開源軟件搭建了基礎的自動化運維系統(tǒng),實現(xiàn)了腳本和文件的批量自動化,但仍存在如配置數(shù)據(jù)覆蓋不全、作業(yè)執(zhí)行管控手段欠缺、運維場景化能力不足、技術架構相對簡單等問題。
為提升系統(tǒng)穩(wěn)定性,保障業(yè)務穩(wěn)定運行,北京移動攜手嘉為科技旗下研運品牌嘉為藍鯨,打造智能運維平臺,建設配置數(shù)據(jù)管理、監(jiān)控管理、日志管理、統(tǒng)一告警管理、自動化巡檢、運營服務報表等運維場景,實現(xiàn)管理流程創(chuàng)新,完善智能運維能力,向著具備業(yè)務價值的運維模式邁進。
二、“平臺+應用”,高效擴展應用場景
通過PaaS平臺+SaaS場景的方式構建一體化運維管理體系,1個基礎平臺融合了公共能力,支撐場景應用的運行、協(xié)同、服務。場景應用包括了配置管理CMDB、IT監(jiān)控告警、日志平臺、自動化巡檢、運營服務報表等5大應用,后續(xù)可快速、靈活擴展各類應用。
1、平臺規(guī)模:當前生產環(huán)境按支持納管200+節(jié)點服務器,納管8套應用系統(tǒng),部署運行16個運維場景工具;
2、平臺集成:與4A系統(tǒng)集成對接,與郵件系統(tǒng)集成實現(xiàn)消息通知;
3、統(tǒng)一管控:采用管控平臺納管不同網(wǎng)絡區(qū)域的主機。
三、提速運維效能,保障業(yè)務穩(wěn)定運行
1、CMDB自動采集,資源統(tǒng)一管理
構建云運維基石CMDB,實現(xiàn)資產數(shù)據(jù)的集中管理,為應用提供各種運維場景的配置數(shù)據(jù)服務。通過提供配置管理服務,以數(shù)據(jù)和模型相結合映射應用間的關系,保證數(shù)據(jù)的準確和一致性;并以整合的思路推進,最終面向應用消費,發(fā)揮配置服務的價值,實現(xiàn)IT資源集中規(guī)范化管理和消費。
·云平臺A創(chuàng)建模型涵蓋主機、業(yè)務、云虛擬資源、安全設備、基礎設施、網(wǎng)絡、服務器、云平臺等共30+個;同時完成VMware、華為云資源的接入;納管主機120+、接入業(yè)務6個;配置發(fā)現(xiàn)配置采集任務運行次數(shù)270+;
·云平臺B創(chuàng)建模型包括數(shù)據(jù)中心、機房、機柜等共計30+個,完成模型數(shù)據(jù)錄入;
·自動采集錄入虛擬機實例近1600條,計算服務器160+條,存儲服務器110+條,虛擬資源卷1200+條。
2、海量對象納管,一體化監(jiān)控升級
基于平臺豐富的數(shù)據(jù)采集、數(shù)據(jù)處理及插件擴展能力,集成現(xiàn)有監(jiān)控平臺,實現(xiàn)對各類網(wǎng)絡設備、主機設備、存儲設備、中間件、數(shù)據(jù)庫、關鍵應用進程的監(jiān)控告警。通過集中管理告警信息,并采取統(tǒng)一的收斂、屏蔽、關聯(lián)分析、自動化處理等手段提高告警有效性,減少誤告與漏告,實現(xiàn)告警從接入、收斂、處理、分派的閉環(huán)管理,提升了告警處理效能,保障系統(tǒng)穩(wěn)定運行。
·監(jiān)控接入:納管4個業(yè)務系統(tǒng),共計120+臺主機監(jiān)控、4個網(wǎng)絡端口撥測監(jiān)控、20+個進程監(jiān)控,3個自定義腳本監(jiān)控,共計70+個監(jiān)控指標;
·告警接入:告警接入華為云、Zabbix、VMware等13個告警源,完全覆蓋1、2層硬件監(jiān)控,3層監(jiān)控覆蓋4個業(yè)務系統(tǒng)。
3、日志聯(lián)動告警,網(wǎng)絡健康隨時保障
完成日志監(jiān)控數(shù)據(jù)告警配置,可通過網(wǎng)絡設備的日志數(shù)據(jù)分析來獲取網(wǎng)絡設備健康狀態(tài),同時,對網(wǎng)絡設備的日志級別進行數(shù)量統(tǒng)計及監(jiān)控展示面板。共接入70+個網(wǎng)絡日志數(shù)據(jù)源,創(chuàng)建10個網(wǎng)絡任務接入任務,5個網(wǎng)絡日志數(shù)據(jù)儀表盤,3個日志關鍵字告警任務。
4、巡檢自動化,安全防范更高效
通過自定義巡檢腳本和腳本對象,進行及時性、周期性等巡檢工作的自動化執(zhí)行,替代運維人員日常手工巡檢,可根據(jù)不同運維角色,自定義不同的巡檢工作計劃,并生成標準可視化報告。輔助運維團隊全面了解各類軟硬件資源的生產健康狀態(tài),從全量的生產系統(tǒng)中提前發(fā)現(xiàn)隱患,保障業(yè)務穩(wěn)定性。
·巡檢模版:完成4個標準化主機巡檢腳本,Linux巡檢模版3個,各類巡檢指標62個;
·巡檢任務:配置巡檢任務3個,32個主機巡檢對象。
5、數(shù)據(jù)可視化,IT運行全掌握
北京移動原先并未使用專門的報表工具,用Excel手工記錄資源資產信息,工作量大且時效性低,準確率也難以保證,制作、維護、查看均不方便。本項目基于藍鯨平臺,打造了一款輕量級、可自主分析的報表制作工具,實現(xiàn)對各類數(shù)據(jù)源的接入,幫助運維人員全方位掌握IT資源的運行狀態(tài)及資源使用情況。
·云平臺A:完成對接華為和VMware數(shù)據(jù)接口獲取數(shù)據(jù)。在運營服務報表中創(chuàng)建華為報表數(shù)據(jù)源9個,VMware數(shù)據(jù)源7個,制作華為運維報表8個;制作VMware運維報表5個,包括日報,周報和月報,并實現(xiàn)字段篩選展示報表數(shù)據(jù);
·云平臺B:完成5個數(shù)據(jù)文件的解析,并封裝為報表數(shù)據(jù)源接口,并根據(jù)需求生成5個類別共8張自動化運維報表,可根據(jù)時間或對象名稱進行篩選展示。
在數(shù)字化轉型浪潮中,北京移動率先出擊,打造了面向云計算運維場景的智能運維平臺,推進更精細化、自動化、智能化運維體系建設,強化系統(tǒng)風險和故障的早發(fā)現(xiàn)、早定位、早處置,保障業(yè)務穩(wěn)定運行,并建設完善的運維開發(fā)能力,實現(xiàn)從傳統(tǒng)運維向運維開發(fā)的轉型。
相關稿件