加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 人員能力提升緩慢
    • 監(jiān)管能力不足
    • 管理視圖和維護視圖嚴重不一致
    • 最后用一段來自總部對當(dāng)前運維囧境的總結(jié):
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

核心網(wǎng)運維的窘境

2020/11/05
130
閱讀需 9 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

核心網(wǎng)是網(wǎng)絡(luò)大腦,也是 5G 使能行業(yè)數(shù)字化轉(zhuǎn)型的引擎,但現(xiàn)有運維模式通過多年的實踐,核心網(wǎng)運維仍存在幾大窘境。

人員能力提升緩慢

維護人員既要做分析、又要去操作,可能最后分析沒做好、操作無法落實。維護人員就是解決設(shè)備問題。現(xiàn)有的運維機制是:設(shè)備產(chǎn)生告警、監(jiān)控收告警派工單、維護人員處理工單、監(jiān)控核實回單質(zhì)量完成閉環(huán)??此贫嗝赐昝赖墓芾砹鞒獭嶋H上,維護人員在看到告警的時候可能無法準確定位問題根因。這就對維護人員的技能水平提出了較高的要求。只有具有較高的技能水平、多年的維護經(jīng)驗,才能夠具有從虛虛實實的告警信息中分析出關(guān)鍵問題點。這僅僅是做了第一步。其次還要具備處理問題的能力。這個問題該如何處理?可能需要更換板卡的能力、可能需要聯(lián)系承載網(wǎng)、周邊網(wǎng)元協(xié)同處理等等的協(xié)同能力。

實際上,人員真實技能和實際工作技能需求的缺口始終存在。這就導(dǎo)致一個大家都不想看到的但又是實際存在情況:有時我們又沒做好故障分析、也沒做好故障處理。

維護人員故障處理能力的提升需要大量的案例來支撐,而實際上核心網(wǎng)沒有大量的故障案例來支撐大批的維護人員提升能力。這就導(dǎo)致:維護人員間的故障處理能力始終不是均衡的。這就好比醫(yī)生看病一樣,醫(yī)生的經(jīng)驗來源于大量的臨床經(jīng)驗。我們之所以相信老中醫(yī)、老醫(yī)生,是因為這些醫(yī)生處置過大量的病例(=故障案例),處置這些病例的同時也提升了醫(yī)生自身的能力和水平。如果僅僅是依靠看書學(xué)習(xí)病例,是無法顯著提升醫(yī)生的水平的。同樣的道理,維護工作也類似醫(yī)生,既需要學(xué)習(xí)也需要案例來支撐能力提升。這就是為什么一些核心網(wǎng)的前輩們所說的:培養(yǎng)一個成熟的核心網(wǎng)人員至少需要 3 年以上的原因。

監(jiān)管能力不足

現(xiàn)在的設(shè)備監(jiān)控模式是:設(shè)備產(chǎn)生告警然后發(fā)送給廠家 OMC,廠家 OMC 再發(fā)送給集中故障系統(tǒng),集中故障系統(tǒng)再派 EOMS 工單給維護人員(監(jiān)控人員同步人工通知部分告警情況。)這個監(jiān)控模式不僅僅適用于核心網(wǎng)設(shè)備,也應(yīng)用于所有無線、傳輸、動力等專業(yè)的設(shè)備。不僅僅適用于網(wǎng)絡(luò)管理中心,也應(yīng)用于所有的分公司。這個模式通過多年的運營已經(jīng)暴露出至少三大主要問題:

? 第一大問題:故障通知存在時延問題

核心網(wǎng)不發(fā)生故障是難以實現(xiàn)的,核心網(wǎng)的維護目標(biāo)應(yīng)該定位成:不發(fā)生重大故障。重大故障不是從 0 瞬間突變成重大故障,而是從 0 變成小故障,再發(fā)展成大故障。在故障監(jiān)管上,核心網(wǎng)需要告警通知的時延足夠短,多短?我認為 15 分鐘以內(nèi)就是目標(biāo)。而實際上,現(xiàn)有的模式下部分告警時延已經(jīng)超過 1 小時甚至更多。

? 第二大問題:告警沒有聚類分析,監(jiān)管無法準確定位到根因

舉一個例子:所有的核心網(wǎng)設(shè)備都會上承載網(wǎng),就是和 CE 相連。如果 CE 出了點動靜必然導(dǎo)致和它相連的設(shè)備出現(xiàn)故障告警。不同類型的核心網(wǎng)設(shè)備同時出故障的幾率相對不大,所以這種情況下,應(yīng)該同步判斷 CE 是否有故障,同步通知承載網(wǎng)專業(yè)。簡而言之,就是故障根因定位(尤其是跨專業(yè)的故障根因定位)在當(dāng)前運維體系下至少是缺失的。這就導(dǎo)致監(jiān)控人員和專業(yè)人員在判斷故障的標(biāo)準不一致,監(jiān)控人員判斷故障只有告警,而專業(yè)人員在故障判斷上會有多種手段。這就導(dǎo)致出現(xiàn)了監(jiān)控只有通知功能,無法發(fā)揮“指揮調(diào)度”功能。

? 第三大問題:監(jiān)管系統(tǒng)自身的故障將導(dǎo)致告警通知體系失靈

所以的設(shè)備都有故障率,區(qū)別只在于故障率的大小而已!那么,我們的故障監(jiān)控體系會不會失靈呢?監(jiān)管體系是一個依靠多專業(yè)、多人員配合的體系。多專業(yè)配合:涉及核心網(wǎng)設(shè)備的告警準確上報、廠家網(wǎng)管的穩(wěn)定運行、集中故障系統(tǒng)軟 \ 硬件的穩(wěn)定運行等大量異廠家的配合問題。還存在中間環(huán)節(jié)的升級改造等情況。任何一個環(huán)節(jié)的失靈都將導(dǎo)致監(jiān)控系統(tǒng)的失靈。

管理視圖和維護視圖嚴重不一致

我舉一個例子:在一個周六的早上,有領(lǐng)導(dǎo)問我,為什么核心網(wǎng)的故障數(shù)量增長這么多?(指每天的監(jiān)控日報)這個事情我從接到任務(wù)開始一直弄到下午 4 點,才做完全部分析。領(lǐng)導(dǎo)的疑問在機制上至少反映了三方面問題:

? 問題 1:管理人員視圖和維護人員視圖不一致

這是什么意思呢?這個監(jiān)控日報是沒有發(fā)到維護人員手上的。維護人員沒有掌握這個生產(chǎn)資料,這就會導(dǎo)致管理人員的要求和維護人員的工作沒辦法統(tǒng)一。簡單的說,領(lǐng)導(dǎo)有這個信息,維護人員沒這個信息,維護人員可能就沒有去關(guān)注。

?? 問題 2:管理視圖和維護視圖的定位出現(xiàn)了偏差

我并非對日報本身持否定意見。我是把日報定位成管理視圖,就是領(lǐng)導(dǎo)看到的或者需要知道的信息。領(lǐng)導(dǎo)看到的信息應(yīng)該是各級信息分析處理后的匯總。管理視圖的定位到底是用于驅(qū)動工作的實施還是用于獲取信息?就監(jiān)控日報而言,我覺得這個管理視圖更多的應(yīng)該是用于信息總結(jié)。它還缺少一個維護人員視圖和監(jiān)控日報管理視圖相結(jié)合用于驅(qū)動工作實施。簡單的說:監(jiān)控日報現(xiàn)在的分析只是分析專業(yè)告警總量,沒有就各類設(shè)備、各臺設(shè)備的告警量進行統(tǒng)計分析。需要對各類設(shè)備、每臺設(shè)備的告警量進行分析,這些分析將用于三級經(jīng)理、主管層級的管理人員實施管理,同時這個維護視圖還需要維護人員用于管理設(shè)備。而到了更高級別的領(lǐng)導(dǎo),他們的管理視圖是具備信息下鉆的能力:既能看總量,又能看各專業(yè)的詳細分析。簡而言之,管理視圖可以直接看到具體某類、某臺設(shè)備的告警數(shù)量、類型變化以及變化趨勢,能夠直接看到責(zé)任人。而這個工作不需要人來做,而應(yīng)該由系統(tǒng)自動完成。這就是最理想的情況:管理者通過管理界面可以獲取各類信息,能夠有一覽眾山小、一切盡在掌握的感覺。維護人員通過維護界面可以獲取處理問題的必要信息,越是分析到末梢越好。

最后用一段來自總部對當(dāng)前運維囧境的總結(jié):

網(wǎng)絡(luò)的平穩(wěn)運行仍需依靠運維人員的維護操作,無法做到即插即用、無法做到自治自愈。流程沒有端到端打通、數(shù)據(jù)和系統(tǒng)割裂,完成一個或一類任務(wù)需要跨系統(tǒng),沒有統(tǒng)一完整的視圖。規(guī)則主要靠人的經(jīng)驗,支撐手段靠數(shù)據(jù)驅(qū)動、算法驅(qū)動、AI 驅(qū)動的程度不足。數(shù)據(jù)自動采集、自動呈現(xiàn)手段能力不足,大量寶貴的人力資源消耗的數(shù)據(jù)收集、整理、反饋的工作中。

面向 5G 時代,核心網(wǎng)的穩(wěn)定性更加重要,如何實現(xiàn)高可靠的設(shè)備穩(wěn)定性,這對網(wǎng)絡(luò)運維提出了更高的要求。我們不是生存在刀耕火種的年代,現(xiàn)代化的網(wǎng)絡(luò)運維工作必須依靠智能化的工具和系統(tǒng)來獲取運維信息、提升運維效率,同時具備自動發(fā)現(xiàn)問題、自動定位問題、自動解決問題的能力,這就是我們常說的“智慧運維”。

本文作者:liyu

網(wǎng)優(yōu)雇傭軍投稿郵箱:wywd11@126.com

長按二維碼關(guān)注

通信路上,一起走!

相關(guān)推薦

電子產(chǎn)業(yè)圖譜