加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • T-Mobile網(wǎng)絡架構(gòu)簡介
    • 故障過程分析
    • 簡單的講,整個事故的過程是:
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

一條光纖傳輸中斷后,如何引發(fā)了全網(wǎng)VoLTE癱瘓?

2021/04/07
371
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

2020年6月15日,美國運營商T-Mobile發(fā)生了一起罕見的網(wǎng)絡重大事故。全國范圍內(nèi)的語音和短信服務中斷長達12小時。事后,美國FCC主席公開表示這起重大網(wǎng)絡事故“不可接受”,并隨后對T-Mobile展開了調(diào)查。

全國范圍,中斷12小時,連911也無法撥打......如此嚴重的網(wǎng)絡事故成為了全球運營商鮮活的反面教材,那背后到底是什么原因?qū)е碌模?/p>

不久前,運營商Orange在對這起全球矚目的重大網(wǎng)絡事故進行研究后,詳細透露了這起事故的來龍去脈。

T-Mobile網(wǎng)絡架構(gòu)簡介

T-Mobile的語音網(wǎng)絡包括VoLTE、VoWiFi和2/3G CS網(wǎng)絡,VoLTE語音業(yè)務通過4G LTE基站和傳輸網(wǎng)絡連接到IMS,2/3G電路交換網(wǎng)關(guān)、WiFi網(wǎng)關(guān)與LTE核心網(wǎng)和IMS互聯(lián)互通。網(wǎng)絡內(nèi)絕大多數(shù)手機會同時注冊和連接到LTE和2/3G電路交換網(wǎng)絡,如果VoLTE和VoWiFi呼叫失敗或超時,或者在沒有LTE和WiFi覆蓋的情況下,手機會通過2/3G網(wǎng)絡進行語音業(yè)務。

同時,T-Mobile傳送網(wǎng)的路由器采用OSPF(Open Shortest Path First,開放式最短路徑優(yōu)先)路由協(xié)議,即給每一條鏈路分配一個權(quán)重,網(wǎng)絡始終選擇一個權(quán)重最小的路徑來傳輸數(shù)據(jù)流量。

如上圖,連接每個路由器的每條鏈路都分配了一個代表其權(quán)重的數(shù)字。要將數(shù)據(jù)從西雅圖傳輸?shù)竭~阿密,網(wǎng)絡會選擇累積權(quán)重最小的路徑,即會經(jīng)由洛杉磯的路由器轉(zhuǎn)發(fā)到邁阿密。而一旦西雅圖與洛杉磯之間的鏈路中斷,網(wǎng)絡會選擇另一條累積權(quán)重最小的路由來替代,即經(jīng)由丹佛和紐約的路由器轉(zhuǎn)發(fā)到邁阿密。

故障過程分析

1、美國東部時間2020年6月15日 12:33,T-Mobile在亞特蘭大地區(qū)的VoLTE網(wǎng)絡的一條光纖傳輸鏈路發(fā)生故障。如上所述,按T-Mobile的網(wǎng)絡路由策略,當這條鏈路發(fā)生故障后,網(wǎng)絡會根據(jù)OSPF協(xié)議重新選擇一條備用路由來傳輸數(shù)據(jù),從而緩解故障影響。

2、但萬萬沒想到,T-Mobile工程師當初錯誤配置了這條備用路由上的其中一臺路由器的權(quán)重,導致數(shù)據(jù)流量流向了一臺無法處理大量呼叫信令流量的路由器,使得整個亞特蘭大地區(qū)的4G語音和數(shù)據(jù)業(yè)務中斷。

3、亞特蘭大地區(qū)的所有4G手機向IMS發(fā)起VoLTE注冊時失敗,當手機通過4G網(wǎng)絡注冊失敗超時后,又開始嘗試通過Wi-Fi網(wǎng)絡向IMS重新注冊,但仍然注冊失敗,從而引發(fā)了信令流量擁塞。

312:45,12分鐘后,中斷的光傳輸鏈路恢復,此時通過WiFi注冊失敗的手機又重新嘗試通過VoLTE注冊,但因路由器權(quán)重配置錯誤,VoLTE重新注冊再次失敗,這進一步加劇了信令流量擁塞。

4、此時,T-Mobile工程師判斷認為故障原因可能仍然由光傳輸故障引起,于是,又手動關(guān)閉了這條剛恢復的光傳輸鏈路,以繼續(xù)試圖通過其他路由傳輸數(shù)據(jù)。但這讓網(wǎng)絡故障又回到了初始狀態(tài),整個亞特蘭大地區(qū)的移動用戶無法連接4G網(wǎng)絡,被迫再次通過WiFi建立呼叫,結(jié)果依然失敗..... 再次加劇信令擁塞。

5、工程師們認識到判斷錯誤,在一個小時后再次開啟這條光傳輸鏈路,使得亞特蘭大地區(qū)的手機又再一次重新嘗試VoLTE注冊,再再次加劇了網(wǎng)絡信令擁塞。

6、就這樣,在“Wi-Fi注冊”與“VoLTE注冊”之間來回折騰,循環(huán)“震蕩”,導致部署在亞特蘭大地區(qū)的IMS系統(tǒng)嚴重擁塞后,流量開始重定向到其他地區(qū)的IMS注冊系統(tǒng),從而引發(fā)了信令風暴蔓延到全國。

7、15:00左右,T-Mobile分布于全美的IMS注冊節(jié)點變得越來越擁塞,最終導致全國范圍內(nèi)的VoLTE和VoWiFi語音注冊失敗,從而引發(fā)了一場全網(wǎng)VoLTE癱瘓的重大網(wǎng)絡事故。

8、事故還在繼續(xù)蔓延。當手機無法連接VoLTE和VoWiFi后,大量的手機回落到2/3G網(wǎng)絡,這也造成了2/3G網(wǎng)絡擁塞。

9、直到6月16日凌晨1點左右,T-Mobile在動用了數(shù)百名工程師之后,與供應商和合作伙伴一起終于將問題解決。網(wǎng)絡恢復正常。

簡單的講,整個事故的過程是:

一條光纖傳輸鏈路發(fā)生中斷,同時因為人為配置錯誤導致備份鏈路也失效了,引發(fā)了信令流量風暴蔓延全國,使得全國范圍內(nèi)的IMS系統(tǒng)發(fā)生嚴重擁塞,從而導致全國范圍內(nèi)的VoLTE業(yè)務癱瘓。

一條光纖傳輸鏈路中斷,一次人為配置錯誤,就引發(fā)一場如此大規(guī)模的網(wǎng)絡事故。進入5G時代,不僅網(wǎng)絡更加復雜,而且對網(wǎng)絡的穩(wěn)定性和可靠性要求更高,這起剛好發(fā)生在5G商用元年的重大事故自然引起了全球運營商的高度關(guān)注。甚至有運營商以此為鑒,專門針對網(wǎng)絡故障展開了專項研究。

希望下一次,一條小小光纖鏈路,一次不經(jīng)意的人為錯誤,再也不會引起如此重大的網(wǎng)絡故障。

本文參考:

June 15, 2020 T-Mobile Network Outage Report,F(xiàn)CCHow the T-Mobile outage of 2020 went down,Brigette Cardinaeal ,Orange

相關(guān)推薦

電子產(chǎn)業(yè)圖譜