au回線で大規模通信障害が発生していたようです。KDDIの社長による記者会見が開かれました。
<今回のauの通信障害>
①影響回線数の概要
全国
影響回線数 最大 3915万回線
・内訳
スマートフォン 最大 3580万回線 auと契約している顧客影響を与えます。
MVNO向け 最大 140万回線 MVNO向けユーザーに影響を与えます。
IOT回線 最大 150万回線 IOTを利用したソリューションシステムに影響を与えます。
ホームプラス電話回線 最大 45万回線 電話が繋がりません。
②影響の範囲
・物流関連(リアルタイム配送システム)
・自動車関連(コネクティングサービス。)
・気象関連(リアルターム気象予報データ取得サービス。)
・銀行関連(ATMサービス。)
・交通関連(空港用スタッフ回線サービス。)
物流業に相当な影響を与えています。
VoLTEの交換機にトラヒックルート変更を実施中にトラブルが発生したようです。
↓
<VoLTEの交換機 エラー多発。>
↓対処
◎「VoLTE交換機の負荷低減対策」 実施
無線設備で信号接続要求の流量(呼量)制御を制御。
呼処理プロセスのリセット、流量(呼量)制御を実施。
無線設備でデータ・音声接続要求の流量制御を実施。
◎「加入者DBの負荷低減対処」 実施
西日本収容のPGW2台 東日本収容のPGW2の切り離し実施。
◎「加入者DBデータ不一致修正対処」実施。
東日本収容のPGW2台のセッションリセットを実施。データ不一致解消を確認。
西日本収容のPGW2台のセッションリセットを実施。データ不一致解消を確認。
東日本残りの7台および、西日本残りの6台のPGWの切り離しとセッションリセット。
上記の作業により西日本から復旧した模様です。東日本はまだのようです。(7月3日夕方時点)
①VoLTE交換へのアクセス集中
②加入者DBへのアクセス集中
↓ トラフィック制御をかけて、アクセス集中を緩和。
③加入者DBのデータ不一致を解消。(セッション層のもちきりをクリアリセット。)
↓
④正常を確認。
↓
⑤規制を徐々に解除。
という流れになると思います。
故障の発生原因は、コアルーターの不具合
(古いコアルーターを新しいコアルーターに切り替えた際に発生。)ハードの故障がトリガーのようです。
去年の東証Arrowsの案件もハードウェアがトリガーでした(この時はストレージ)。
「コアルーター」のイメージ
↓ シスコのコアルーターの例 お値段は、、お高いです。
Cisco Network Convergence System 6000 シリーズ ルータ - Cisco
↓ データシート
------------------- 抜粋 --------------------------
- Cisco nPower X1 NPU を搭載した、プログラム可能な最先端のフォワーディング ASIC(nPower が業界最先端の ZPL/ZTL ISSU 機能を提供)
- シングルシャーシ / B-to-B / マルチシャーシ 構成など対応
- 8 つのラインカードを使用する、8 Tbps の全二重ネットワーク帯域幅
- ラインカードごとに 10、40、または 100 Gbps のインターフェイスを組み合わせて使用し、各ラインカードを最大 1 Tbps のスループットで実行。将来は2 T のラインカードも予定。
------------------------- ここまで ----------------------------
これに何らかの障害があったとなると厄介です。正直お手上げと行って良い。今回は、運良く切り戻しで復旧できました。ネットワーク機能に異常はありません。もし、戻したコアルーターも故障となるともっと厄介な事になっていたでしょう。今回は、大事にまでは至っていません。最悪の事態では無かったので記者会見に臨まれたと思います。
VoLTE:
↓ITmediaのサイトがわかりやすいと思います。auさん自らがVoLTE交換機を持っている事にメリットがあります。(品質上を図ることができる。)
----------------------- 記事よりの抜粋 -------------------
-------------------------- ここまで --------------------------------
------------------------ 記者会見時の図です。 -----------------
コアルーターの取替作業中に、VoLTE交換機よりエラー多発。
当然、方路を変えないと、現行のシステムに影響を与えるため、トラヒックルート変更しながら作業を行っています。
(15分間程。)
↓ コアルーターを戻して、トラフィックルートを戻した所、呼が殺到。
↓VoLTEへの輻輳だけでなく、加入者DBへのデータ照会アクセス輻輳。が発生。輻輳が輻輳を呼ぶ負の連鎖へ。
通信規制をかけて、VoLTEへの負荷低減。同時に、加入者DBへの照会アクセス低減を図ります。(輻輳が収まるまで、ひたすら待つしかありません。)
----------------------- ここまで --------------------------------
(何処のサイトに行っても見かけないので自分で貼りました。一番わかりやすいんですが。。何処のキュレーションサイトにも載っていません。)
各用語の意味は以下の通りです。
EPC:
↓ CTCさんのサイト。
※:多分、記者会見でVoPGWと記述されていたのはVoIPGWの誤記だと思います。
PGW:外部ネットワークに接続するためのゲートウェイ
SGW:ユーザーデータのゲートウェイ
MME:UE(スマートフォンやタブレットなどの端末)の制御信号のゲートウェイ
VoIPGW:アナログ電話網とIP電話網の中継・変換を行う通信装置
記者会見の図を見ると、VoLTE交換機が複数台あり、ネットワークゲートウェイで接続されている構成を取っています。
↓ impress 記者会見した時の図が載っています。(全てではありません。)
KDDI髙橋社長が「au通信障害」謝罪、現時点で判明している経緯とは - ケータイ Watch (impress.co.jp)
ネットワークを介して、電子の速度でとても細かいデータのやり取りが行われています。レイヤ1~7層まで、階層化(構造化)されたプロトコルです。(光電変換も行われています。)信号は、REQに対して一つでもNAKが返ると、何度もでもREQを起動する仕組みになっています。これはプロトコル仕様上仕方の無い事です。さらには、昨今では海外製のルーターが多く日本人技術者では手に余る事もしばしばです。(そもそもの仕様が良く判らない。)呼が殺到した場合は規制するしか対応策がありません。
KDDIはIoTクラウドサービスも展開しています。
↓
こういったサービスも影響を受けていると思われます。
auのサイト
↓通信障害の情報開示。
------------------------------- おまけ -------------------------
<参考>
<同業他社の過去の通信障害事例>
-------------------- NTTドコモのケース。 -----------------------
類似の案件は、過去にNTTドコモでもあります。
↓ 2021年10月14日、15日の通信障害。
この時は、IOT位置情報サーバーの切り替え中に障害を起こしています。旧サーバーから新サーバーへの入れ替え作業を行っています。機器からの位置情報への再登録の輻輳が引き金になって、通信規制をかけています。
↓ 2022年2月1日の通信障害。
2月1日から導入した「IPv6シングルスタック方式」の導入時におけるサーバー負荷が原因です。(IPV6のカプセリング技術の一つです。)
NTTドコモのサイト
↓ 通信障害の情報開示。
★:この時のキーワードも「輻輳(ふくそう)」です。
----------------------- ここまで -------------------------
<結論>
システムである以上、故障は起こりえます。特に昨今は、大規模データ化され、高速化され、簡単にはシステムを止める事ができません。ハードの交換作業ですら困難を極めます。(活線状態で交換)
今回は、
ハードトラブル→呼量(アーラン)規制→ハード切り戻し→正常性確認→規制を徐々に緩和。で復旧しています。トラフィックは一定ではありません。現在のサービスのほとんどはベストエフォート型です。ギャランティー型にするとコストがかかりすぎるからです。
<考察>
昨今の総務大臣の携帯料金値下げなどの、短期的政策に問題ありと思います。携帯料金が高いのは施設(設備)を毎回更改しないといけないからです。莫大なお金がかかります。(楽天モバイルが苦戦している理由がそれです。)本当に、途切れないギャランティックなサービスを望むのであれば、今の10倍以上料金を払っても不可能です。さらに、設備は古くなると巻き取る必要があります。何兆円とい金額が動く業界である事は、総務省の大臣もご理解頂きたい。現在、4Kの普及の妨げになっているのも受信側の放送設備の更改費用が高額だからです。総務省の大臣ポストには専門家に就いて頂きたいと切に願います。(電力も同じです。)
現場の技術者さんの皆様。お疲れさまです。無理しないでください。定常作業でもトラブルは起きます。
7月4日 追記:ネット上に正確な記事が載っていなかったので図も含めて追記しました。
下記の記事が分かりやすと思います。
↓ Itmedia のサイト
KDDI“過去最大”の通信障害、発生の経緯は? 緊急会見で判明したこと(1/4 ページ) - ITmedia Mobile
↓ 日経 コアルーター交換時の不具合。と記述しています。(正しい説明です。)
KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中 | 日経クロステック(xTECH) (nikkei.com)