nothing else todo (徒然なるままに)

折々の出来事や旅行記などを書き込んでいきます

KDDIの大規模障害はなぜ起きたのか?

 

7月2日に発生し、7月4日まで影響が長引いた今回のKDDI大規模障害の発端は、KDDIの説明によると

結局最初のトリガーは、7月2日午前1時30分頃に行なわれた「コアルーター交換」というメンテナンス作業である。それが問題では……ということになるのだが、このメンテナンス自体は特別なものではないようだ。

吉村専務は「あくまで通常の作業で、毎月あるようなもの。ただ今回は、いつもは起きないことが起きた。なのでしっかり原因を調査したい」

と説明している。多少、情報システム(ハード、ソフト)の経験がある当方から見ると定期的な交換を伴うメンテナンス作業は必ず発生する。ただ企業内のシステムは24時間稼働は珍しく、通常は稼働していない時間帯(夜中)に行うのが普通だが、通信事業者のシステムとなると24時間365日休みなく稼働しているため、システムを止めずに交換作業をすることになる。

こういうメンテナンス作業は、通常作業マニュアルと障害発生時の緊急対応マニュアルが準備されているはずで、メンテナンス作業には必ず経験者が加わっているのが必須である。今回の大規模障害の推移を見て感じるのは、コアルーター交換前の作業手順事前確認が疎かになっていたのではないかと思える点だ。交換手順を一つ間違えれば大変なことが起きるという認識が甘かったと言わざるを得ないのではないか? 過去の他社大規模障害の原因を見ても、人為的なハードやソフトの交換作業後に発生している。交換前には新コアルーターの事前動作確認はメーカーが必ず行っているはずでハードの不具合は考えられない。事業者は、人為的なミスが起きえないような作業体制を構築する責任があると思うがいかがだろうか?

今後、固定電話網も携帯電話網(下記、ワイヤレス固定電話参照)に集約されることになると、各個人が自分が利用している通信環境のリスク分散を考えなければならない時代になりそうだ!

2022.7.31  追記

KDDIから7月2日に起きた通信障害についての報告が発表された。やはり、当方の思っていたとおり人為的なミスが原因だったようだ。

2022.7.31  追記 ここまで