au通信障害の原因は作業指示のミス・作業承認のミスとKDDIが説明

プロジェクトオーガナイザの吉田聖書よしだみふみです。

先月初めにau(KDDI)の通信障害がありましたが、その障害について先週7月29日にKDDIが記者会見を行いました。

その記者会見の模様がYouTubeに公開されているので、リンクを貼っておきます。

KDDI、大規模通信障害で3589万人に「おわび返金」 高橋社長が会見(2022/7/29 YouTube)

また、記者会見で使われた資料も公開されているので同様にリンクを貼っておきます。

7月2日に発生した通信障害について(2022/7/29 KDDI株式会社)

記者会見の内容は大きく、事故の原因と今後の対策、そして契約者への補償の2つありました。記者からの質問は補償の内容(特に金額についての質問)が多かった印象です。まあ、「利用者としては補償の方が気になるだろうから」と多くのマスコミは判断して、そこにフォーカスしたかったのかもしれませんが、事故のメカニズムについて突っ込んでくれた記者もいましたので、このブログでは事故原因についてフォーカスしたいと思います。

今回発生した障害は大きく3種類あります。
まず1つ目が、そもそも今回の障害の発端となった15分間の通信断が発生したこと。2つ目が、通信断の影響が広範囲に広がって輻輳が発生したこと。3つ目が、復旧までに2日半と長時間かかったことです。

次にそれぞれの障害事象の原因を簡単にまとめますと、1つ目の通信断の原因はコアルータの設定ミス、2つ目の大規模化の原因は輻輳に対する考慮不足、3つ目の長期化の原因は輻輳状態からの復旧手順の欠陥ということでした。

で、やはり注目したいのは1番目の障害ですよね。先月取り上げた時も、そこが気になっていました。そもそもの設定ミスの原因をもっと掘り下げていくと、単純ではありませんでした。ルータの設計作業は、作業指示書に基づいてオペレータが実施したのですが、その渡した作業指示書のバージョンが古かったということです。

その古いバージョンの作業指示書は、古いネットワークポリシーに対して実際に使われていたものだそうです。一方、新しい作業指示書は新しいネットワークポリシーに対して実際にリハーサルも行っていて、いずれにしても作業指示書自体に不備があったわけではないようです。ただ、作業指示書を取り違えてしまった、しかもそれに気付かず作業を承認してしまったということです。

ドキュメントが最新でないことによる作業ミスはITの現場では日常茶飯事だと思います。ドキュメントのバージョン管理をきちんとやっているところは、私の狭い経験の範囲ではあんまり見たことがありません。もちろんやっているところはちゃんとコストをかけてバージョン管理を実施しています。

ただ、ドキュメントのバージョン管理システムを導入している会社でも、フォルダ構成とか、どこに何のドキュメントを格納するかというポリシーが整備されていないんですよ。個人任せなところが多いんです。だから、同じファイルが違うところに格納されてしまって「結局どっちが本物なんだ?」っていうことになってしまうんですよね。ここは悩ましいところです。まあ、ライブラリアンを置くしかないんでしょうね…。


※ この記事は、先日公開した以下の音声コンテンツを基に編集したものです。


話を戻すと、この設定ミスについて、意地悪なのか分からないですけど「結局誰の責任なんでしょうか?」って質問した記者がいまして、おそらく「特定の誰かのせい」って記事にしたかったんだと思いますが、KDDIの髙橋社長はそれに乗せられませんでした。

一般的に、会社を立ち上げたばかりの頃は、社員個人の頑張りが会社全体のパフォーマンスとして効くんですね。ところが、会社が大きくなっていくと個人の頑張りの集合体ではうまく機能しなくなっていきます。そういうときに如何に仕組化するのかが会社組織の力だと思うんです。それが分かっていない経営者は個人を責めてしまいます。でも髙橋社長は仕組みを作れなかった経営の責任だと回答しました。

こういうことは何もこのような社会インフラの現場に限った話ではありません。どの会社のシステムの現場でもミスというのは大なり小なり必ずあります。もちろんエンジニア個人の凡ミスというのもあるでしょう。ただし、ミス=事故ではありません。ミスがあっても大事故に至らないような仕組みというのは考えられるはずで、それはマネジメント側の責任で構築しなければならないということです。



関連記事

プロマネの右腕

クロスイデアでは、新サービス・新ビジネスの 立上げや計画を中心に
プロジェクトマネジメントの支援を行っています。

新サービスの企画を任されたけど どう進めていいか悩んでいる担当者、
部下に新しい企画を任せたけど このままで大丈夫か不安な管理職の方、
以下のサイトをご参照ください。
https://www.crossidea.co.jp/services/right-hand-pmo.html

YouTubeにて動画配信中!

プロジェクトマネジメントのノウハウを
YouTubeで配信しています。
ブログと併せてご活用ください。

Comments are closed.