10月14日に発生したNTTドコモ大規模通信障害の背景

プロジェクトオーガナイザの吉田聖書よしだみふみです。

今日は、去る10月14日から15日にかけて発生した、NTTドコモの回線障害を取り上げます。

一次ソースに当たれないのは残念ですが、マイナビニュースが詳しいと思いましたのでリンクを張っておきます。

NTTドコモ、10月14日からの障害について記者会見(マイナビニュース)
https://news.mynavi.jp/article/20211015-2160256/

10月14日から15日にかけて、NTTドコモのモバイル通信回線がつながりにくくなる障害が発生しました。発生から回復までの時間は、第4世代・第5世代の回線で12時間、第3世代に至っては更に5時間遅い17時間かかりました。この障害だけでも年間の稼働率が99.86%まで下がりますから、これは結構重たい障害ということが言えます。完全な回復という意味ではもっとかかったという報道も出ています。

一般ユーザーから見た現象としては、ネットワークにつながりにくいというもので、単に通話ができないとかメッセージが送れないということだけでなく、スマートフォンでの決済ができないなど実際に生活に支障が出たという方も多いでしょう。

そういった社会で観察される現象に対して、実際に起こっている現象は分かりづらいと思います。この障害についてNTTドコモは15日に記者会見を行ったんですが、一般公開されておらず、報道陣が記事にしたものしか情報源がありません。ネットで検索すると、記者会見をソースとする記事がいくつか見つかりまして、どうやら報道陣向けに配布された資料があるようです。上記のリンクがその例です。


※ この記事は、先日公開した以下の音声コンテンツを基に編集したものです。


掲載されている資料に基づくと、簡潔に言えば、サーバの移行に失敗したのでコンティンェンシープランを発動したところ、障害となる事象が発生したということのようです。移行したサーバは平たく言うとモバイル通信のセッションを管理しているもので、端末が接続する基地局が変わるとサーバとの初期シーケンスが走るようです。

コンティンジェンシープランの中で、セッションをリセットするような作業を行ったので、サーバとの初期シーケンスが一斉に走って処理を捌き切れなくなったということのようです。普段であれば、そのサーバに対するアクセスもばらけているでしょうから、今回は図らずもサーバに対するアクセスのピークを作ってしまったということですね。なかなかこれは予測しづらい障害だと思います。もちろん、ネットワーク技術の専門家からすれば当たり前のことなのかもしれませんが。

もうかなり前のことですが、ある現場でネットワークの構築を担当したことがあります。私はほとんど未経験に近い状態でしたが、勉強しながら、またネットワーク機器のベンダの助けを得ながらネットワークを設計し、実装していきました。ところが、本番稼働を始めて、そのネットワークにあるサーバにつながりにくい事象が発生しました。ベンダに機器の設定を見てもらったところ、どうやらネットワーク内でパケットがループしているようだと言われました。その後、正しく設定し直して無事に回復しましたが、ネットワーク構築の難しさを身に染みて感じたものです。

今回の障害についての再発防止策が今月中に打たれるようですが、コンティンジェンシープランの中身の見直しということになるのでしょうか。



関連記事

プロマネの右腕

クロスイデアでは、新サービス・新ビジネスの 立上げや計画を中心に
プロジェクトマネジメントの支援を行っています。

新サービスの企画を任されたけど どう進めていいか悩んでいる担当者、
部下に新しい企画を任せたけど このままで大丈夫か不安な管理職の方、
以下のサイトをご参照ください。
https://www.crossidea.co.jp/services/right-hand-pmo.html

YouTubeにて動画配信中!

プロジェクトマネジメントのノウハウを
YouTubeで配信しています。
ブログと併せてご活用ください。

Comments are closed.