通信機器の設定ミスでセブングループ各種アプリが起動できない障害発生

プロジェクトオーガナイザの吉田聖書よしだみふみです。

先週4月6日に、セブン&アイグループ企業各社のアプリとWebサイトが使えなくなるというトラブルが発生しました。SNSの数々の投稿を見ると、アプリに紐づけたnanacoでの支払いができなくなったとは書かれていないですが、そもそもアプリが起動できなくなったようです。

サービスが利用できなくなった時間帯は4月6日の16:00頃~19:50頃の約4時間で、私はたまたま利用することが無かったんですけれども、停止している時間が日中帯ですし、対象の店舗数も多いので、そこそこの影響があったものと思われます。

これについては公式のニュースリリースが出ています。

各社アプリおよびサイトにおけるシステム不具合の復旧について(2022/4/6 株式会社セブン&アイ・ホールディングス)

ニュースリリースを見ると記述が非常にあっさりしているんですが、原因は通信機器の設定ミスということです。実は私も過去に似たような経験をしたことがあります。私が関与していたサービスはここまで利用者も多くなかったですし、そもそも通信回線が今ほど早くなく、そもそもネットにつながりにくいということもしょっちゅうでしたので、昔は多少つながらなかったところで大きなニュースにはなりませんでしたね。

そしてニュースリリースには「正確な状況の確認や、対策に時間を要したことで、復旧が遅れ」たとあります。具体的にどのような設定ミスだったのかの記述が無いので、全く同じ状況だということはできないのですが、この手の通信障害ってなかなか原因が特定できないんですよね。

通信機器の設定ミスによる障害は大きく2つあって、1つ目はそもそも通信できないというものです。これは実際にサーバを動かしてみればすぐに検知できますので、すぐに対処することが可能です。これは問題ないかと思います。もう1つの障害は、通信できるんだけれども、設定がまずいのでWebサービスが正しく機能しないというものです。

良くあるタイプは、ロードバランサを入れてサーバを冗長化している場合ですね。単純にランダムに通信を振り分けてしまうと、片方のサーバで作られたセッション情報がもう片方にはありませんから、上手く継続してサービスが使えるかは運次第ということになります。再現性が有るようで現象がランダムのため、経験がないと特定が難しい障害です。これは、ロードバランサにStickyといって同じIPアドレスからの接続は同じサーバに振り分けるという設定がありますので、対処方法そのものは単純です。

更に特定が難しい障害というのは、しばらくは問題なく運用していたのが、ある時からつながりにくくなるというものです。全くつながらないとも限らず、しばらく待てばつながったり、なかなか現象としても特定しづらいし原因も特定しづらい障害です。今回の設定ミスの内容は書かれていないので分かりませんが、私が経験したのはパケットのループです。


※ この記事は、先日公開した以下の音声コンテンツを基に編集したものです。


もう10年以上前のことなので正確な記憶が無いのですが、ロードバランサかファイアウォールのどちらかの設定が悪かったか、あるいは両方の設定の噛み合わせが悪くて、ネットワーク内をパケットがループしてしまっていました。この時は我々だけでは原因が特定できなかったので、ネットワーク機器のセールスエンジニアの方にも調査に入っていただき、設定の不備を見つけていただきました。

この手の障害は接続数が多くなると現れる事象なので、最初の接続テストレベルの接続数では見つけるのが難しいと思います。復旧までにどれくらいかかったかは覚えていないですが、数時間は優にかかったのではないかなと思います。それはお前のスキルが低いだけじゃないかと言われればそれまでなんですけどね。



関連記事

プロマネの右腕

クロスイデアでは、新サービス・新ビジネスの 立上げや計画を中心に
プロジェクトマネジメントの支援を行っています。

新サービスの企画を任されたけど どう進めていいか悩んでいる担当者、
部下に新しい企画を任せたけど このままで大丈夫か不安な管理職の方、
以下のサイトをご参照ください。
https://www.crossidea.co.jp/services/right-hand-pmo.html

YouTubeにて動画配信中!

プロジェクトマネジメントのノウハウを
YouTubeで配信しています。
ブログと併せてご活用ください。

Comments are closed.