プロジェクトオーガナイザの吉田聖書です。
本日は、今月初めにマイクロソフト社が発表した「Azure Chaos Studio」のパブリック・プレビュー版について取り上げます。
公式の発表はこちら。(英語)
11月2日にマイクロソフト社がアプリケーションの予期せぬ中断に対する回復性を向上させる新しいサービス「Azure Chaos Studio」のパブリック・プレビュー版を発表しました。
このサービスは、カオスエンジニアリングと呼ばれる、情報システムにおける防災訓練とでも言いましょうか、実際に障害を発生させるわけではないんだけれども、実際に障害が発生した状況を想定して、その状況をシステム的に再現することで、実際に障害が発生した場合にシステムが受ける影響を見極めて、適切な災害対策につなげていくための考え方、方法論に基づくものです。
※ この記事は、先日公開した以下の音声コンテンツを基に編集したものです。
私がこの業界に入った頃は、まだシステム構成もシンプルで、障害と言えばどのサーバのプロセスが落ちたとか現象を特定するのは比較的優しかったんですが、クラウドコンピューティングが当たり前の時代になってハードウェアが仮想化され、ハードウェア障害からは解放されたものの、クラウドサービスに起因する障害が想定しづらくなったと思います。どのような障害が起こるか想定できないということは対策が立てられないということですし、実際に障害が発生した場合に原因の特定が困難になるということです。
情報システムの運用テストとか障害テストといった種類のテストは、システム構築時には総合テストの一環として実施されることが多いんですが、本番運用が始まってしまうとなかなか実施されることは少ないと思います。それでも、時々は計画的に防災訓練を行っている組織もありますが、実感として割合は少ないかなと思います。防災訓練と言っても完全に業務を停止してしまうのではなくて、冗長構成になっているハードウェアの片系をダウンさせてシステムが縮退運転に切り替わって稼働し続けることを確認したり、災害対策サイトに切り替わっても業務が続けられることを確認したり、できるだけ業務に支障が出ない形で実施することが必要です。
これがサーバを自前で調達していた時は、わざとサーバの電源を落とすといった方法で障害を発生させていましたが、これがクラウドサービスになると難しいわけですよね。他にもCPU使用率とかメモリ使用率をグッと上げてシステムに高い負荷をかけるといったことは人様の持ち物であるクラウドサービスでは事実上実施できなかったという背景があります。
そこで、クラウドサービスの一環として、クラウドサービスに起因する障害を意図的に発生させて運用担当者が防災訓練を行えるようにする機能を提供するようになったと私は理解しています。ちなみにこの機能はAWSでは「AWS Fault Injection Simulator」として2021年3月に先行して提供が開始されていたようでして、今回Azureが追い付いたということです。自前のサーバーだったらここまで簡単に障害テストを行うのは難しいかもしれませんが、こうしてクラウド事業者側が機能を提供してもらえるのは嬉しいですね。
関連記事
プロマネの右腕
プロジェクトマネジメントの支援を行っています。
新サービスの企画を任されたけど どう進めていいか悩んでいる担当者、
部下に新しい企画を任せたけど このままで大丈夫か不安な管理職の方、
以下のサイトをご参照ください。
https://www.crossidea.co.jp/services/right-hand-pmo.html
YouTubeにて動画配信中!
プロジェクトマネジメントのノウハウをYouTubeで配信しています。
ブログと併せてご活用ください。