京大スパコンのデータが誤って削除された事故

プロジェクトオーガナイザの吉田聖書よしだみふみです。

今日は、昨年末に京都大学で発生した、スパコンのデータが誤って削除されたというニュースを取り上げます。

京都大学からのお知らせはこちら。

スーパーコンピュータシステムのファイル消失のお詫び

これは昨年末、12月28日に京都大学が「お知らせ」として京都大学情報環境機構のWebサイトに掲載したものですが、12月14日から16日にかけて、スパコンのストレージのデータが誤って削除されてしまったという事故が発生しました。本来は保管期限を過ぎた古いバックアップファイルを削除するはずが、結果的にストレージのファイル全体を削除する処理として動作したということです。そしてその誤って削除されたファイルの数が約3,400万件、ファイルサイズにして約77TB(テラバイト)と、その規模の大きさに年末は大騒ぎでしたね。

ファイルが誤って削除された原因として、ベンダーである日本ヒューレット・パッカードが保守の中で不用意なプログラムの修正をしたことと、さらにそれを不適切な手順でリリースしたことの2点を挙げています。
ちなみに、とても紛らわしいのですが、日本ヒューレット・パッカードと日本HPは別の会社でして、日本HPは株式会社でパソコンとかプリンターを扱っている会社です。一方の日本ヒューレット・パッカードは合同会社でサーバとかストレージをを扱っている会社です。今回は後者の法人が事故を起こしたということです。

このお知らせには、日本ヒューレット・パッカード社が京都大学・学術情報メディアセンターに宛てた報告書が添付されています。この中で、「100%こちらに責任がある」というくだりも印象的ですが、直接の原因としてシェルスクリプトの挙動についての理解不足を挙げている点が特に印象的でした。

シェルスクリプトの実体はテキストファイルですが、そこには実行する複数のコマンドが書かれており、分岐や繰り返しも可能ですが基本的には書かれている順番に1つずつ実行していく仕組みになっています。スクリプトはファイル1個でも動作しますが、一般的にはまとまった処理ごとにファイルを作成して順番に読み込んでいくことが多いです。そして、今回はスクリプトが実行中にも関わらず読み込む対象のスクリプトファイルを変更してしまったので期待と異なる動作をしたということです。

普通は同じスクリプトを複数同時に実行できないようなガードをかけることはしますが、実行中に対象のファイルを変更できないようにガードするという話はあまり聞いたことがありません。やるとしたらスクリプトの冒頭で、読込む予定のファイルを全てロックするという案もありますが、それだったらスクリプトが実行中でないことを確認するというリリース手順を作成した方が早くて安上がりです。

尚、同じ報告書には「今後の対策」として運用管理の問題の他に、「技術者への再教育」を挙げているのですが、今回の事故が何よりの再教育ではないかと感じます。


※ この記事は、先日公開した以下の音声コンテンツを基に編集したものです。


もう一つ、この事故とは直接関係ないが気になる点があります。それは、大学側のお知らせの中にも「今後の取り組み」が書かれていまして、

将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.

とあります。この「ミラーリング」が厳密に何を指しているかは書かれていないんですが、一般的には2台のディスクに同じ内容を書き込んで常に同期を取っておく構成を指します。これは一方のディスクにファイルを追加したら自動的にもう一方のディスクにも追加し、一方のディスクからファイルを削除したら自動的にもう一方のディスクからも削除するという仕組みですので、ファイルを誤って消去した時のバックアップにはなり得ません。ミラーリングはどちらかというとディスクの故障に対する手当であって、片方のディスクが故障してももう片方にデータが残っているので大丈夫という仕組みです。

一方でバックアップというのは、ディスクの一部または全部のある時点での断面を丸ごと別のディスクにコピーして保管しておくというものです。ですので、ミラーリングよりは鮮度が落ちるけれども、ファイルの欠損に対しては手当することが出来ます。バックアップを取る場合に同じボリューム配下に保管しては元の木阿弥です。バックアップの保管先はボリュームを分け、削除スクリプトもボリュームごとにタイミングをずらして実行するというような考慮が必要でしょう。



関連記事

プロマネの右腕

クロスイデアでは、新サービス・新ビジネスの 立上げや計画を中心に
プロジェクトマネジメントの支援を行っています。

新サービスの企画を任されたけど どう進めていいか悩んでいる担当者、
部下に新しい企画を任せたけど このままで大丈夫か不安な管理職の方、
以下のサイトをご参照ください。
https://www.crossidea.co.jp/services/right-hand-pmo.html

YouTubeにて動画配信中!

プロジェクトマネジメントのノウハウを
YouTubeで配信しています。
ブログと併せてご活用ください。

Comments are closed.