« かりん糖対決其の四:「ブラジルコーヒーボーイ」対「キャラメルコーヒー」 | トップページ | 「10万年の世界経済史」:グレゴリー・クラーク »

「システムはなぜダウンするのか」:大和田 尚孝

〓 知っておきたいシステム障害、信頼性の基礎知識 〓

 この本は日経BP社のいわば「なぜ?なに?シリーズ」の第11弾となっています。「なぜ?なに?シリーズ」は私の勝手な命名なので、一応解説しておきます。これは、『10年後も通用する”基本”を身につけよう』をうたい文句にして日経BP社が出版しているシステム関連のシリーズ本で、サブタイトルはすべて「知っておきたい~の基礎知識」となっています。2003年来発刊している「プログラムはなぜ動くのか」を皮切りに、「ネットワークはなぜつながるのか」「Javaでなぜつくるのか」といったシステムの基本的な仕組みをわかりやすく解説しています。そんな中、この「システムはなぜダウンするのか」という本は、ある意味それまでのシリーズからは逸脱しています。そもそも、運用やシステム障害に関する書籍が普及しだしたのもここ3,4年のことであり、一般的な書籍としても珍しい部類に入るのではないでしょうか。従来のハードやソフトの仕組みを解説したものから、人間系も含めた包括的なシステムの解説書として、希少価値の高い書籍になっていると思います。

 しかし、構成や基本コンセプトはシリーズを踏襲しているようです。非常に綿密な分類がなされ、解説も詳しく、システム管理者からSEやシステム営業が読めば、システム障害に関する幅広い知識を得ることが出来ます。あるいはエンドユーザが読んだとしても、システムに関する初歩的な内容も含めて解説されており、理解可能な詳しい解説が得られます。以下に書籍の目次を、分類を添えて抜粋してみました。

■「ダウン」とはなにか
  第1章 システムが止まった…
■ソフトウェアの不具合
  第2章 きちんとテストしたはずなのに…
  第3章 アプリケーションだけではない…
■性能・容量不足
  第4章 アクセスの殺到に耐え切れず…
■設定・操作ミス
  第5章 気がつかなかったは許されない…
  第6章 その「うっかり」が致命傷…
■ハード故障、不慮の事故
  第7章 まさか、そんなことが起こるとは…
■ダウンに学ぶ
  第8章 障害対応は時間との闘い…

 本文の内容は、全て実際に起こったシステム障害の事例であり、特に新聞沙汰となった大規模障害を多く取り扱っているので、一般の方でも「あのときの事件」といふうに思い出されるものもあるでしょう。新聞では、その裏側で起こっていた過去の経緯や事情までは目に届きませんでしたが、この本では、障害が起こったときの状況が図で解説されており、読み物として目を通すことも可能かもしれません。
 ただ、システム開発者や管理者の方が読むと、もし自分が当事者となったときのことが頭に浮かび、震撼させられる場面も多いので注意が必要です。それでも、システム担当者として大規模障害に遭遇する確立を考えるなら、読んで損はないどころか、むしろ読んでおくべき本だと思います。とくに、大規模障害では、いくつかの要因が積み重なってシステムダウンが発生することが示されており、システムの担当領域を超えた知見を得るために、これほど有効な本は無いかもしれません。

 特に最近では、システムが仮想化されることで、障害発生の原因究明が難しくなっているといわれます。先日参加した運用セミナーでも、日経コンピュータの編集長が登壇して、今後のIT技術者に必要なスキルとして、サーバやネットワークという範疇を超えた総合的な判断力が要求されるのではないかと述べていました。残念ながらこの本には、仮想化されたシステムの障害事例は掲載されていませんが、今後は日経コンピュータなどの雑誌で新たなシステムの問題点として取り扱われることと思います。そして、それらの事例は結果的にはこの本に掲載された障害事例の延長線上にあるであろうことは、疑いようがありません。

 この本で、特に注目したいのは主に6章と7章です。たとえば、次の引用に見られる障害事例はどの様なシステムでも起こりうることであり、人間がシステムを扱う以上は避けられないことです。

232ページ
あらかじめ定めた運用手順では、停止作業は複数の担当者で進める決まりになっていました。コマンド入力担当者と、作業を見守る確認係です。担当者は手順に従って、コマンド入力前に確認係に確認を求めました。ここで確認係は誤りに気づかず了承しました。結果的に、複数人による目視チェックの機能が全く働きませんでした。

 システムだけではなくあらゆる場面で起こりうるヒューマンエラーという事象に対していは、以下のように見解を述べています。

236ページ
では、ミス防止には何をどうすべきなのでしょうか。残念ながら、現時点では特効薬がありません。異常時を含めた運用操作の手順をあらかじめ決める、運用テストや障害テストをこなして作業手順にミスがないことを確認する、日々の作業を手順どおり慎重に作業する、といった地道な努力とともに、手作業をできるだけ減らしてミスを起こりにくくする、よくミスを起こす複雑な作業は手順を見直す、といった工夫を積み重ねる必要があります。

 この本では、単に障害発生の事例を載せるだけではなく、ヒューマンエラーを回避するための、ユニークな問題可決事例として、以下のようなものも載せています。

250ページ
東京にある本番系のサーバが故障していなくても、一ヶ月ごとなど定期的に、大阪や福岡にある待機系に切り替えているのです。ですから東京がメインと書いたのは、正確ではありません。ある日のシステム稼動状況をみると、大阪や福岡で運用しているシステムが存在することになるからです。

 本書では、システム障害に関するまとめとして、障害を改善の糧とすることで対処すべきだという前向きな意見を述べています。日々障害に悩んでいるシステム管理者やSEの方々も、おそらくこの意見には賛成ではないかと思います。

303ページ
システム意外に目を向けると。電車は雷や雪で運休することがあります。地震で企業が事実上の休業に追い込まれることもあります。システムも同様です。思いがけず臨時休業(ダウン)せざるをえないことがあるのです。休業は少ないに越したことはありませんがゼロにはできません。となれば、ダウンを全て「悪」と捉えるのではなく、むしろシステムの信頼性を高める機会を得たと前向きにとらえ、再発防止の検討に力を注いだほうが合理的ではないでしょうか。システムの開発や運用・保守に携わる技術者は、不運にもダウンに見舞わられたとしても、落ち込むのではなく転んでもタダでは起きない気概を持って臨むべきです。

|

« かりん糖対決其の四:「ブラジルコーヒーボーイ」対「キャラメルコーヒー」 | トップページ | 「10万年の世界経済史」:グレゴリー・クラーク »

書籍・雑誌」カテゴリの記事

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: 「システムはなぜダウンするのか」:大和田 尚孝:

« かりん糖対決其の四:「ブラジルコーヒーボーイ」対「キャラメルコーヒー」 | トップページ | 「10万年の世界経済史」:グレゴリー・クラーク »