システム・トラブルに学ぶ/大塚 邦雄

 先月27日に全日空の国内線システムに障害が発生し、国内線の搭乗手続き、
予約・発券処理に支障をきたしたという。同日の午後6時には運行を再開したが
その時点で122便が欠航し、1万9500人に影響がでた。また、176便に
1時間以上の遅延が発生し、2万2400人に影響が出たという。
また、24日には、東西のNTT両者間で「ひかり電話」が不通となり、東西
NTTで約318万回線に影響が出たという。
いずれも全国規模の影響であり、ニュースで既にご存知の話ですが、皆様はどの
ように受けとめましたか? 

 直接被害に遭われた方はさぞお怒りになられたことでしょう。
 私は長いことシステムの開発・保守・運用に関わっておりましたので直ぐに現
場の状況を考えてしまいますので、その一端をご紹介して皆様の会社でも大小の
規模の違いはありましょうが、類似の事象がないか、参考になることはないか、
を考えてみます。

 まず、今回のアクシデントが発生してしまった後の対応ですが、先ずやらねば
ならないことは情報の収集です。どこで、どんな問題が発生しているのか、類似
の現象は他では発生していないのか、等々現象を正しく認識することです。異常
事態が発生すると、そのことにだけ気をとられてしまい、今後発生しうるかも知
れない事象が予測できず、対応が後手に回ることがあります。社内の情報が素早
く連携される仕組みになっていることが必要です。
次に現状の認識にたって、原因を想定し、対策案をたてることです。ここでも関
係者のコミュニケーションがどれだけとられているかが対応の正確さ・迅速さに
大きく関わってきます。社内の風通しが悪いと原因のなしつけあいになり、問題
解決をおくらせることがあります。また、対応を的確にリードするリーダの存在
が不可欠です。社内システムで社会的影響が大きくない場合は特に利害に走って
しまうことが見られます。
今回の全日空の対応がほぼ1日かかったことの妥当性は、社内の危機管理能力と
顧客サービス・安全確保等々の視点から評価がなされることでしょう。これはも
はや経営管理の問題です。

 次に、何故このトラブルを事前に防止できなかったのかということを考えてみ
ましょう。
 今回の事象にあてはまるかわかりませんが、「ハインリッヒの法則」というも
のがあります。これは1:29:300の法則とも言われているもので、1件の
重大災害の裏には、29件の軽微な災害があり、その裏には更に300件のヒヤ
リとしたり、ハッとする経験があるというものですが、例えば今回のシステム切
替にあたって、事前に想定外の結果が発生していなかったかを確認します。する
と今回の全日空の例でも事前に兆候があったといいます。これらの兆候を掴むこ
とにより、事故を未然に防ぐ手立てが必要となります。
前述の数字の妥当性は措いておきますが、最近よく言われる言葉にインシデント
管理というものがあります。これは主にセキュリティに絡んで言われることが多
いのですが、システムの運用・保守の場面で何らかの異常を知らせる警告となり
ます。インシデントとは重大な事故に繋がる出来事を指しますが、今後益々ネッ
トワーク社会が進むにつれ、アクシデントが与える影響、そして社会的立場は会
社の大小に関わりなく重要性を帯びてきます。全日空のトラブルを他山の石とし
て、今一度自社システムの信頼性・安全性を見直されてはいかがでしょうか。



■執筆者プロフィール

大塚 邦雄
ITコーディネータ システム監査技術者
NPO法人ITコーディネータ京都 理事


公式Facebookページはこちらから

<いいね>をクリック!