先月27日に全日空の国内線システムに障害が発生し、国内線の搭乗手続き、予約・発券処理に支障をきたしたという。同日の午後6時には運行を再開したがその時点で122便が欠航し、1万9500人に影響がでた。また、176便に1時間以上の遅延が発生し、2万2400人に影響が出たという。
また、24日には、東西のNTT両者間で「ひかり電話」が不通となり、東西NTTで約318万回線に影響が出たという。
いずれも全国規模の影響であり、ニュースで既にご存知の話ですが、皆様はどのように受けとめましたか?
直接被害に遭われた方はさぞお怒りになられたことでしょう。
私は長いことシステムの開発・保守・運用に関わっておりましたので直ぐに現場の状況を考えてしまいますので、その一端をご紹介して皆様の会社でも大小の規模の違いはありましょうが、類似の事象がないか、参考になることはないか、を考えてみます。
まず、今回のアクシデントが発生してしまった後の対応ですが、先ずやらねばならないことは情報の収集です。どこで、どんな問題が発生しているのか、類似の現象は他では発生していないのか、等々現象を正しく認識することです。異常事態が発生すると、そのことにだけ気をとられてしまい、今後発生しうるかも知れない事象が予測できず、対応が後手に回ることがあります。社内の情報が素早く連携される仕組みになっていることが必要です。
次に現状の認識にたって、原因を想定し、対策案をたてることです。ここでも関係者のコミュニケーションがどれだけとられているかが対応の正確さ・迅速さに大きく関わってきます。社内の風通しが悪いと原因のなしつけあいになり、問題解決をおくらせることがあります。また、対応を的確にリードするリーダの存在が不可欠です。社内システムで社会的影響が大きくない場合は特に利害に走ってしまうことが見られます。
今回の全日空の対応がほぼ1日かかったことの妥当性は、社内の危機管理能力と顧客サービス・安全確保等々の視点から評価がなされることでしょう。これはもはや経営管理の問題です。
次に、何故このトラブルを事前に防止できなかったのかということを考えてみましょう。
今回の事象にあてはまるかわかりませんが、「ハインリッヒの法則」というものがあります。これは1:29:300の法則とも言われているもので、1件の重大災害の裏には、29件の軽微な災害があり、その裏には更に300件のヒヤリとしたり、ハッとする経験があるというものですが、例えば今回のシステム切替にあたって、事前に想定外の結果が発生していなかったかを確認します。すると今回の全日空の例でも事前に兆候があったといいます。これらの兆候を掴むことにより、事故を未然に防ぐ手立てが必要となります。
前述の数字の妥当性は措いておきますが、最近よく言われる言葉にインシデント管理というものがあります。これは主にセキュリティに絡んで言われることが多いのですが、システムの運用・保守の場面で何らかの異常を知らせる警告となります。インシデントとは重大な事故に繋がる出来事を指しますが、今後益々ネットワーク社会が進むにつれ、アクシデントが与える影響、そして社会的立場は会社の大小に関わりなく重要性を帯びてきます。全日空のトラブルを他山の石として、今一度自社システムの信頼性・安全性を見直されてはいかがでしょうか。
■執筆者プロフィール
大塚 邦雄
ITコーディネータ システム監査技術者
NPO法人ITコーディネータ京都 理事