システム開発をしていると、必ずといっていいほどシステム障害に見舞われることがあります。
システム障害が発生すると、業務や経営に多大な影響を及ぼします。そのため、できるだけ早く原因・対策・報告することが必要になります。
この記事では、システム障害報告書に記載するべき内容について紹介します。
この記事で取り扱うトラブル事例
この記事では、以下のトラブルが発生したという想定で説明したいと思います。
- ネットワーク機器の故障により、インターネット通信が遮断された
- これにより、お客様EDIシステムからのデータ受信ができず、計画・発注業務に影響があった
- 機器のリプレイスを行うことで対策した
事象
事象とは、どのような障害が起こったのか、という内容です。具体的には、以下のような障害事象ですね。
- 外部向けネットワーク通信が遮断された
- お客様EDIシステムへからの受注データ受信に失敗した
システム目線で、何が起こったのかを明確に書くことがこのセクションの目的です。何が、どうなったのか、主語と述語を明確にしましょう。
発生日時
障害事象が何時からどれだけの期間発生したのか、書きましょう。
影響
影響とは、発生した事象に対して、業務にどのような損害があったのかを記載します。
例えば、上記の事象からは、以下の影響があったとします。
- 生産計画の立案ができず、取引先様への注文データ送信が遅延した
- 取引先様での計画立案が遅延した
特に業務影響は情報システム部門だけでは分からないことが多いです。業務部門へのヒアリングが必要になるでしょう。
直接原因
障害事象が発生した直接的な原因を記載します。この例でいえば、
- ネットワーク機器の故障
などが該当するかと思います。
根本原因
根本原因は、なぜ「直接原因」に至ったのか、を書きます。
この例では「なぜネットワーク機器が故障したのか」「故障するまでリプレイスされなかったのか」という視点から書きます。
- 廃番機種であり、新型機種へのリプレイスを検討中であったため、リプレイスされていなかった
など、直接原因を深堀した内容を記載しましょう。
暫定対策
暫定対策とは、発生した障害から回復するために対応した行動のことを書きます。今回は、故障したネットワーク機器をリプレイス
することですので、以下のような内容になります。
- 障害が発生したネットワーク機器をリプレイスし、通信可能であることを確認した
恒久対策
恒久対策とは、今回のような障害が二度と発生しないような対策を指します。暫定対策で記載したネットワーク機器のリプレイスだけでは、他の機器も同じように故障してしまう可能性があるためです。
- 廃番機種のリプレイス作業プロセスの見直し
このように、プロセス見直しを恒久対策とすれば、廃番機種が同様の障害に見舞われることはなくなります。
対策スケジュール
暫定対策・恒久対策が完了するまでのスケジュールを書きましょう。
いつになったら完了するのか、現在どこまで作業が進んでいるのか明確にするためです。
ガントチャートが便利で分かりやすいと思います。
コメント