システム障害のニュースで思う運用中のシステムをメンテするという事

Written by

in

 相変わらず、稼働中のシステム障害のニュースを目にする事が有りますが、しっかり準備をしていても防げない事も有ります。又、経験とか、慣習的な動作(や操作。有る人はおまじないと言っていましたが、妙に納得させられます)が中々引き継がれない時代になってきたようにも思います。
 この世界(業界というべきか)は、”徒弟制度の世界”だと言われたのは社会人になってしばらくの頃なので40年近く前になりました。今も同じだと思うのですが、若い人には嫌う人が多いようです。言葉の響きから連想する内容が良くないのかも知れませんが・・・。

 運用中のシステムで障害を起こした事はほとんど無いのですが、一度、アクティブなユーザが約2万人ほどのシステムで、日中のメンテを実施していてシステムを落とした事が有ります。

 稼働中のシステムでのメンテなので、手順書(含むチェックリスト)等はしっかり作成し、開発環境、ステージング環境、本番環境 の順で同一作業を実施したのですが、本番環境でのみ障害を起こしてしまいました。本番環境のアクティブ側がカーネルパニックになり、スタンバイ側へ切り替わりが発生したのです。

 同じ手順で実施して、なぜ本番環境のみで障害が起きた(起こした)のかですが、最後の手順で、外部媒体(USBメモリ)へメンテログを書き出す事になっていました。実施時、切り離しコマンドがプロンプトに戻った瞬間に”終わった”との安心感ですぐにUSBメモリを抜いた事が原因でした。この時点で、完全にシンクしていなかったのでした。
 私の師匠と言える人は、操作(動作)の終了時には、Enter を数回叩いて、一呼吸置いてから次ぎの動作に移るとかを徹底しており、私もそのように教えられたのですが・・・・・。
 もちろん、USBメモリでアクセスランプが有ればそれを確認しますが、そのような物が無いと一呼吸おく動作が重要になります。

 今月から、又、新人が入られた職場も多いかと思います。教育って難しいですよね。皆さん、基本を身につけるってどうされてますか?

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *