重大事故の時の対応について

元ヤフーの社長だった宮坂さんが投稿している記事。

重大事故(非常時)の対応として、必要な内容がまとまっているように思うので、健忘禄としてリンクを残す。通常のPRJを運営する上でも、参考になるエッセンスが多いと思う。

重大事故の時にどうするか?|miyasaka
ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お...

2022/8/4 追記

先月、KDDI(AU)が大規模障害を起こしましたが、このエッセンスとして紹介されている10項目で見ると、”7.後方はユーザーファーストに”と”8.対外リリースも定時化”が不十分だったようい感じられます。いずれも、内向きの組織(典型的なのは役所(全部では無いですが))で有りがちな・・・・。

古い体質(KDD時代)がこんな所に出たので無ければ良いですが。

もっとも、元エンジニアとしては、障害理由の方が気になりますね。古い手順書を使ったのが悪いような発表でしたが(直接の理由はそうでしょうが)、安定が強く求められるシステムでダイナミックルーティング的な思想で設計されているのでは?と思える記載が有るのが気になります。確かに、現在はこちらが主流なので疑問を抱かないのかも知れませんが、運用(維持)には高いスキルが必要になります。レガシーな方式の方が、万が一の時に影響を拡大しないように思うのですけど。

コメント

PAGE TOP