chroju.dev/blog

the world as code

すべての障害対応を、生まれる前に消し去りたい! #障害対応きにならNight

エンジニア交流会〜他社の障害対応きにならNight!〜 on Zusaar

改めて見るとすげー名前のイベント……行ってきた。

障害対応は嫌いです。ていうか好きな人がいるならお目にかかってみたいもんですが、しかしシステムを動かす以上障害は避けられないし、それならばなるべく負担を軽減したいというのが人の、いやエンジニアの性。つわけでよりよいソリューションを探す目的で行ってきたイベントだったんですが、結局のところ より深い闇を知るだけの結果に終わった。

世の中闇だらけですわ。闇しかないですわ。自分なんかぜんぜん甘いなっていうか闇とすら呼べないんじゃないかっていう。詳しくは書けませんけど世の中運用者って苦労してんなって認識新たにしました。まぁだからって闇を甘受していいわけじゃなくて、だからこそやることあるんだけどさ。

得た知見をザクっとまとめちゃいますけど、

  • 明文化と記録は何事も大事。顧客との契約にせよ、手順や構成にせよ、障害記録にせよ。
  • ただ記録するんじゃなくて探しやすいようにとか考えないと意味ない(Wikiに書き散らしても役には立たない)
  • 日頃からの点検などによる障害の抑止も重要。障害訓練とか。
  • スーパーエンジニアだから治せるって状態は脱したいのでスキルの底上げは必要。
  • 電話かかってくるのウザいけど必要。確実に対応しなきゃならない障害なら絶対電話。別にTwilioとかでいいので。

障害対応って辛くないはずはないのだが、だったらより辛くない方法を探さねばなと思う。アラートの対象は極力絞ったり、自動復旧でイケる事象はスクリプト組んでおいたり。

あと自分はもともと金融系SEで、運用に用いてたのもJP1やTivoliみたいな商用製品が多かった故、会場で交聞いたnagiosやらcactiやらCloudWatchやらを学ばねばというところ。顧客とビジネスモデルが変わっただけで、見える技術領域もほんとに変わるものだと思う。

こういうopsやインフラに絞ったイベント、なかなかない気がするので良いですね。