SRE NEXTに参加して

2020/1/25にSRE NEXTと言うイベントに企業スポンサーという形で参加させて頂きました。 https://sre-next.dev/

 

私は一応SREチームに所属していますが、メインはSREとは別業務を行っている状態です。今回のイベントでは、企業ブースでブース運営をしつつ、いくつかセッションにも参加しました。

 

その中で、特に印象に残っているセッションについての感想を書きます。

 

[A3] freee のエンジニアは障害から何を学び、どう改善しているのか?

https://speakerdeck.com/manabusakai/what-do-freee-engineers-learn-and-improve-from-failures

 

障害が発生した後に、どう次に繋げるかというのは大事なテーマだと思います。

 

障害時には、優先度も緊急度も高く、その対応を行うことが多いです。

緊張感のある作業になることが多く、非常にパワーを使う業務の一つが障害対応です。

無事に障害対応が落ち着くと、パワーも使った後で、その振り返りや障害内容をまとめるのは後回しにしたくなる気持ちになります。(優先度も緊急度も下がるので)

 

ただ、障害から学ぶべき点は多くあるので、それを個人の善意に任せて共有してもらうのではなく、組織的な仕組みとして、共有するのが健全だと思います。 

弊社でも障害対応を行った週には、対応者が実際の対応内容を共有する会を実施しています。

 

今回のスライドの中で、失敗.jsという試みは弊社でやっていることと近いなと思いましたが、さらに良いなと思う部分がありました。

 

まず開発組織全体に共有する点です。

弊社では興味のある人に自発的に参加してもらうようにしており、組織全体には共有できていないです。

障害があった時に特定の人だけが関心を持つのではなく、より多くの人が関心を持てる方が、早く対応完了できるはずです。

そのために、全体に共有できる場というのは望ましいなと思いました。

 

また何も障害がなかった時には、寿司.jsになるというのも良かったです。

障害がなかったことで、ユーザー体験を損なわなかったのにプラスして、お寿司が食べれるというのは面白いなと思いました。

物で釣りたい訳ではないと思いますが、目に見えるメリットがある方が自分事にしやすいので、良いアイデアだなと思いました。

そうすることで、組織全体の関心ごとになっていくと感じました。

 

障害対応はできる人に属人化しやすいです。

対応内容を共有できることで対応できる人を増やしていくことが、健全な組織の状態だと思います。(その人がいなくて対応できませんじゃ、持続性はありませんので)

 

今回のセッションを聞き、弊社でもより障害からの学びを繋げるかのアイディアを聞くことができて有益でした。

 

もちろんこのセッション以外も素晴らしく、自身のなりたい姿とのギャップを理解することができました。

今後のやるべきことが具体的になり、次に繋がるイベントに参加することができ、非常に有り難かったです。

 

素晴らしいイベントをありがとうございました。