地方エンジニアの学習日記

興味ある技術の雑なメモだったりを書いてくブログ。たまに日記とガジェット紹介。

【SRE】障害レベル雑メモ

www.atlassian.com

基準設定の背景と目的

背景

ポストモーテムの頻度を適切にコントロールするためには、全インシデントを対象とするのではなく、影響の大きさや再発リスクを基準にすることが重要です。この分類は、リソースを最も効果的に配分し、価値のある学びを得るために役立ちます。

目的

  • 貴重な時間や人員を無駄にしない。
  • 必要な学びや改善策を漏れなく収集。
  • チームの心理的安全性を守りつつ、実践的なプロセスを構築。

P3(軽微障害)でも例外的に実施するケース

通常はポストモーテムを実施しない軽微な障害(P3)でも、以下のようなケースでは実施を検討する価値があります。

再発リスクが高い場合: 軽微な障害が頻発しており、再発防止策を講じないと重大な問題に発展する可能性がある。 新しいシステムや運用に関連する場合: 新しい仕組みで発生した障害で、学びを得ることで他のプロジェクトに応用できる場合。 特定のチームやメンバーのトレーニング目的: 新人やオンボーディング中のメンバーが参加することで、ポストモーテムの進め方や障害対応の学習に役立つ場合。 インシデントの評価基準を具体化 「影響範囲」「緊急性」「再発リスク」「学びの可能性」の4つの軸でインシデントを評価するフレームワークを取り入れると、基準がさらに明確になります。

影響範囲

顧客影響(例: 影響を受けたユーザー数や範囲)。 ビジネス影響(例: 売上損失、ブランドイメージの低下)。

緊急性

インシデント対応が遅れた場合の影響拡大リスク。

再発リスク

同様の障害が再発する可能性の高さ。

学びの可能性

チームや組織全体の成長につながる新しい知見が得られるか。 小規模インシデントをまとめて評価する方法 P2やP3に該当するインシデントが多発する場合、それぞれ個別にポストモーテムを実施するのではなく、「まとめて評価」する方法を取り入れることが効果的です。

方法

月次や四半期ごとに、類似の小規模インシデントをまとめてレビュー。 共通の原因やパターンを抽出し、包括的な改善策を検討。 例: 「過負荷時のレスポンス遅延」に関連する複数のインシデントをまとめて分析。 これにより、効率的な再発防止策を一度に講じることが可能。 各レベルでの実施判断例 具体例を示すと、より理解しやすくなります。

P0(重大障害)の例:

APIゲートウェイの全停止により、全ユーザーがサービスを利用できなかった。 売上損失が1時間で100万円以上。 実施: 必須。 P1(重要障害)の例:

一部のデータベースが停止し、特定地域のユーザーがログインできなかった。 実施: 推奨。 P2(一般障害)の例:

ログの保存が一部失敗したが、システム全体には影響がなかった。 実施: 再発リスクがある場合に検討。

P3(軽微障害)の例:

内部モニタリングシステムのエラーで、サービスには影響がなかった。 実施: 通常は実施せず、定期レビューで対応。 ポストモーテム実施基準をドキュメント化 なぜ必要か: チーム間での理解を統一し、迷いや議論を減らす。 新メンバーや他チームがポストモーテム文化にすぐに適応できるようにする。

記載内容

  • インシデント分類基準(P0〜P3)。
  • 実施基準と例外条件。
  • 各分類における具体例。
  • 定期レビューのスケジュールと実施方法。

まとめ

ポストモーテムを効率的に行うには、P0〜P3の分類に加え、例外的なケースや評価フレームワークを活用して基準を柔軟に運用することが重要です。また、これらの基準をチーム全体で共有し、定期的に見直すことで、ポストモーテムの質を向上させることができます。