SRE本でSREの運用負荷には3種類の割り込みが挙げられている「ページ」「チケット」「運用負荷」の3つである。ページはプロダクションや近しい環境で非常事態が発生した時に起きる割り込み。アラートが発生してオンコールになったりした際に発生する。チケットは顧客からの要求。顧客とはエンドユーザーであったりプラットフォームを提供しているならプラットフォームの利用者も含まれる。最後が運用負荷。トイルと呼ばれる。
これらの割り込みはサービスを運用していく上では完全に無くすことはできないが困ったことに発生しまくると過負荷となって短期的な対応でその場しのぎで乗り切ってしまって根本原因への対応が疎かになってしまう。そんな感じのことを過去にも書いていた。
エラーバジェット設定してうまくやっていこう的なことを書いていたが溢れるくらいの割り込みが実際に来てみるとその思考に至るのは難しいことに気づいた。コードをサクッと書いて直していくんだと強い気持ちでやっていこう
やることいっぱい -> 1つ1つが雑になる -> 雑になったところが崩れる -> やること増える
— RyuichiWatanabe@gurasan (@ryuichi_1208) 2023年7月15日
みたいな状況に陥っているな
SRE本の30章「SRE投入による運用過負荷からのリカバリ」にSREチームは非常事態の数を減らすのではなく非常事態に素早く対応する方法に焦点を当ててしまうことによって運用モードに陥るケースがあると書いてある。アラート対応訓練とか対応のためのドキュメントを書くようなことに時間を使いすぎるようなものは心当たりがあったのでハッとなった。根本原因を見つけた倒すようなことをやっていくのとチームでそれが見えなくなっているのなら自分が一歩引いてみるかチーム外からアドバイスをもらうなどやれることをやっていこう。