SLO策定とアラート設定までの長い道のり – Cybozu Inside Out | サイボウズエンジニアのブログ

SRE
SRE

こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか?アラートの監視項目はどのように設定して、基準値をどのように決めていますか? 社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。 またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。 この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート 国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。 しかし現状のSLOはkinton

コメント一覧


shodai2020/11/13
“バーンレートとはエラーバジェットの消費速度を表す指標です。 バーンレートに基づくアラートは、エラーバジェットが枯渇する勢いのエラーが発生したときにアラートを鳴らすことができます。”

koemu2020/11/13
閾値のチューニングの話が書いてあって参考になる

gadgeterkun2020/11/13
良い記事だなぁ。失敗経験も載せてくれていて、それがまた有り難い

t_motooka2020/11/13
これ、簡単には行かないっすよねぇ。次やるとき参考にしたい。

takasago082020/11/13
あq

naopr2020/11/13
SLOやアラートの設定は試行錯誤が必要で難しいのよくわかる

iekusup2020/11/13
ほー。