Grafana OnCallをセルフホストする:DevOpsチームのためのプロフェッショナルな当番管理とエスカレーション

Monitoring tutorial - IT technology blog
Monitoring tutorial - IT technology blog

「アラート疲れ」という悩みとGrafana OnCallの誕生

Ops(運用)の経験があれば、午前2時にAlertmanagerからTelegramへ50件以上の通知がなだれ込み、スマホが震え続ける感覚を知っているはずです。その時、最初に考えるのは「何が起きたか」ではなく、「今、誰が当番で、誰が対応するのか?」ということです。明確なアサインプロセスがなければ、チーム全員が叩き起こされるか、あるいは「誰かがやるだろう」と思って誰も何もしないという最悪の結果を招きます。

私の環境では15台のサーバーと40のマイクロサービスを監視しています。この構成で異常は素早く検知できますが、規模が大きくなるにつれ、単にアラートを受け取るだけでは不十分だと気づきました。当番表(On-call schedules)を管理し、メインの担当者が反応しない場合に自動的に「エスカレーション(Escalation)」するツールが必要です。そこで選んだのが**Grafana OnCall**です。

以前、OnCallは有料のCloud版のみでしたが、現在はセルフホスト(オープンソース)版が公開されています。これはPagerDutyやOpsgenieの優れた代替案であり、データを手元に残したまま、1ユーザーあたり月額少なくとも20ドルを節約できます。

システム要件と準備

OnCallを数千のイベント処理でもラグなくスムーズに動作させるには、以下の準備が必要です:

    Share: