メインコンテンツまでスキップ
バージョン: 4.x

アラートと通知

DOG StackはGrafanaを統合しているため、Grafana内で直接アラートを作成・管理できます。本記事では最も一般的なアラート操作を紹介します。より高度な機能については、Grafana Alerting documentationを参照してください。

図に示すように、Grafana Alertの核となる仕組みは以下の通りです:

  1. ユーザーが基盤となるクエリとトリガー条件を含むアラートルールを定義します。
  2. システムが定期的にルールのクエリを実行し、トリガー条件を評価します。
  3. トリガー条件が満たされた場合、アラートインスタンスが生成されます。
  4. アラートが送信されます — 連絡先に直接送信されるか、通知ポリシーを通じて柔軟にルーティングされます。

alert_overview

一般的なアラートルールの作成と管理フローは以下のようになります:

1. Grafana Alerting → Alert rulesを開き、「Create alert」をクリック

alert_create

2. クエリとトリガー条件を定義

まずDorisなどのデータソースを選択します。Builderモードでは視覚的なインターフェースをクリックして簡単なクエリを構築でき、Codeモードではより複雑なクエリ用にSQLを記述できます。この例では、Codeモードを使用して、過去10分間のotel.otel_logs内でbodyフィールドがerrorキーワードにマッチする行数をクエリします。

次に、Expressionセクションで、クエリ結果をさらに集約する方法(オプション)を選択し、アラートをトリガーする閾値を設定します。この例では閾値を「result > 10」に設定し、追加の集約は適用しません。

最後に、Previewをクリックしてクエリ結果とアラートが発火するかどうかをプレビューします。ここではクエリが882を返し、閾値の10を超えているため、ステータスが1 Firingと表示されています。

詳細については、Grafana docsを参照してください。

alert_condition

3. 評価間隔と組織を設定

まずアラートを整理するフォルダを選択し、次にアラートの評価間隔を設定し、最後にPending期間を選択します。この例では1分ごとに実行される評価グループを作成し、Pending = Noneを選択します — これは、条件が満たされた時に(例:1分間など)一定時間持続した後ではなく、即座にアラートがFiring状態に移行することを意味します。

詳細については、Grafana docsを参照してください。

alert_evaluation

4. 通知チャネルを設定

GrafanaはEmail、Slack、Discord、PagerDuty、Webhookなど多くの通知チャネルをサポートしています。既存の連絡先を選択することも独自に作成することもでき、ラベルに基づいてアラートをルーティングする柔軟な通知ポリシーも設定できます。

詳細については、Grafana docsを参照してください。

alert_label

alert_contact

5. 通知メッセージを設定

通知内容をカスタマイズできます — 要約、説明、対応を案内するrunbook URLを含めることで、受信者が何が起こったかをより迅速に把握できます。

alert_message

6. アラート管理

アラートルールを作成した後、それらを管理できます — アラートの一時停止、しばらくの間通知の無効化、ルールの変更、通知チャネルの変更などが可能です。

詳細については、Grafana docsを参照してください。

alert_management