Netdataのインストールと設定ガイド:効率的なリアルタイムシステム監視を実現

Monitoring tutorial - IT technology blog
Monitoring tutorial - IT technology blog

皆さん、サーバー群の管理で頭を悩ませた経験はありませんか?駆け出しの頃は、問題が発生した時やサーバーが正常に動作しているか確認したい時、一つ一つSSH接続してtopfree -hdf -hといったコマンドを色々と実行していました。途方もなく時間がかかり、情報もバラバラでまとめるのが大変でした。

当時のことを思い出すと、CPUやRAMの使用状況を確認するためだけにターミナル画面を一つ一つ手探りで見ていくのは、まさに苦行でした。しかし、今は違います。プロフェッショナルな監視ツールが登場してからは、全てが格段に楽になりました。特にNetdataは、今日皆さんと共有したい、非常に役立つ「パートナー」の一つです。ダッシュボードを開くだけで、サーバー上で何が起こっているか全て把握でき、利便性は比べ物になりません!

では、Netdataとは一体何でしょうか?なぜ私が皆さんに、特にITやDevOpsの分野で新しく始める方にこれをお勧めするのでしょうか?

Netdataとは何か、そしてなぜそれが必要なのか?

最も簡単に理解するなら、Netdataはリアルタイム性能監視ツールです。CPU、RAM、ディスクI/O、ネットワークトラフィックから、ウェブサーバー(Apache、Nginx)、データベース(MySQL、PostgreSQL)などの特定のアプリケーション、さらにはコンテナ(Docker)に至るまで、サーバー上のあらゆる可能なデータを収集します。

Netdataの強み:

  • リアルタイム監視: 毎秒数千ものメトリクスを高解像度で収集し、ウェブダッシュボードに瞬時に表示します。まるでサーバーの活動を監視するカメラのようです。
  • ゼロコンフィギュレーション: 魔法のように聞こえるかもしれませんが、Netdataはほとんどの一般的なサービスを自動的に検出し、多くの設定をすることなくメトリクスの収集を開始できます。
  • 非常に軽量: Netdataは、リソースが限られたシステムでも効率的に実行できるように設計されています。
  • 直感的なウェブダッシュボード: 全てのデータは美しく、分かりやすいグラフ形式でウェブブラウザを通じて表示されます。
  • 拡張性: 様々なアプリケーションやサービスを監視するための多数のプラグインをサポートしています。

私のチームが使用してきたPrometheusやZabbixのような「大物」と比較すると、Netdataは異なる視点を提供します。Prometheus/Grafanaが長期保存、複雑なクエリ、高度にカスタマイズ可能なダッシュボードの機能に優れているとすれば、Netdataは「素早く、直接的に」何が起こっているかを見る能力において優れています。これは即座の診断ツールのようなもので、初期の複雑な設定なしに、予期せぬ問題を迅速に検出するのに役立ちます。

実践:Netdataのインストールと設定

ステップ1:システムの準備

Netdataは多様なLinuxディストリビューションをサポートしています。このガイドではUbuntu 22.04を使用しますが、手順はCentOSやDebianでも同様です。サーバーがインターネットに接続されており、rootまたはsudo権限があることを確認してください。

sudo apt update
sudo apt upgrade -y

CentOS/RHELを使用する場合:

sudo yum update -y

ステップ2:Netdataのインストール

Netdataをインストールする最も簡単な方法は、提供されている自動インストールスクリプトを使用することです。このスクリプトは依存関係をチェックし、それらをインストールしてからNetdataをインストールします。

wget -O /tmp/netdata-installer.sh https://my-netdata.io/kickstart.sh
sh /tmp/netdata-installer.sh --dont-wait

--dont-waitコマンドを使用すると、スクリプトは対話なしで実行されます。このプロセスは、ネットワーク速度とサーバーのパフォーマンスに応じて数分かかる場合があります。

インストールが完了すると、Netdataは自動的に起動し、サービスとして実行されます。

sudo systemctl status netdata

以下のような出力が表示されます:

● netdata.service - Real-time performance monitoring
     Loaded: loaded (/etc/systemd/system/netdata.service; enabled; vendor preset: enabled)
     Active: active (running) since ...

ステップ3:Netdataダッシュボードへのアクセス

デフォルトでは、Netdataは19999ポートで動作します。ブラウザを開き、アドレスhttp://<IP_server_cua_ban>:19999を入力することでダッシュボードにアクセスできます。

ファイアウォール(UFWなど)を使用している場合は、ポート19999が開放されていることを確認してください:

sudo ufw allow 19999/tcp
sudo ufw reload

これで完了です!CPU使用率、RAM、ディスクI/O、ネットワークトラフィックなどを表示する美しいダッシュボードが、リアルタイムで次々と表示されるのがわかるでしょう。

ステップ4:基本的な設定(オプション)

Netdataはデフォルト設定でも非常にうまく機能しますが、時には少し調整が必要になることがあります。Netdataの主要な設定ファイルは/etc/netdata/netdata.confにあります。ただし、Netdataは各モジュールの個別設定を管理するために/etc/netdata/conf.d/ディレクトリを使用することを推奨しています。これにより、上書きされることなく簡単に更新できます。

例えば、NetdataがリッスンするIPアドレスやデフォルトポートを変更するには、/etc/netdata/netdata.confを編集できます。私個人としては、このファイルはそのままにし、特定のモジュールを調整する必要がある場合にconf.d内に独自の構成ファイルを作成することが多いです。

主要な設定ファイルを編集するには:

sudo nano /etc/netdata/netdata.conf

[web]セクションを見つけて、必要に応じてbind toを変更できます:

[web]
    bind to = 0.0.0.0
    # bind to = 127.0.0.1

0.0.0.0はすべてのIPアドレスからのアクセスを許可し、127.0.0.1はlocalhostからのアクセスのみを許可します。変更後、Netdataを再起動することを忘れないでください:

sudo systemctl restart netdata

特定のアプリケーションの監視

Netdataは多くのアプリケーションを自動検出できます。これは私がとても気に入っている点です。例えば、Apache/NginxやMySQLが実行中の場合、Netdataは通常、関連するグラフを自動的に見つけて表示します。そうでない場合は、/etc/netdata/conf.d/内の設定を確認する必要があります。Nginxの例:

sudo nano /etc/netdata/python.d/nginx.conf

このモジュールが有効になっており、Nginxのスタブステータス(Nginxで設定済みの場合)のurlが正しく構成されていることを確認する必要があります。

Nginxスタブステータスを有効にするには(まだない場合):

sudo nano /etc/nginx/sites-available/default

以下のセクションをserverブロックに追加します:


    location /nginx_status {
        stub_status on;
        allow 127.0.0.1; # localhostからのアクセスのみを許可
        deny all;
    }

その後、Nginxをテストしてリロードします:

sudo nginx -t
sudo systemctl reload nginx

そして、Netdataが設定を再読み込みするように再起動することを忘れないでください:

sudo systemctl restart netdata

ステップ5:アラートの設定

Netdataには非常に強力な組み込みアラートシステムがあります。CPUの過負荷、ディスクの満杯、RAM不足など、一般的な状況に対して数百ものアラートが事前に設定されています。これらのアラートは/etc/netdata/health.d/ファイルで表示および編集できます。

例えば、CPU使用率が5分間80%を超えた場合にアラートを受け取りたいとします。サンプル設定ファイルはcpu.confです:

sudo nano /etc/netdata/health.d/cpu.conf

CPUセクションを見つけて、しきい値を調整するか、新しいルールを作成します。Netdataはこれらのルールに独自の言語を使用しており、かなり理解しやすいです。例えば:

alarm: cpu_usage_total_critical
    on: system.cpu
    lookup: average -5m percentage >= 80
    every: 1m
    class: Utilization
    type: System
    info: CPU utilization is above 80% for 5 minutes.
    warn: $this > 80
    crit: $this > 95
    to: sysadmin

Netdataがアラートを送信できるようにするには、/etc/netdata/health_notifier.d/default.confまたは/etc/netdata/health_notifier.confファイルでメール、Telegram、Slackなどの送信方法を設定する必要があります。私は通常、高速で便利なTelegramを使用しています。これはかなり大きなファイルですが、# TELEGRAMセクションを探すだけで十分です。その後、SEND_TELEGRAM="YES"と、適切なTELEGRAM_BOT_TOKENTELEGRAM_CHAT_IDを設定します。最後に、Netdataを再起動することを忘れないでください。

結論

Netdataはまさに「小さくても力持ち」なツールです。非常に詳細なリアルタイム監視機能、シンプルなインストール、そして直感的なダッシュボードにより、サーバーの状態を素早く把握したいすべての人にとって理想的な選択肢です。

特に初心者の方にとっては、Netdataは初期設定に多くの手間をかけずにシステム全体の概要を把握するのに役立ちます。一度「ダッシュボードを開けば全てがわかる」ことに慣れてしまえば、もう一つ一つのサーバーにSSH接続していた日々には戻りたくなくなるでしょう!

今すぐNetdataをインストールして体験してみてください。実施中に何か質問があれば、遠慮なくコメントを残してくださいね!

Share: