モニタリング概要
モニタリングの概要
Pandora FMS のすべてのユーザ操作は、ウェブコンソールを通して行います。コンソールへのアクセスは、任意のコンピュータから特別なプログラムを必要とせず HTML5 に対応したブラウザで行うことができます。
監視とは、情報を収集して保存し、そのデータに基づいて決定した処理を実行すために、あらゆるタイプのシステム上のプロセスを実行することです。
Pandora FMS は、収集する情報の範囲や量を拡張できる複数の機能をもったスケール可能な監視システムです。
Here are the basics of monitoring, with web links if you wish to find out more.
監視の基本を以下に示します。詳細を知りたい場合は、Web リンクを参照してください。
Pandora FMS における論理エージェント
Pandora FMS によるすべての監視は、論理エージェント で管理され、全ての 論理エージェント は、グループ に属します。これらエージェントは、監視対象のさまざまなコンピュータ、デバイス、Webサイト、またはアプリケーションを表します。
Pandora FMS コンソールで定義された論理エージェントでは、ソフトウェアエージェントを通じて収集されたローカル情報、ネットワークチェックを通じて収集されたリモート情報、またはその両方を表示できます。 そのため、Pandora FMS コンソール上で表現されるエージェントと、対象システムにインストールしてローカルでデータを収集するソフトウェアエージェントは異なるということを理解することが重要です。
ソフトウエアエージェントでのモニタリングと、リモートモニタリング
Pandora FMS には、主にソフトウエアエージェントを使った方法とリモートで行う方法の 2つの監視手法があります。
エージェントベースの監視 は、監視対象にインストールした小さなソフトウエアを用い、ローカルでコマンドやスクリプトを実行して情報を取得します。
リモート監視 は、監視対象の確認をリモートからネットワークを介して行います。監視対象には、追加のソフトウエアをインストールする必要はありません。
つまり、ソフトウエアエージェントベースの監視は監視対象のローカルでチェックをして情報を取得し、リモート監視は Pandora FMS サーバからリモートでのチェックで情報を取得します。
両方のタイプのエージェントは、同じ一般設定とデータ表示を共有します。Pandora FMS においては、一つの手法もしくは組み合わせでの監視が可能です。
コンソールでの論理エージェント設定
Management menu → Resources → Manage agents, click on the agent name, click on the Management icon.
管理(Management) メニュー → リソース(Resources) → エージェント管理(Manage agents)、エージェント名をクリックし、管理(Management) アイコンをクリックします。
Main editing interface fields in normal view
通常の主な編集インターフェイスフィールド
- Alias: For the proper functioning of all the functions that Pandora FMS performs through agents and modules, avoid the use of the following characters
/
,\
,|
,%
,#
,&
and$
for the name of the agent or module. If these agents contain such characters, they can create confusion with the use of system paths or execution of other commands, causing errors on the server. - Server: Server that will execute the checks configured in agent monitoring, special parameter in case of having configured HA in your installation.
- Primary group: It allows you to assign a group to the agent. Clicking on the group icon will lead you to the assigned group tactical view.
- IP address: It allows you to assign an IP address to the agent. With the Check unique IP button you may check whether the IP address entered is free, if it is already in the list of saved addresses for that agent (it has a deletion option) or if it is in use by another agent. In case it is used by another agent, when saving the modifications, it will warn about it and it will ask for a confirmation before registering this data. In the General Configuration it could be configured so that the Check unique IP button is automatically used for editing all the agents.
- 別名(Alias): Pandora FMS がエージェント/モジュールを使って実行するすべての機能を正しく処理するために、エージェント名には
/
,\
,|
,%
,#
,&
および$
などの文字を使用しないことをお勧めします。 これらのエージェントを使うと、システムパスを使用しているときや他のコマンドを実行しているときに誤解を招き、サーバー上でエラーを引き起こす可能性があります。 - サーバ(Server): エージェント監視で設定されたチェックを実行するサーバです。インストールで HA を設定した場合は特別なパラメータです。
- プライマリグループ(Primary group): グループをエージェントに割り当てることができます。 グループアイコンをクリックすると、割り当てられたグループの情報表示画面にアクセスできます。
- IP アドレス(IP address): これにより、エージェントに IP アドレスを割り当てることができます。 ユニーク IP 確認 ボタンを使用すると、入力した IP アドレスが空いているかどうか、そのエージェントの保存済みアドレスのリストに既に存在しているかどうか (削除オプションがあります)、または他のエージェントによって使用されているかどうかを確認できます。別のエージェントによって使用されている場合、変更を保存するときに警告が表示され、このデータを登録する前に確認が求められます。 一般設定 では、すべてのエージェントの編集において ユニーク IP 確認 ボタンが自動的に使用されるように設定できます。
Main editing interface fields in advanced view
高度な編集インターフェイスフィールド
- Secondary groups: Optional parameter so that an agent can belong to more than one group (secondary groups).
- Cascade protection services: To prevent a flood of cascading alerts. You may choose an agent or an agent module. In the first case, when the chosen agent is critical, the agent will not generate alerts; in the second case, only when the specified module is critical, the agent will not generate alerts.
- セカンダリグループ(Secondary groups): エージェントが複数のグループに属するためのオプションパラメータ。
- 関連障害検知抑制(Cascade protection services): 関連アラートが大量にあがることを回避することができるパラメータ。 エージェントまたはエージェントのモジュールを選択することができます。 前者の場合、選択されたエージェントが障害状態にあると、エージェントはアラートを生成しません。 後者の場合、指定されたモジュールが障害の場合は、エージェントはアラートを生成しません。
Three work modes can be selected for Module definition:
モジュール定義では 3 つの作業モードを選択できます。
- Learning mode: Default mode, if an XML arrives with new modules, they will be created automatically; it is a learning behavior.
- Normal mode: If an XML arrives with new modules, they will only be created if they were previously declared in the Console.
- Autodisable mode: It is the same as the learning mode, but if all modules go to unknown, the agent will be disabled until new information arrives.
- 学習モード(Learning mode): 新たなモジュールを含む XML を受け取った場合、モジュールを自動的に作成します。(デフォルト)
- 通常モード(Normal mode): 新たなモジュールを含む XML を受け取った場合、すでにコンソールに設定が無ければ作成しません。
- 自動無効化モード(Auto-disable mode): 学習モードと同じですが、全モジュールが不明になった場合に情報が再度車でエージェントを無効化します。
コンソールでのエージェント参照
この画面では、エージェントに関する多くの情報を見ることができます。リモート実行を強制し、データを更新することができます。
上部には、エージェントデータの概要が表示されます。
- Total modules and their status.
- Events in the last 24 hours.
- Agent Information.
- Name.
- Version.
- Agent accessibility.
- Group.
- 全モジュールとその状態
- 直近 24時間のイベント
- エージェント情報
- 名前
- バージョン
- エージェント接続
- グループ
NG 770 version or later.
バージョン NG 770 以降
Using the favorites system you may add any agent to a custom list for each user. Click on the star button right next to the agent's name in your main view.
お気に入りシステム を使用すると、エージェントを各ユーザのカスタムリストに追加できます。 メイン画面のエージェント名のすぐ横にある星ボタンをクリックします。
You may add (or remove) as many agents as you need, all of them will always be visible in the Agents section of the Favorite menu (Operation section).
必要な数のエージェントを追加 (または削除) できます。エージェントはすべて、お気に入り(Favorite) メニュー (操作(Operation) セクション) の エージェント(Agents) セクションに常に表示されます。
List of modules (List of modules) belonging to the agent and their corresponding status.
エージェントに属するモジュールの一覧 (モジュール一覧(List of modules)) とそれに対応する状態。
Only initialized modules are displayed.
初期化されたモジュールのみが表示されます。
Full list of alertsof the agent, with the option to select one or several alerts and validate them through the Validate button:
エージェントのアラートの完全な一覧です。1つまたは複数のアラートを選択し、承諾(Validate) ボタンで承諾するオプションがあります:
Log sources status as configured in Log Collection.
ログ収集 で設定された ログソースの状態 です。
List with the latest events for this agent (Latest events for this agent), with the option to show only the events of the last 24 hours (Show all Events 24h):
このエージェントの最新の イベント を一覧表示します(このエージェントの最新のイベント(Latest events for this agent))。過去 24 時間のイベントのみを表示するオプションがあります (24 時間以内の全イベント表示(Show all Events 24h)):
モジュール
モジュールは、エージェント内に格納されている情報の単位です。 これらは、エージェントが指しているデバイスまたはサーバの状態を見る監視項目です。
各モジュールに格納できるメトリックは 1つだけです。 同じエージェント内に同じ名前の 2つのモジュールを設定することはできません。
すべてのモジュールは以下の状態を持ちます。
- 未初期化(Not started): まだデータを受け取っていません。
- 正常(Normal): データを受け取っており、値が警告や障害の閾値を超過していません。
- 警告(Warning): データを受け取っており、値が警告閾値を超過しています。
- 障害(Critical): データを受け取っており、値が障害閾値を超過しています。
- 不明(Unknown): モジュールは動作していますが、一定期間情報の受け取りが停止しています。
モジュールは、二値、数値、文字列といった、異なるタイプ(種類はこちら )のデータを持ちます。
モジュールのタイプ
Pandora FMS には、いくつかのモジュールのタイプがあります。
- データモジュール(Data module): これは、たとえばデバイスの CPU や空きメモリの使用など、ソフトウエアエージェントがインストールされているシステムでチェックが行われるローカル監視モジュールです。 この種の監視についてもっと知りたい場合は、こちら を参照してください。
- ネットワークモジュール(Network module): これは、エージェントが機能しているかどうか、または特定のポートが開いているかどうかなど、エージェントが指しているデバイスまたはサーバとの接続を確認するために使用されるリモート監視モジュールです。 この種の監視についてもっと知るためには、こちら を参照してください。
- プラグインモジュール(Plugin module): これは、ローカルまたはリモートの監視モジュールで、スクリプトを作成してカスタムチェックを行うことができます。 それらを使って、Pandora FMS コンソールからデフォルトの監視機能よりもさらに高度で広範囲なチェックを行うことができます。この種の監視についてもっと知りたい場合は、こちら を参照してください。
- WMI モジュール(WMI module): これは、Windows システムに対して、インストールされているサービスのリストや現在の CPU 負荷の取得などができるリモート監視モジュールです。 この種の監視についてもっと知りたい場合は、こちら を参照してください。
- 予測モジュール(Prediction module): これは、監視対象サーバーの平均 CPU 使用率や接続待ち時間の合計など、他の “基本” モジュールからのデータを参照してさまざまな算術演算を実行する予測監視モジュールです。 この種の監視についてもっと知るためには、こちら を参照してください。
- ウェブサーバモジュール(Webserver module): これは、たとえば Web サイトが停止しているかどうか、または特定の単語が含まれているかどうかを確認するなど、Web サイトの状態をチェックしてデータを取得する Web 監視です。この種の監視についてもっと知りたい場合は、こちら を参照してください。
- ウェブ分析モジュール(Web analysis module): これは、Web サイトの参照、資格情報の導入、フォームへの準拠など、ユーザの Web 参照のシミュレーションが実行できる Web 監視です。 この種の監視についてもっと知りたい場合は、こちら を参照してください。
状態監視
監視をするとき、システムから、メモリ、CPU、筐体温度、接続ユーザ数、eコマースサイトの注文数、その他数値情報をシステムから取得します。時々、我々はデータにのみ興味を持ちますが、一般的に値に対して状態を関連付けたいと考えます。そこで「しきい値」を越えたときに状態が変化し、何が正常か異常かを知らせてくれるようにします。これが監視です。状態の概念について説明します。
Pandora FMS は、データに基づき状態を決定するための しきい値 を定義することができます。3つの可能な状態として、正常
、警告
、障害
があります。しきい値は、ある状態が他の状態に移る値です。モジュールの状態は、それぞれのモジュールの設定において次のパラメータによって指定されたしきい値に依存します。
- Warning status - Min. Max.: Lower and upper limits for the
warning
status. If the numerical value of the module is within this range, the module will go into warning status. If no upper limit is specified, it will be infinite (all values above the lower limit). - Critical status - Min. Max.: lower and upper limits for the critical status. If the numerical value of the module is in this range, the module will go into critical status. If no upper limit is specified, it will be infinite (all values above the lower limit).
- Critical status - Str.: The same as the previous point but for
critical
status. - Inverse interval: present for both
warning
andcritical
thresholds. If enabled, the module will change status when its values are outside the range specified in the thresholds. It also works for alphanumeric modules (string), if the text strings do NOT match the Warning/Critical Str., the module will change its status.
- 警告状態 - 最小 最大(Warning status - Min. Max.): 警告状態の下限と上限です。モジュールの値がこの範囲に入ると、モジュールは警告状態になります。上限を設定しない場合は、無限(下限を超えたすべての値が対象)となります。
- 障害状態 - 最小 最大(Critical status - Min. Max.): 障害状態の下限と上限です。モジュールの値がこの範囲に入ると、モジュールは障害状態になります。上限を設定しない場合は、無限(下限を超えたすべての値が対象)となります。
- 範囲の反転(Inverse interval): 警告と障害のしきい値両方の設定に存在します。有効化すると、モジュールは、値がしきい値に指定した 範囲外 になった場合に状態変化します。文字列モジュールに対しても動作します。文字列が、警告/障害文字列にマッチしなかった場合に状態が変わります。
- Percentage: If enabled, the threshold value is interpreted as a percentage. For example, if the Min. value of Warning threshold is set to 50 with Percentage enabled, the module will go into warning status when its value decreases lower than 50% regarding the previous value. If the Max. value of Critical threshold is set to 25 with Percentage enabled, the module will go into critical status when its value increases by more than 25% compared to the previous value.
- Warning status - Str.: Regular expression for alphanumeric modules (string). If any matches are found, the module will go into
warning
status. - Critical status - Str.: Regular expression for alphanumeric modules (string). If any matches are found, the module will go into critical status.
- パーセンテージ(Percentage): 有効にすると、しきい値はパーセンテージとして解釈されます。 たとえば、最小の 警告閾値 の値が 50 に設定され、パーセンテージ が有効になっている場合、モジュールの値が前の値に対して 50% を下回ると、モジュールは警告状態になります。 最大の 障害閾値 の値が 25 に設定され、パーセンテージ が有効になっている場合、モジュールの値が前の値と比較して 25% 以上増加すると、モジュールは障害状態になります。
- 警告状態 - 文字列(Warning status - Str.): 文字列モジュールに対する正規表現です。マッチするとモジュールは警告状態になります。
- 障害状態 - 文字列(Critical status - Str.): 文字列モジュールに対する正規表現です。マッチするとモジュールは障害状態になります。
“警告” と “障害” のしきい値が重なっている場合は、“障害” しきい値が常に優先されます。
数値しきい値 - ケーススタディ 1
CPU 使用率モジュールは、エージェントのステータスの中で常に緑色です。これは単に 0% と 100% の間の値を報告するためです。 70% に達したときに CPU 使用率モジュールが警告状態(黄色)になり、90% に達したときに障害状態(赤)になるようにするには、次のようにしきい値を設定する必要があります。
そのコンピュータからデータを受信し、データが 70% 未満の場合、データは緑色で正常
、70%〜89,99% は黄色で警告
、90% 以上は赤、障害
となります。 しきい値の動作により、このような場合、上限を設定する必要はありません。これは、下限しきい値のみが設定されている場合、上限しきい値は “制限なし” と見なされ、下限を超える値はすべてしきい値内と見なされるためです。 さらに、しきい値が重複している場合、 障害
しきい値が警告
しきい値よりも優先されます。
文字列しきい値 - ケーススタディ 2
モジュールが次のような 文字列 としてデータを返すとします。
OK
.ERROR connection fail
.BUSY too many devices
.
以下に示すように 警告状態(Warning Status) および 障害状態(Critical Status) フィールドの 文字列(Str.) に正規表現で設定することにより、アラートのしきい値を設定できます。
正規表現には注意してください。大文字と小文字が区別されます。
この設定により、モジュールは、データに BUSY という文字列が含まれている場合は警告
状態、データに ERROR という文字列が含まれている場合は障害
状態となります。
動的監視 (自動しきい値設定)
動的監視は、インテリジェントかつ予測的な方法でモジュールの状態しきい値を自動的かつ動的に調整します。この処理では、しきい値の設定を指定の期間で収集した値から平均および標準偏差を計算することによって行います。
設定可能なパラメータ
- 動的しきい値の間隔(Dynamic Threshold Interval): しきい値を計算するための時間間隔です。1ヵ月を選択すると、システムは過去 1ヵ月間のデータを使ってしきい値を設定します。
- 最大動的しきい値(Dynamic Threshold Max.): パーセンテージの設定で上限を増加させることができます。例えば、平均値が 60前後で障害状態のしきい値が 80のときに、最大動的しきい値を 10 に設定すると、障害状態のしきい値を 10% あげることができます。結果、障害状態しきい値は 88 となります。
- 2つの動的しきい値を使う(Dynamic Threshold Two Tailed): 有効化すると、動的しきい値システムは、平均より 下 のしきい値も設定します。無効化(デフォルト)している場合は、平均値の 上 のみのしきい値を設定します。
- 最小動的しきい値(Dynamic Threshold Min.): 2つの動的しきい値を使うが有効の場合のみ設定可能です。パーセンテージの設定で下限を下げることができます。例えば、平均値が 60前後で障害状態のしきい値が 40のときに、最小動的しきい値を 10 に設定すると、障害状態のしきい値を 10% 下げることができます。結果、障害状態しきい値は 36 となります。
ケーススタディ 1
次の例では、計算された平均値は赤い線の高さ(約30)にあります。
動的しきい値を有効化すると、上限しきい値はこのように設定されます(約45以上)。
パラメータ 2つの動的しきい値を使う(Dynamic Threshold Two Tailed) が有効化されたため、平均値を下回る障害しきい値も設定されています(約15以下)。
それに応じて、パラメータ 最小動的しきい値(Dynamic Threshold Min.) および 最大動的しきい値(Dynamic Threshold Max.) が 20 および 30 に設定されたため、しきい値が拡大され、わずかに許容度が高くなりました。
ケーススタディ 2
Web の応答時間モジュールを例にとります。しきい値の計算期間は 1週間です。
設定を保存し、pandora_db が実行後されると、しきい値は次のように設定されます。
このとき、モジュールは、応答時間が 0.33秒より大きい場合には「警告」ステータスに、0.37秒より大きい場合には「障害」に切り替わります。 グラフは次のようになります。
ここでは、しきい値はやや高いと考えられるため、パラメータ 最小動的しきい値 を使用して最小のしきい値を下げることにしました。 この場合、ある値を超えるものはすべて対象となり、しきい値は最大値を持たないため、 最大動的しきい値 は使用しません。変更は次のようになります。
変更を行ったあと pandora_db が実行されると、しきい値の設定は次のようになります。
グラフは次のようになります。
ケーススタディ 3
この例では、制御室または CPD の温度を監視しています。グラフは、わずかなばらつきのある値を示しています。
このような状況では、温度は安定した状態で、極端に高い値や極端に低い値になることはあまりありません。そのため、パラメータ 2つの動的しきい値を使う を設定して、上下両方のしきい値を調整します。 設定は次のとおりです。
自動的に生成されたしきい値は次の通りです。
グラフは以下のようになります。
この場合、23.10 と 26 の間の値は常に正常とみなされます。これが制御室で許容される温度です。必要に応じて “最小動的しきい値” および “最大動的しきい値” でしきい値を調整することができます。
追加設定パラメータ
pandora_server.conf に以下を設定可能です。
- dynamic_updates: このパラメーターは、動的しきい値間隔 で設定された期間中にしきい値が再計算される回数を決定します。デフォルト値は 5です。動的しきい値間隔 が 1週間で設定されている場合、デフォルトで過去 1週間のデータを集計して、計算は 1回だけ実行されます。1週間が経過した後に処理が再度繰り返されます。 dynamic_updates パラメータを変更することで、頻度を減らすことができます。例えば、値が 3の場合、しきい値は 1週間に 3回(または 動的しきい値間隔 で設定された期間)計算されます。
- dynamic_warning:
警告
と障害
のしきい値を区別するパーセンテージです。デフォルト値は 25です。 - dynamic_constant: これは、しきい値の設定に使用される平均の標準偏差を定義します。デフォルトでは 10です。値が高いほど、平均値から離れたしきい値が設定されます。
基本オプション
Always keep in mind that this interface is used by both local monitoring and remote monitoring and presents parameters that are valid in one or the other domain. For example, the Timeout and Retries parameters are not useful in local monitoring (local checks) but are important in remote monitoring.
このインターフェースはローカルモニタリングとリモートモニタリングの両方によって使用され、いずれか一方でのみ有効なパラメーターがあることを常に念頭に置いてください。たとえば、タイムアウト(Timeout) および リトライ(Retries) パラメータは、ローカル監視(ローカルチェック)では役立ちませんが、リモート監視では重要です。
- Using module component: When using a module component, it will be automatically populated with parameter values needed to perform monitoring, this token appears in all module types except for prediction modules.
- Name: Module name.
- Disable: It allows you to disable the module.
- Module group: It allows you to assign the module to a defined module group.
- Type: Module type depending on the type of data returned. By selecting Using module component the data type will be chosen automatically.
- Warning threshold and Critical threshold: Thresholds that when reached by the returned value change the status of the module to warning status or critical status. You may use the Inverse interval option to define that the warning/critical status is any value outside this range.
- Change to critical status after X intervals in warning status: From PFMS version 766 onwards there is the possibility to promote the change to critical status of a module if it has been in warning status N times in a row (continuous monitoring intervals) in warning status. The main difference with FF threshold is that such functionality delays the status change while Change to critical status after favors it. Always keep in mind that both options work in conjunction with each other.
- Historical data: Check this option if you need to save the values in the history database for the long term.
- Target IP y Port: IP address and port number to query for monitoring values. In some cases, as for example with WMI monitoring, additional text fields will appear to establish connection credentials and even query strings.
- モジュールコンポーネントの利用(Using module component): Pandora FMS には、使用可能なデフォルトモジュールのレパートリーがあります。 選択したモジュールに応じて、監視を実行するために必要なパラメータが自動的に入力されます。 この設定は予測モジュールを除くすべてのタイプのモジュールにあります。
- 名前(Name): モジュール名。
- 無効化(Disable): モジュールを無効化できます。
- モジュールグループ(Module group): 定義済のモジュールグループにモジュールを割り当てることができます。
- タイプ(Type): 返されるデータのタイプに応じたモジュールのタイプです。モジュールコンポーネントの利用Using module component) を選択すると、データタイプは自動的に選択されます。
- 警告閾値(Warning threshold) および 障害閾値(Critical threshold): モジュールの状態が警告状態または障害状態に変更される値のしきい値。条件の反転(Inverse interval) を使うと、範囲外の場合に警告/障害状態になるように定義できます。
- 警告状態 X 回後に障害状態に変更(Change to critical status after X intervals in warning status): Pandora FMS バージョン 766 以降では、モジュールが連続して N 回警告状態が続いた場合(継続的な監視間隔)に、モジュールを障害状態へ変更することができます。連続抑制回数 との主な違いは、それがステータスの変更を遅らせるのに対し、障害状態への変更 を優先することです。 両方のオプションが相互に連携して機能することを常に念頭に置いてください。
- データの保存(Historical data): データを保存する場合にチェックします。
- 対象IP(Target IP) および ポート(Port): 監視対象の IP アドレスとポート番号。場合によっては、たとえば WMI 監視の場合のように、接続認証情報やクエリ文字列を設定するために追加のテキストフィールドが表示されます。
高度なオプション
You should always bear in mind that this interface is used by both local monitoring as well as by remote monitoring and valid parameters are presented in one field or another. For example, the parameters Timeout and Retries (Retries) are useless in local monitoring (local checks) but are important in remote monitoring.
このインターフェースはローカルモニタリングとリモートモニタリングの両方によって使用され、いずれかの範囲で有効なパラメーターを設定することを常に念頭に置いてください。 たとえば、タイムアウト(Timeout) および リトライ(Retries) パラメーターは、ローカル監視(ローカルチェック)では役立ちませんが、リモート監視では重要です。
- Custom ID: Field to store a custom identification value.
- Interval: Period in which the module should return data. If a module does not receive data during more than two intervals, it will go into in unknown state.
- If they are remote modules: period in which the remote check is carried out.
- If they are data modules: numerical value that represents X times the interval of the defined agent, performing the local check in that period.
- In the case of Broker Agents via Web Console, from version 776 onwards, their interval is not displayed to prevent unwanted changes.
- Post process: It allows to specify carrying out a post-processing, a module-received data conversion. Disabled by default (0). Available modules:
- Seconds to months.
- Seconds to weeks.
- Seconds to days.
- Seconds to minutes.
- Bytes to Gigabytes.
- Bytes to Megabytes.
- Bytes to Kilobytes.
- Timeticks to weeks.
- Timeticks to days.
- Min. Value and Max. Value: It allows to set a minimum and a maximum expected value for the module.
- Dynamic Threshold Interval: Fields reserved for dynamic monitoring (dynamic thresholds).
- Export target: If you have configured an export server, you may set one up.
- Discard unknown events: It allows to discard unknown events.
- FF threshold: It allows setting thresholds for FlipFlop protection. FlipFlop (FF) is known as a common phenomenon in monitoring: when a value fluctuates frequently between alternative values (RIGHT/WRONG). When this takes place, a “threshold” is usually used, so that in order to consider something as having changed status, it has to “stay” more than N intervals in a state without changing. FF threshold is used to 'filter' the continuous status changes in the creation of events/statuses: that way Pandora FMS knows that, until an element has adopted the same status at least N times in the same status after having changed from an original status, it will not be considered as changed.
- FF Interval: Allows to specify a shorter time interval for the next check if a Flip Flop threshold is activated in the module. When FF is enabled and a change of state is detected that meets the set check conditions, the module interval for the next run will be adjusted. This setting facilitates faster checks when specific conditions are needed by setting a value smaller than the main module interval.
- FlipFlop timeout: Parameter that can only be used in asynchronous modules. For a state change by flip-flop to be effective, equal consecutive data must be received within the specified interval.
- Tags available and Tags from policy: These are features of the Enterprise version. They are detailed in the following section "Tags".
- Quiet: Parameter by which the module will continue to receive information, but no type of event or alert will be generated.
- Cascade Protection Services: Parameter by which event and alert generation would become part of the service it belongs to if this feature is enabled.
- カスタム ID(Custom ID): カスタム ID を指定するフィールドです。
- Interval: Period in which the module should return data. If a module does not receive data during more than two intervals, it will go into in unknown state.
- 間隔(Interval): モジュールがデータを返す間隔を定義するパラメータです。モジュールがデータを受信しない状態が 2周期以上続くと、不明状態になります。
- リモートモジュールの場合、これはリモートチェックが実行される期間です。
- データモジュールの場合、それは定義されたエージェント間隔の N倍を表し、その期間にローカルチェックを実行する数値です。
- Web コンソール経由のブローカーエージェントの場合、バージョン 776 以降、不要な変更を防ぐために間隔は表示されません。
- 保存倍率(Post process): モジュールの受信データの保存時の倍率です。デフォルトは 0 で無効状態です。次の変換を実行できます。
- Seconds to months.
- Seconds to weeks.
- Seconds to days.
- Seconds to minutes.
- Bytes to Gigabytes.
- Bytes to Megabytes.
- Bytes to Kilobytes.
- Timeticks to weeks.
- Timeticks to days.
- 最小値(Min. Value) および 最大値(Max. Value): モジュールがとりうる最小および最大値を設定できます。
- 動的しきい値間隔(Dynamic Threshold Interval): 動的監視(動的しきい値)のための予約フィールドです。
- エクスポートターゲット(Export target): エクスポートサーバを設定した場合に設定することができます。
- 不明イベントの破棄(Discard unknown events): 不明イベントを破棄できます。
- 連続抑制しきい値(FF threshold): 連続障害検知抑制のしきい値を設定できます。監視における一般的な現象として状態が正常・異常の間で頻繁に変化する現象があります。これが発生するような場合は、N間隔を超えて状態が変化したままの状態になっていることで本来の状態を判断する必要があります。 連続抑制しきい値は、頻繁にイベント生成や状態が変わることを 'フィルタリング' するために使用されます。これにより、Pandora FMS は、状態が変わった後、同じ状態が少なくとも N回継続した場合に初めて状態が変化したと認識します。N回未満の場合は変更されたとは見なされません。
- 連続抑制時の間隔(FF interval): モジュールで連続抑制しきい値が有効になっている場合に、次のチェックのより短い時間間隔を指定できます。 連続抑制が有効で、設定されたチェック条件を満たす状態変化が検出された場合、次回実行のモジュール間隔が調整されます。 この設定では、メイン モジュールの間隔よりも小さい値を設定することで、特定の条件が必要な場合のチェックを迅速に行うことができます。
- 連続抑制タイムアウト(FlipFlop timeout): 非同期モジュールでのみ使用できるパラメータです。連続抑制による状態変化を有効にするためには、指定された間隔内に連続してデータを受信しなければなりません。
連続抑制回数 (FF Threshold: FF は FlipFlop を意味します) パラメータは、イベントや状態の連続的な変化をフィルタするために利用します。オリジナルの状態から変化した状態が連続して X 回を超えて続かないと、変化が発生したと Pandora FMS が認識しないようにすることができます。以下に例を見てみましょう。あるホストへの ping でパケットロスがあります。このような場合、次のような結果になります。
1 1 0 1 1 0 1 1 1
しかし、ホストは稼働しています。連続抑制回数を 2に設定し、少なくとも 3回連続でダウン状態にならないと、Pandora にダウンと認識し通知して欲しくないとすると、上記の例はダウンと見なさないパターンに該当します。逆に以下のような場合にダウンと認識します。
1 1 0 1 0 0 0
最後の状態になったときに、ダウンと認識し、それ以前はダウンではありません。
連続抑制回数は、このような不安定な変動を避けるために便利です。すべてのモジュールにおいて実装されており、状態の変化を避けるのに利用します (*proc モジュールの場合は、設定された制限もしくは自動制限により制限されます)。
バージョン 5.1 からは、連続抑制回数には 2つのモードがあります。
- 全状態変化(All state changing): 正常、警告、障害すべての状態変化に対して、同じ値を利用します。
- 個別状態変化(Each state changing): 正常、警告、障害への状態変化ごとに異なる値を設定できます。
非同期モジュールでは、タイムアウト(連続抑制タイムアウト)も設定できます。短時間に複数回、警告や障害のデータを受信した場合にのみ障害通知をしたい場合に便利です。 データを受信する間隔がタイムアウト値を超えた場合は、連続抑制回数のカウンタがリセットされます。
たとえば、エージェントから 5分以内に 2回障害データが送られた場合にのみ通知をしたい場合(5分を超える間隔でデータが送られてきても障害通知したくない場合)は、連続抑制回数に 1、連続抑制タイムアウトに 300 を設定します。
- カウンタ維持
これは、連続抑制の高度なオプションで、モジュールの状態を制御します。“カウンタ維持” によって、値ではなく、受け取った値を持つモジュールの状態に応じて、あるステータスから別のステータスに移行するためのいくつかのカウンタ値が設定されます。
どのように動作するか例を以下に示します。
次のようなモジュールがあると仮定します。
間隔: 5分 しきい値: 障害: 90 - 100; 警告: 80 - 90; 連続抑制: 正常: 0; 警告: 3; 障害: 2; 現在の状態: **正常**;
そして、以下のようなデータ/状態を受け取ります。
データ | 状態 |
---|---|
81 | 警告 |
83 | 警告 |
95 | 障害 |
89 | 警告 |
98 | 障害 |
81 | 警告 |
86 | 警告 |
例からわかるように、データから状態は警告と障害になりますが、連続抑制の定義にマッチしないため現在の状態は正常です。
カウンタ維持パラメータを設定することにより、カウンタは維持され、結果、状態の変化は以下のようになります。
データ | データの状態 | モジュールの状態 |
---|---|---|
81 | 警告 | 正常 |
83 | 警告 | 正常 |
95 | 障害 | 正常 |
89 | 警告 | 警告 |
98 | 障害 | 警告 |
81 | 警告 | 警告 |
86 | 警告 | 警告 |
別の例を見てみます。
次のようなモジュールがあると仮定します。
間隔: 5分 しきい値: 障害: 90 - 100; 警告: 80 - 90; 連続抑制: 正常: 2; 警告: 3; 障害: 2; 現在の状態: **正常**;
状態カウンタは、正常状態と障害状態が連続して到着した場合にのみ累積します。一方で、警告状態は連続して到着しなくてもカウンタを累積することがあります。
状態カウンタは、以下のような場合にリセットされます。 - 値の状態が現在の状態と一致する値が到着した場合 - “カウンタ維持” の状態にマッチし、状態が変更された場合
正常カウンタと障害カウンタには特別な動作があり、連続していない場合はこれらのカウンタのみがリセットされます。
この場合、次のようなデータを受け取ります。
データ | データの状態 | 障害カウンタ | 警告カウンタ | 正常カウンタ | モジュールの状態 |
---|---|---|---|---|---|
81 | 警告 | 0 | 1 | 0 | 正常 |
83 | 警告 | 0 | 2 | 0 | 正常 |
95 | 障害 | 1 | 2 | 0 | 正常 |
89 | 警告 | 0 | 0 | 0 | 警告 |
警告カウンタが 3 になったとき、状態が警告に変更されカウンタはリセットされます。 | |||||
50 | 正常 | 0 | 0 | 1 | 警告 |
98 | 障害 | 1 | 0 | 0 | 警告 |
正常カウンタと障害カウンタが増え続けるには、連続している必要があります。障害状態の値を受信したとき、正常カウンタは 0 になります。 | |||||
91 | 障害 | 0 | 0 | 0 | 障害 |
障害カウンタが 2 に達すると、状態は障害に変更されカウンタはリセットされます。 | |||||
30 | 正常 | 0 | 0 | 1/td> | 障害 |
31 | 正常 | 0 | 0 | 0/td> | 正常 |
正常カウンタが 2 に達すると、状態は正常に変更されカウンタはリセットされます。 | |||||
81 | 警告 | 0 | 1 | 0/td> | 正常 |
83 | 警告 | 0 | 2 | 0/td> | 正常 |
12 | 正常 | 0 | 0 | 0/td> | 正常 |
受け取ったデータが正常状態で、かつ現在の状態と同じであれば、カウンタはリセットされます。 |
- タグの存在(Tags available) および ポリシーからのタグ(Tags from policy): これらは Enterprise 版の機能です。詳細に関しては、 "タグ" の章 を確認してください。
- 静観(Quiet): モジュールが情報を受信し続けますが、イベントや警告は生成されません。
- サービス関連障害検知抑制(Cascade Protection Services): これが有効になっている場合、イベントおよびアラートの生成はそれが属するサービスによります。
- Critical instructions, Warning instructions and Unknown instructions: It contains the instructions to follow if the module status becomes critical, warning or unknown. Useful in the use of Templates and components.
- Cron: You may specify time periods when the module will be executed. It follows the nomenclature: Minute, Hore, Month Day, Month, Week Day. There are three different possibilities:
- Cron from: It has Any set in all its fields, with no time restriction for monitoring.
- Cron from: specific. Cron to: any: To be executed only when it matches the specified number. E.g.:
15 20 * * *
, it will be run every day at 20:15 - Cron from: specific. Cron to: specific: It will be run during the established interval. E.g.:
5 * * * *
and10 * * * *
, will run every hour from 5 to 10 minutes. - Timeout: Time that the agent waits for the execution of the module, expressed in seconds.
- Retries: It sets the number of retries for the module execution.
- Category: This categorization has no effect from the normal user interface. It is intended to be used in conjunction with the Metaconsole.
- Module parent: Used to establish protection hierarchy in Cascade Protection Services.
- Custom macros: Any number of custom module macros may be defined. The recommended format for macro names is:
- 障害時手順(Critical instructions), 警告時手順(Warning instructions) および 不明状態時手順(Unknown instructions): モジュールの状態が、障害、警告、または不明になった際の手順です。テンプレートとコンポーネント の利用で便利です。
- Cron: 分、時間、日、月、曜日でモジュールの実行を指定することができます。3つの設定があります。
- Cron 開始: すべてのフィールドが 任意(any) の場合は実行制限はありません。
- Cron 開始: 特定、Cron 終了: 任意(any) : 特定のタイミングにマッチした場合に実行します。例: 15 20 * * * は、毎日 20:15 に実行します。
- Cron 開始: 特定、Cron 終了: 特定: 特定の期間で実行します。例:
5 * * * *
および10 * * * *
の場合は、毎時 5 から 10分に実行します。
- タイムアウト(Timeout): エージェントがモジュールの実行を待つ時間(秒単位)。
- リトライ(Retries): モジュール実行の再試行回数を設定します。
- カテゴリ(Category): これは通常のユーザーインターフェイスの設定では何の影響もありません。 メタコンソールと組み合わせて使用することを目的としています。
- モジュールの親(Module parent): 関連障害検知抑制での階層を設定するために使用します。
- カスタムマクロ(Custom macros): 任意の数のカスタムモジュールマクロが定義できます。マクロのフォーマットは次の通りです。
_macroname_
例:
_technology_ _modulepriority_ _contactperson_
これらのマクロは、モジュールのアラートで利用でき、特に ユーザエクスペリエンス監視 で便利です。 モジュールが Web 分析モジュールタイプの場合:
動的マクロは @ で始まる特別なフォーマットを持ち、これらは置換されます。
@DATE_FORMAT (ユーザが指定したフォーマットでの現在日時) @DATE_FORMAT_nh (時間) @DATE_FORMAT_nm (分) @DATE_FORMAT_nd (日) @DATE_FORMAT_ns (秒) @DATE_FORMAT_nM (月) @DATE_FORMAT_nY (年)
ここで、“n” は符号やマイナスを含まない数値です。フォーマットは perl strftime に従います。
モジュールタグ
Management menu → Profiles → Module tags.
管理(Management) メニュー → プロファイル(Profiles) → モジュールタグ(Module tags)。
Tags are tags associated with each module that will then be propagated to the events that this module generates and can be used in event alerts from this module. They allow to be used as filters in reports, event views and even have specific views for them and can be used in alerts, since they are available as macro.
タグは、各モジュールに関連付けられたタグで、このモジュールが生成するイベントに伝播され、このモジュールからのイベントアラートで使用できます。 これらはレポートやイベント表示でフィルターとして使用でき、マクロ として利用できるため、特定のビューを持つこともでき、アラートで使用することもできます。
They can also be used to grant specific access permissions to a module, so that a user can access only one module of the agent, without having access to the rest of modules.
また、モジュールに特定のアクセス許可を付与するために使用することもできます。これにより、ユーザはエージェントの一つのモジュールのみにエージェントの一つのモジュールのみにアクセスでき、残りのモジュールにはアクセスできないようにすることができます。
モジュール管理
Go to menu Management → Resources → Manage agents and click on the Modules of each agent.
メニュー 管理(Management) → リソース(Resources) → エージェントの管理(Manage agents) に移動し、各エージェントの モジュール(Modules) をクリックします。
This option allows you to display general information quickly and precisely by hovering the mouse pointer over each of the column icons.
このオプションを使用すると、各列アイコンの上にマウスカーソルを置くことで、一般的な情報をすばやく正確に表示できます。
You may also run actions such as editing the module by clicking on its name. The actions column (Actions) contains, from left to right:
モジュール名をクリックして、モジュールの編集などのアクションを実行することもできます。アクション列 (アクション) には、左から右に次の項目が含まれます。
- Enable or disable module.
- Duplicate a module (the following prefix will be added copy of…)
- Normalize values: This will delete the extreme values above and below most of the values, this action is irreversible and confirmation will be performed before deleting these extreme values.
- Delete a module.
- モジュールの有効化・無効化
- モジュールの複製 (次のプレフィックスが追加されます: copy of…)
- 値の正規化: これにより、ほとんどの値の上と下の極端な値が削除されます。このアクションは元に戻すことができず、これらの極端な値を削除する前に確認が行われます。
- モジュールの削除
In addition, each item contains a checkbox to perform mass operations (enable, disable, delete) on the selected modules.
さらに、各項目には、選択したモジュールに対して一括操作 (有効化、無効化、削除) を実行するためのチェックボックスがあります。
動的監視 (動的しきい値)
Dynamic monitoring consists of the dynamic and automatic adjustment of module state thresholds in a predictive manner. The operation mode consists in collecting the values for a given period and calculating the average and a standard deviation, which are used to set the corresponding thresholds at the module level. Parameters are located in the advanced options of the modules:
動的監視は、予測的な方法でのモジュール状態しきい値の動的かつ自動調整を行います。 動作は、指定された期間の値を収集し、モジュールレベルで対応するしきい値を設定するために使用される平均と標準偏差を計算することで行われます。 パラメータはモジュールの詳細オプションにあります。
- Dynamic Threshold Interval: Dynamic threshold interval or amount of time that will be considered to perform threshold calculation. If a month is chosen, the system will take all the existing daa for the last month and will build the thresholds based on that data and thresholds will be established with values above the average.
- Dynamic Threshold Max.: Maximum value of the critical dynamic threshold, if a tolerance margin is set (in percentage) for it; For instance, if the average values are around 60 and the critical threshold has been set from value 80, if the value Dynamic Threshold Max: 10 is set, this critical threshold will increase by 10%, so it would remain at a value of 88.
- Dynamic Threshold Min.:It allows you to reduce the lower limit by the percentage indicated. For example, if the average values are around 60 and the lower critical threshold has been set to a value of 40, if the value Dynamic Threshold Min: 10 is set, this critical threshold will be reduced by 10%, so it would take a value of 36.
- Dynamic Threshold Two Tailed: These are dynamic threshold intervals, which are disabled by default. If this option is activated, the dynamic threshold system will also set thresholds below the average.
- 動的しきい値間隔(Dynamic Threshold Interval): しきい値の計算を実行するために考慮される動的なしきい値の間隔または時間。 月が選択された場合、システムは先月の既存のすべてのデータを取得し、そのデータに基づいてしきい値を構築し、平均を上回る値でしきい値が確立されます。
- 最大動的しきい値(Dynamic Threshold Max.): 障害状態動的しきい値の最大値(許容範囲が(パーセンテージで)設定されている場合)。 たとえば、平均値が約 60 で障害状態しきい値が 80 に設定されている場合に、このパラメータが 10 に設定されていると、この障害状態しきい値は 10% 増加し、値 88 となります。
- 最小動的しきい値(Dynamic Threshold Min.): 指定された割合で下限を減らすことができます。 たとえば、平均値が約 60 で、下限障害状態しきい値が 40 に設定されている場合、このパラメータに 10 が設定されていると、この障害状態しきい値は 10% 減少するため、 値は 36 となります。
- 2つの動的しきい値を使う(Dynamic Threshold Two Tailed): これらは動的なしきい値間隔であり、デフォルトでは無効になっています。 このオプションを有効にすると、動的しきい値システムは平均値を下回るしきい値も設定します。
モジュールライブラリ
Accessing the module library from the menu will require Agent Read (AR) permissions.
メニューからモジュールライブラリへアクセスするには、エージェント参照 (AR) 権限が必要です。
Access Management → Module library → View to access the main view. You can also group by categories (databases, virtualization, etc.) or search for the plugin by its name in the Search text box.
管理(Management) → モジュールライブラリ(Module library) → 表示(View) にアクセスして、メイン画面にアクセスします。 カテゴリ (データベース、仮想化など) でグループ化したり、検索(Search) テキスト ボックスで名前でプラグインを検索したりすることもできます。
The download links will only be visible in these cases:
ダウンロード リンクは次の場合にのみ表示されます。
- The username and password that has been configured in the setup must match the one of Pandora ITSM support.
- The Pandora FMS user has AW permission.
- セットアップで設定されている ユーザとパスワード が Pandora ITSM サポートのものとマッチしている。
- Pandora FMS ユーザが AW 権限を持っている。