A Service in Pandora FMS is a grouping of Information Technology resources (Information Technology, abbreviated IT) based on their functionalities.
Pandora FMS における サービス は、その機能に基づいてITリソースをグループ化する方法です。
PFMS Services are logical groupings that include hosts, routers, switches, firewalls, websites and even other Services. For example, the company's official website, Customer Relationship Management (CRM), a support application, or even all the printers in a company or home.
Pandora FMS サービスは、ホスト、ルーター、スイッチ、ファイアウォール、Web サイト、さらには他のサービス を含む論理グループです。 たとえば、会社の公式 Web サイト、顧客関係管理 (CRM)、サポートアプリケーション、さらには会社や家庭にあるすべてのプリンターなどです。
The basic monitoring in Pandora FMS consists of collecting metrics from different sources, representing them as monitors (called Modules). Monitoring based on Services allows the previous elements to be grouped in such a way that, by establishing certain margins based on the accumulation of failures, groups of elements of different types and their relationship in a larger and general service can be monitored.
Pandora FMS における基本的な監視は、異なる対象からの情報を収集することから成っています。それらを監視項目(モジュール)と呼びます。 サービスの監視により、これらのモジュールをグループ化することができます。その結果、障害の蓄積に基づいて一定のマージンを持ちながら、大規模かつ一般的なサービスにおけるさまざまな種類の要素のグループとそれらの関係を監視できます。
Service monitoring is represented under three concepts: simply, by their importance weights and chained by cascading events.
サービス監視には、シンプル、重要度 、カスケードイベントの連鎖という 3つの概念があります。
In this mode it is only necessary to indicate which elements are critical. Access Operation → Topology maps → Services → Service tree view → Create service.
このモードでは、どの要素が重要で、どの要素が重要でないかを指定するだけで済みます。操作(Operation) → トポロジーマップ(Topology maps) → サービス(Services) → サービスツリー表示(Service tree view) → サービスの作成(Create service) にアクセスします。
Only elements marked as critical will be taken into account for calculations and only the critical
status of said elements will have value.
重要としてチェックされた要素のみが計算に考慮され、その要素の 障害
状態のみが値を持ちます。
critical
state, the service will enter the warning
warning state.critical
state, the service will enter the critical
state.障害
状態の場合、サービスは、警告
状態になります。障害
状態の要素が 50% を超えると、サービスは、障害
状態になります。A Service Tree must be defined in which both the elements that affect the application or applications and the degree to which they affect are indicated.
サービスツリー は、アプリケーションに影響を与える要素とその影響の度合いの両方を示すように定義する必要があります。
All elements added to the service trees will correspond to information that is already being monitored, whether in the form of modules, specific agents or other services.
サービスツリーに追加されるすべての要素は、モジュール、特定のエージェント、またはその他のサービスの形式を問わず、すでに監視されている情報に対応します。
To indicate the degree to which the states of each element affect the global state, a system of sum of weights will be used, so that the most important (with more weight) will be more relevant to adjust the global state of the service complete to an incorrect state before the less important elements (with less weight).
各要素の状態が全体的な状態に影響を与える度合いを示すために、重みを合計 する仕組が使用されます。これにより、最も重要なもの (より重みが大きい) が、重要性の低い要素 (重みが小さい) よりも、サービス全体の状態に影響します。
冗長要素によってバランスをとっている Web アプリケーションを監視したいとします。 アプリケーションの基盤となるインフラストラクチャは、次の要素で構成されます。
私たちの目標は、Webアプリケーションが正しく機能しているかどうかを知ることです。つまり、顧客による最終的な評価は、アプリケーションが機能することです。
冗長化されている 20台の Apache サーバの 1つが障害の場合、すべての従業員に警告通知することは賢明でしょうか? アラートのルールは何でしょうか?
Pandora FMS は、重要な要素における問題(例えばルータ)や複数の Apache サーバが同時に障害の場合のみ警告を発するべきだと考えることができます。ただ、何台の場合でしょうか? これを解決するために、前述のコンポーネントにウエイトの値を割り当てる必要があります。
例を見てみましょう:
要素のタイプ | ウエイトの割り当て | |||
---|---|---|---|---|
正常 | 警告 | 障害 | 不明 | |
ルータ | 0 | 3 | 5 | 5 |
スイッチ | 0 | 3 | 5 | 5 |
Web サーバ | 0 | 0 | 1.2 | 1.2 |
Weblogic サーバ | 0 | 0 | 2 | 2 |
MySQL サーバ | 0 | 3 | 5 | 5 |
サービスの警告しきい値を 4、障害しきい値を 6に設定します。このようにして、すべてが正しく設定できていれば、監視対象の要素すべてが正常であるか、またはサービス提供の不備を引き起こすほど重要でない場合、サービスは正常になります。
サービス設定 | ||
---|---|---|
正常 | 警告 | 障害 |
0 | >=4 | >=6 |
1台の apache サーバダウンが発生した場合は次のようになります。
ウエイトの計算は次のようになります。
2 x 0 (ルータ正常) 2 x 0 (スイッチ正常) 19 x 0 (apache 正常) 1 x 1.2 (apache 障害) 4 x 0 (weblogic 正常) 1 x 0 (mysql 正常) 合計: 1.2 --> サービスは正常
Web サーバと Weblogic がダウンした場合どうなるかを見てみましょう。
合計は 3.2 となり、まだ < 4 です。そのため、サービスの状態はまだ正常です。オペレータが起きる必要はありません。
ウエイトの計算は次のようになります。
2 x 0 (ルータ 正常) 2 x 0 (スイッチ 正常) 19 x 0 (apache 正常) 1 x 1.2 (apache 障害) 3 x 0 (weblogic 正常) 1 x 2 (weblogic 障害) 1 x 0 (mysql 正常) 合計: 3.2 --> サービスは正常
2台のウェブサーバと、1台の Weblogic サーバがダウンした場合を見てみましょう。
合計が 4.4 > 4 となり、サービスが警告状態になります。サービスはまだ動き続け緊急の技術的な対応は必要ありませんが、インフラに問題が発生していることは明らかです。
2 x 0 (ルータ 正常) 2 x 0 (スイッチ 正常) 18 x 0 (apache 正常) 2 x 1.2 (apache 障害) 3 x 0 (weblogic 正常) 1 x 2 (weblogic 障害) 1 x 0 (mysql 正常) 合計: 4.4 --> サービスは警告状態
上記の状態に加え、1台のルータがダウンした場合を想定してみましょう。
合計ポイントは 9.4 となり、障害状態の閾値である 6 を越えています。サービスは障害状態となり、動作していません。 すぐに技術的な対処が必要です。
1 x 0 (ルータ 正常) 1 x 5 (ルータ 障害) 2 x 0 (スイッチ 正常) 18 x 0 (apache 正常) 2 x 1.2 (apache 障害) 3 x 0 (weblogic 正常) 1 x 2 (weblogic 障害) 1 x 0 (mysql 正常) 合計: 9.4 --> サービスは障害状態
Pandora FMS は、対応チーム(オペレータ、技術者など)にアラートをあげます。
リンタのみ障害 状態ですが、障害要素ではないのでサービスの状態計算には含まれません。
A root Service is one that is not part of another Service. This provides more efficient distributed logic and allows applying a service-based cascade protection system.
ルートサービスは、別のサービスの一部ではないサービスです。 これにより、より効率的な分散ロジックが提供され、サービスに基づく関連障害検知抑制 システムを利用できます。
The Services in Metaconsole allow adding other Services, Modules and/or Agents as elements of a Service.
メタコンソールのサービスでは、他のサービス、モジュール、エージェントをサービスの要素として追加できます。
The Prediction server follows a calculation chain in a hierarchical manner, from top to bottom, to obtain the state of each and every component of the root service. For services with up to a thousand elements, it is a satisfactory solution.
全体的かつ単純化された方法の予測サーバは、ルートサービスのすべてのコンポーネントの状態を取得するために、上から下まで階層的な計算チェーンに従います。 数十または数百のコンポーネントから成るサービスとって満足のいくソリューションです。
By checking Asynchronous mode the service will be evaluated independently, at its own interval, even if it is part of another service, being an exception to the default synchronous behavior in which the evaluation is cascaded from the root service . An asynchronous service can be forced to run independently, even if it is part of a higher service (root service)
サービスを非同期としてマークすることにより、そのサービスは別のサービスの一部であっても独自の間隔で個別に評価されます。これは、ルートサービスからたどって評価されるデフォルトの同期処理の例外です。非同期サービスは、親サービス (ルートサービス) の一部であっても、強制的に独立して実行できます。
If a service that is part of another service (subservice) is marked as asynchronous at the time of evaluation of the root service, it will not execute the calculation of the state of the asynchronous service, but will take as valid the last value stored by it from the last time it was executed. This configuration can be of great help in evaluating elements in large services to improve their performance, in addition to allowing execution priority to be given to services that are elements of a root service.
別のサービス(サブサービス)の一部であるサービスがルートサービスの評価時に非同期としてマークされている場合、非同期サービスのステータスの計算は実行されませんが、前回実行したルートサービスで最後に保存された値が有効と見なされます。この設定は、大規模なサービスの要素を評価してパフォーマンスを向上させたり、ルートサービスの要素であるサービスに実行の優先順位を与えたりするのに非常に役立ちます。
The component Prediction server must be enabled in order to use the Services.
サービスを利用するには、予測サーバ が有効化されている必要があります。
It is necessary that the PredictionServer component is running and the Enterprise version of Pandora Server is installed.
予測サーバ が起動しており、Enterprise 版の Pandora FMS サーバがインストールされていることが必要です。
Once you have all the devices monitored, within each Service add all the modules, agents or subservices necessary to monitor the Service. To create a new Service, access Operation → Topology maps → Services → Service tree view → Create service.
すべてのデバイスを監視したら、各サービス内に、サービスの監視に必要なすべてのモジュール、エージェント、またはサブサービスを追加します。 新しいサービスを作成するには、操作(Operation) → トポロジマップ(Topology maps) → サービス(Services) → サービスツリー表示(Service tree view) → サービスの作成(Create service) にアクセスします。
Note that the interval at which all service module calculations will be performed will depend on the interval of the agent configured as a container.
すべてのサービスモジュールの計算が実行される間隔は、コンテナとして設定されたエージェントの間隔によって異なることに注意してください。
Once an empty Service has been created, access the Service editing form and select the Configuration elements tab. The Add element button is clicked and a pop-up window with a form will appear. The form will be slightly different if the service is in smart mode or manual mode. In Type you must select module, agent, service or dynamic.
空のサービスが作成されたら、サービス編集フォームにアクセスし、要素設定(Configuration elements) タブを選択します。 要素の追加(Add element) ボタンをクリックすると、フォームを含むポップアップ ウィンドウが表示されます。 サービスが スマート(smart) モードか 手動(manual) モードかでフォームは若干異なります。 タイプ(Type) では、モジュール、エージェント、サービス、または動的かを選択する必要があります。
If Service is chosen in Type, it must always be taken into account that the services that will appear in the drop-down list are those that are not ancestors of the service, this is necessary to show a correct structure dependency tree between services.
タイプ(Type) で サービス(Service) を選択した場合、ドロップダウンリストに表示されるサービスは、そのサービスの親ではないことを常に考慮する必要があります。 これは、サービス間の正しい依存関係ツリーを表示するために必要です。
To calculate the status of a service, the weight of each of its elements will be added based on its status, and if it exceeds the thresholds established in the service for warning or critical, the status of the service will become warning or critical as appropriate. .
サービスの状態の計算では、その状態に基づいて各要素の重みが追加されます。サービス内で設定された警告または障害のしきい値を超えた場合、サービスの状態は必要に応じて警告または障害になります。
The following fields will only be available for services in manual mode:
以下フィールドは手動モードのサービスにのみ存在します。
critical
warning
unknown
normal
障害(Critical)
警告(Warning)
不明(Unknown)
正常(Normal)
In services in Smart mode, their status is calculated as follows:
スマートモードサービスでは、状態は次のように計算されます。
Dynamic Mode
動的モード
The following fields will only be available for elements of type Dynamic (Services in Smart mode):
次のフィールドは、動的 タイプ (スマート モードのサービス) の要素にのみ存在します。
You must place text in both fields for it to be considered for searching in custom fields.
カスタムフィールドを検索の対象となるようにするには、両方のフィールドにテキストを配置する必要があります。
In the upper right tab, when creating or editing a service, the wizard for adding items appears with the following options:
右上のタブでは、サービスを作成または編集するときに、項目を追加するためのウィザードが次のオプションとともに表示されます。
To add items, the wizard presents a drop-down list in Item type to be added and by default it presents the option to add agents to the service. To do this, you must click on Agents and immediately, right next to it, the available agents will be displayed by name. You can also type in that element (free search) and it will automatically display agent matches by name. If the list of agents is long, you can filter by groups in the drop-down list named Group.
要素を追加する場合、ウィザードの 追加する項目タイプ(Item type to be added) にドロップダウンリストが表示され、デフォルトではサービスにエージェントを追加するオプションが表示されます。 ここで、横の エージェント(Agents) をクリックする必要があります。利用可能なエージェントが名前で表示されます。 その要素を(自由検索で)入力することもでき、名前で一致するエージェントが自動的に表示されます。 エージェントの一覧が長い場合は、グループ(Group) という名前のドロップダウンリスト内のグループでフィルタリングできます。
For modules and services the selection process is similar, except that in the case of modules there is no free search for elements.
モジュールとサービスの場合も選択処理は同様ですが、モジュールの場合は要素を自由に検索できない点が異なります。
In the case of services you must always first filter by group so that the available services appear. Select the All group to see all services.
サービスの場合は、利用可能なサービスが表示されるように 必ず最初にグループでフィルタリングする必要があります。 すべてのサービスを表示するには、全て(All) グループを選択します。
In all cases you must choose one or more elements and then press the Add selected button. Below, in Service items summary there will be a summary with the agents, modules and services added to the service.
いずれの場合も、1 つ以上の要素を選択して、選択した要素を追加(Add selected) ボタンを押す必要があります。 以下の サービス項目の概要(Service items summary) には、サービスに追加されたエージェント、モジュール、サービスの概要が表示されます。
Once you have selected the desired elements in Service items summary, click Add elements to add and save the new components to the service being edited.
サービス項目の概要(Service items summary)で必要な要素を選択したら、要素の追加(Add elements) をクリックして、編集中のサービスに新しいコンポーネントを追加して保存します。
async_data
).async_proc
).async_data
).async_data
)async_proc
)async_data
)It is the operation list that shows all the services created and to which the user has access rights in the Pandora FMS Console. Click Operation → Topology map → Service tree view and inside this List of services.
作成した全サービスを表示する一覧です。Pandora FMS コンソールを使用しているユーザがアクセスできるグループのみを表示します。この画面へ行くには、操作(Operationi) → トポロジマップ(Topology map) → サービスツリー表示(Service tree view) クリックし、サービス一覧(List of services) に行きます。
To add elements, there is a dialog box that allows you to select agents, modules or other services and clicking on each of them at the bottom will show the elements available to select and be added with Add selected. Once you have finished adding elements click the Add elements button to save the changes. For editing and deletion it works similarly.
要素を追加するには、エージェント、モジュール、またはその他のサービスを選択できるダイアログボックスがあり、下部にあるそれぞれのサービスをクリックし、選択可能な要素が表示されたら、選択項目を追加(Add selected) を行います。 要素の追加が完了したら、要素の追加(Add elements) ボタンをクリックして変更を保存します。 編集と削除の場合も同様です。
This view allows the visualization of services in tree form. It is accessed through the menu Operation → Topology maps → Services → Service tree view.
この表示は、ツリー形式でサービスを表示します。操作(Operation) → トポロジマップ(Topology maps) → サービス(Services) → サービスツリー表示(Service tree view) からアクセスできます。
The ACL permission restriction only applies to the first level.
ACL によるアクセス制御は、一番上のレベルにのみ適用されます。
Planned stops recalculate the value of SLA reports taking into account allowing recalculation “back in time” with planned stops added later (this is an option that must be activated globally in the General setup). When it comes to a service SLA report, if there is a planned stoppage that affects one or more elements of the service, the planned stoppage is considered to affect the entire service, as it is not possible to define the impact that the stoppage has on the service. overall service.
計画停止をあとから追加することにより、SLA レポートの値を再計算することができます (これは、一般設定で全体で有効にする必要があるオプションです)。サービスの要素に影響する計画停止がある場合、SLA レポートでは、計画停止が全体のサービスに影響があったものと認識します。なぜなら、システムは、サービス全体における無効化したサービスコンポーネントの影響を評価できないためです。
It is important to note that this is at the report level, the service trees, and the information they present in the visual console are not altered with respect to planned stops created after their supposed execution. These % service compliance values are calculated in real time based on historical data for the same service.
あとから設定した計画停止に基づいて変更されないレポートレベル、サービスマップ、ビジュアルコンソールでの表示情報に注意することが重要です。これらのサービス提供状況のパーセンテージは、同じサービスの過去のデータをもとにリアルタイムで計算されます。
Weights are treated somewhat differently in simple mode as there is only the critical weight andhave the possibility of falling into two states apart from the normal one. Each element is given a weight of 1 in critical and 0 in the rest, and each time a change is made to the service elements, the service weights are recalculated. The warning weight of the service is negligible, it always has a value of 0.5 because if it is left at 0 the service will always be at a minimum in warning (but the warning weight is not used in the mode simple).
シンプルモードでは、通常のウエイトとは別に、障害ウエイトと 2つの状態のみがあるため、ウエイトの扱いが少し異なります。 各要素は、障害の場合は 1、その他の状態の場合は 0 のウエイトとなり、サービス要素に変化があるたびに、サービスのウエイトが再計算されます。 警告のウエイトは無視できます。 値が 0 の場合、サービスは少なくとも常に警告状態になるため、値は常に 0.5 になりますが、シンプルモードでは警告のウエイトは使用されません。 障害ウエイトは、障害要素の合計の半分になるように計算されます。これは 1 となります。3 つの要素がある場合、サービスの障害ウエイトは 1.5 であり、その後、サーバは、サービスが障害または警告状態であるかどうかをチェックします。
The critical weight is calculated so that it is half of the sum of the critical weights of the elements, which is 1. If there are 3 elements the critical weight of the service is 1.5 then the server is in charge of deciding if the critical weight has been exceeded or equaled to move the service to critical or warning status.
障害 の重みは、要素の障害の重みの合計の半分、つまり 1 になるように計算されます。要素が 3 つある場合、サービスの障害の重みは 1.5 となり、サーバが障害の重みを超えているか、サービスを 障害 または 警告 状態に移行するかを決定します。
It is possible to silence those elements of a Service dynamically. This allows you to avoid an avalanche of alerts for each element that belongs to the Service or subservices.
サービス要素を動的に停止することができます。これにより、特定のサービスまたはサブサービスに属する各要素でアラートが過負荷になることを回避できます。
When you enable the Cascade protection enabled feature, the action associated with the template that has been configured for the root service will be executed, thus reporting elements that have an incorrect state within the Service.
サービ関連障害検知抑制機能が有効な場合、ルートサービス用に設定されたテンプレートにリンクされたアクションが実行されます。 サービス内で不正な状態となっている要素を報告します。
It is important to keep in mind that this system allows alerts to be used for elements that are going to be critical within the Service, even if its general status is correct.
このシステムでは、サービスの全体の状態が正常の場合でも、サービス内の要素が障害状態になったときにそのアラートを発報できるということを考慮することが必要です。
Service cascade protection will accurately notify which root elements have failed regardless of the depth of the defined Service.
サービス関連障害検知抑制は、定義されたサービスの深さに関係なく、どの要素が障害なのかを示します。
A macro called _rca_
is available which will indicate the root cause of the service state. To use it, it will be added to the template that has been associated with the service. This macro will return output similar to the following:
サービス状態の根本原因を示す _rca_
というマクロが利用可能です。 これを使用するには、サービスに関連付けられているテンプレートに追加します。 このマクロは、次のような出力を返します。
[Web Application → HW → Apache server 3]
[Web Application → HW → Apache server 4]
[Web Application → HW → Apache server 10]
[Web Application → DB Instances → MySQL_base_1]
[Web Application → DB Instances → MySQL_base_5]
[Web Application → Balancers → 192.168.10.139]
This example indicates that:
この例は次のような内容を示しています。
This added information makes it possible to debug the reason for the service status, reducing investigation tasks.
このような情報によりサービスの問題原因をデバッグできるため、調査タスクを軽減することができます。
Services are logical groupings that make up part of an organization's business structure. For this reason, the grouping of services may make some sense, since in many cases there may be dependencies between one another, for example forming a general service (the company) several more specific services (corporate website, communications, etc.).
サービスは、組織のビジネス構造の一部を構成する論理的なグループです。 このため、多くの場合、相互に依存関係が存在する可能性があるため、サービスをグループ化することにはある程度の意味がある場合があります。たとえば、一般的なサービス (会社) を複数のより具体的なサービス (企業 Web サイト、通信など) で構成するなどです。
To group services, it is necessary that both the general or higher service and the lower services that will be added to it be created to create the logical tree-shaped structure.
サービスをグループ化するには、一般的な上位サービスと、それに追加される下位サービスの両方を作成し、論理的なツリー構造を構築する必要があります。
Apache および MySQL サービスによって作成された Pandora FMS 監視サービス、および Pandora FMS サーバと Tentacle の状態がそれぞれの重みで監視されるユースケースです。
これらの各要素は、同時に異なるコンポーネントを備えたサービスであり、サービスを通じてツリー状の構造をグループ化して作成します。
この場合、Pandora FMS のサービスは、ウエイトが 2になると障害状態になり、1 であれば警告状態になります。 ご覧のとおり、4つのコンポーネントが Pandora サービスで異なるウエイトを持っています。
サービスは、企業のビジネス構造の一部を論理的なグループで表現したものです。そのため、サービスのグループを正しく作成する必要があるでしょう。なぜなら、サービス単体では適切な内容を持たないことがあるからです。サービスグループを作成するには、それぞれのサービスを既存のエージェントに追加する必要があります。この場合、サービスはエージェントのモジュールになります。新たな論理的な構造(サービスのグループ)を、これらのグループごとに作成することができます。
次の例では、HA ストレージクラスタがあります。この場合、2つのファイルサーバシステムが並行して稼働しており、それぞれが特定の部署にサービスを提供するために、いくつかの異なるディスクを制御しています。グループ化したサービスでツリー構造を作ります。
この構造では、ストレージサービスが障害状態になるのは、双方のファイルサーバが障害になったときのみです。これはサービス全体が提供できません。もし一方のファイルサーバが障害の場合は、サービスとしてはデグレードという想定です。 以下の画面では、ストレージサービスの 2つのメインの要素のウエイト設定が見られます。
以下の画面では、グループ化したサービス FS01 のウエイト設定を見ることができます。ここでは、要素の状態に応じた特定のウエイトが設定されています。
このモードでは、どの要素が重要で、どの要素が重要でないかを指定するだけで済みます。
重要としてチェックされた要素のみが計算に考慮され、その要素の 障害
状態のみが値を持ちます。
障害
状態の場合、サービスは、警告
状態になります。障害
状態の要素が 50% を 超えると、サービスは、障害
状態になります。例:
状況 1:
障害
状態。障害
状態。警告
状態。
結果: プリンタは重要ではなく、ルータは 重要
で、重要な要素は 50% のため、サービスは 警告
状態となります。Apache サーバは障害状態になく、評価に含まれません。
状況 2:
障害
状態。障害
状態。障害
状態。
結果: サービスは、障害
状態となります。(プリンタは評価に含まれません)
状況 3:
正常
状態。障害
状態。正常
状態。結果: 重要な要素が障害状態にないため、サービスの状態は 正常 となります。(プリンタは評価に含まれません)
次のような問いかけに直面した場合、「抽象的な」ものとしてサービスを監視する必要が生じます。
重要でない要素に障害が発生した場合、アプリケーションはどうなるのか?
このような問題を解決するために、Pandora FMS には次のようなサービス監視機能があります。
これを実現するには、アプリケーションに悪影響を与える可能性のあるすべての要素を監視します。
Pandora FMS コンソールを使用して、アプリケーションに影響を与える要素とその影響度の両方を示す サービスツリー を定義します。
サービスツリーに追加されたすべての要素は、モジュール、特定のエージェント、またはその他のサービスの形式で、すでに監視されている情報に対応します。
各要素の状態が全体の状態にどの程度影響するかを示すために、重みを合計する システムが使用されます。これにより、重要度の低い要素(重みが少ない)よりも、最も重要な要素(重みが大きい)が全体の状態への影響度が高くなり、サービス全体が障害状態と判断します。
冗長要素によってバランスをとっている Web アプリケーションを監視したいとします。 アプリケーションの基盤となるインフラストラクチャは、次の要素で構成されます。
私たちの目標は、Webアプリケーションが正しく機能しているかどうかを知ることです。つまり、顧客による最終的な評価は、アプリケーションが機能することです。
冗長化されている 20台の Apache サーバの 1つが障害の場合、すべての従業員に警告通知することは賢明でしょうか? アラートのルールは何でしょうか?
Pandora FMS は、重要な要素における問題(例えばルータ)や複数の Apache サーバが同時に障害の場合のみ警告を発するべきだと考えることができます。ただ、何台の場合でしょうか? これを解決するために、前述のコンポーネントにウエイトの値を割り当てる必要があります。
例を見てみましょう:
要素のタイプ | ウエイトの割り当て | |||
---|---|---|---|---|
正常 | 警告 | 障害 | 不明 | |
ルータ | 0 | 3 | 5 | 5 |
スイッチ | 0 | 3 | 5 | 5 |
Web サーバ | 0 | 0 | 1.2 | 1.2 |
Weblogic サーバ | 0 | 0 | 2 | 2 |
MySQL サーバ | 0 | 3 | 5 | 5 |
サービスの警告しきい値を 4、障害しきい値を 6に設定します。このようにして、すべてが正しく設定できていれば、監視対象の要素すべてが正常であるか、またはサービス提供の不備を引き起こすほど重要でない場合、サービスは正常になります。
サービス設定 | ||
---|---|---|
正常 | 警告 | 障害 |
0 | >=4 | >=6 |
1台の apache サーバダウンが発生した場合は次のようになります。
ウエイトの計算は次のようになります。
2 x 0 (ルータ正常) + 2 x 0 (スイッチ正常) + 19 x 0 (apache 正常) + 1 x 1.2 (apache 障害) + 4 x 0 (weblogic 正常) + 1 x 0 (mysql 正常) 合計: 1.2 --> サービスは正常
Web サーバと Weblogic がダウンした場合どうなるかを見てみましょう。
合計は 3.2 となり、まだ < 4 です。そのため、サービスの状態はまだ正常です。オペレータが起きる必要はありません。
ウエイトの計算は次のようになります。
2 x 0 (ルータ 正常) + 2 x 0 (スイッチ 正常) + 19 x 0 (apache 正常) + 1 x 1.2 (apache 障害) + 3 x 0 (weblogic 正常) + 1 x 2 (weblogic 障害) + 1 x 0 (mysql 正常) 合計: 3.2 --> サービスは正常
2台のウェブサーバと、1台の Weblogic サーバがダウンした場合を見てみましょう。
合計が 4.4 > 4 となり、サービスが警告状態になります。サービスはまだ動き続け緊急の技術的な対応は必要ありませんが、インフラに問題が発生していることは明らかです。
2 x 0 (ルータ 正常) + 2 x 0 (スイッチ 正常) + 18 x 0 (apache 正常) + 2 x 1.2 (apache 障害) + 3 x 0 (weblogic 正常) + 1 x 2 (weblogic 障害) + 1 x 0 (mysql 正常) 合計: 4.4 --> サービスは警告状態
上記の状態に加え、1台のルータがダウンした場合を想定してみましょう。
合計ポイントは 9.4 となり、障害状態の閾値である 6 を越えています。サービスは障害状態となり、動作していません。 すぐに技術的な対処が必要です。
1 x 0 (ルータ 正常) + 1 x 5 (ルータ 障害) + 2 x 0 (スイッチ 正常) + 18 x 0 (apache 正常) + 2 x 1.2 (apache 障害) + 3 x 0 (weblogic 正常) + 1 x 2 (weblogic 障害) + 1 x 0 (mysql 正常) 合計: 9.4 --> サービスは障害状態
Pandora FMS は、対応チーム(オペレータ、技術者など)にアラートをあげます。
リンタのみ障害状態ですが、障害要素ではないのでサービスの状態計算には含まれません。
あるサービスの一部ではないサービスが評価されます。これは ルートサービス と呼ばれます。 この論理的な概念により、監視を高速化し、処理キューを最小限に抑えることができます。
さらに、これに基づき、Pandora FMS ノードで定義されたサービスがメタコンソールでのルートサービス要素として表示され、メタコンソールサーバがそれを評価し、ノードに保存されている値を更新します。
これにより、より効率的な分散ロジックが提供され、サービスに基づく関連障害検知抑制を行うことができます。これに関しては、.E9.96.A2.E9.80.A3.E9.9A.9C.E5.AE.B3.E6.A4.9C.E7.9F.A5.E6.8A.91.E5.88.B6 関連障害検知抑制 にて説明しています。
メタコンソールサービスの可能性も拡張され、他のサービス、モジュール、またはエージェントをサービス要素として追加できるようになりました。 以前のバージョンでは、ノードサービスのみを追加できました。
サービスを利用するには、予測サーバ が有効化されている必要があります。
予測サーバ が起動しており、Pandora FMS Enterprise 版がインストールされていることが必要です。
サービスは以下を表すことができます。
サービスの値は、予想サーバを使って計算されます。
一度、すべてのデバイスを監視します。 各サービスには、サービスを監視するために必要なすべてのモジュール、エージェント、またはサブサービスを追加できます。 たとえば、オンラインストアサービスを監視する場合は、コンテンツのモジュール、通信の状態を監視するサービスなどが必要です。 以下の手順で、Pandora FMS を使用してサービスを作成する方法を確認できます。
新たなサービスを作成するには、トポロジマップ の サービス をクリックします。
全サービスを含むツリー表示がされます。
新たなサービスを作成するには、作成ボタンをクリックし、以下に示す画面に表示されるフォームに入力します。
フィールド名とその意味は以下の通りです。
名前(Name)
サービス名。
説明(Description)
サービスの説明。長いテキストも可能です。この説明は、サービスマップ、サービス一覧表示、およびサービスウィジェットに(名前の代わりに)表示されます。
グループ(Group)
サービスが属するグループ。ACL による制限をするのに便利です。
データ保存エージェント(Agent to store data)
サービスは、特別なモジュール(予測モジュール)にデータを保存します。これらのモジュールを持つエージェントが必要です。のちほど設定するアラートにも必要です。
注意: すてべのサービスモジュールの計算間隔は、コンテナとしてのエージェントに設定された間隔に依存します。
モード(Mode)
要素のウエイトの計算モードです。2つの値があります。
スマート モードは Pandora FMS バージョン 7.0NG 748 から利用できます。 以前のバージョンの 自動 および シンプル モードは、MR 40 のアップデートを適用することにより 手動 になります。
フィールドを正しく入力したら、以下のように、要素またはサービス項目で埋める必要がある空のサービスがあります。サービス編集フォームで、'要素設定(Config Elements)' タブを選択します。
要素追加ボタンをクリックすると、フォームを含むポップアップウィンドウが表示されます。 サービスがスマートモードまたは手動モードの場合で、フォームは少し異なります。
フォームのフィールドは次の通りです。
以下フィールドは手動モードのサービスにのみ存在します。
サービスの状態を計算するために、各要素のウエイトがその状態に基づいて追加され、それが警告または障害のサービスにおけるしきい値を超える場合、サービスの状態は適切に警告または障害に変更されます。
スマートモードサービスでは、要素に重みが定義されていないため、要素の状態計算は次のように行われます。
動的モード
次のフィールドはスマートモードでの動的タイプの要素でのみ存在します。
マッチする要素のタイプ(Matching object types)
動的ルールが評価され、サービスの一部となる要素がエージェントまたはモジュールかどうかを選択するドロップダウンリスト。
グループによるフィルタ(Filter by group)
要素がサービスの一部である必要があるグループを示すルール。
エージェント名に利用(Having agent name)
サービスの一部となる要素でエージェントの名前を示すルール。指定のエージェントの名前の一部となるテキストが表示されます。
モジュール名に利用(Having module name)
サービスの一部となる要素でモジュールの名前を示すルール。指定のモジュールの名前の一部となるテキストが表示されます。
正規表現セレクタの利用(Use regular expresions selector)
このオプションを有効化すると、検索の仕組みとして 正規表現 (regex または regexp) が利用されます。ただし、MySQL での扱い に従います。
カスタムフィールド名に利用(Having custom field name)
サービスの一部となる要素でカスタムフィールドの名前を示すルール。指定のカスタムフィールドの名前の一部となるテキストが表示されます。
カスタムフィールドの値に利用(Having custom field value): サービスの一部となる要素でカスタムフィールドの値を示すルール。指定のカスタムフィールドの値の一部となるテキストが表示されます。
カスタムフィールドで検索するときに考慮されるように、両方のフィールドにテキストを入力する必要があります。
バージョン NG 752 以降では、より多くのカスタムフィールドに検索を追加することが可能です。これらは、設定されたキーワードペアのいずれかに一致する場合に選択されます。
例
グループ Servers 内のエージェントをフィルタリングすることを選択した場合、そのエージェント名は Firewall
を含み、モジュール名は Network
を含みます。 以下の結果が得られます。
例
動的要素の設定が次の場合
名前に “Host Alive” が含まれるすべてのモジュールで、名前に “SW” が含まれるエージェント、“Servers” グループ内にあり、カスタムフィールドに “Department” が含まれる名前のもので値に “Systems” を含むものが、サービス要素として使用されます。
動的要素は、関連障害検知抑制の影響を受けません。
作成した全サービスを表示する一覧です。もちろん、Pandora コンソールを使用しているユーザがアクセスできるグループのみを表示します。
この画面へ行くには、操作メニューで監視のサービスを開きます。
それぞれの行がサービスで、カラムは次の通りです。
全サービスの一覧でサービス名をクリックするかまたは、サービスタイトルヘッダーの虫眼鏡アイコンをクリックすることにより参照することができます。
Pandora は、次のようなスクリーンショットの画面を表示します。
2つのパートに分かれており、上に前述の表示と同じカラム、下にサービスを構成する要素の一覧です。
要素の一覧は表形式で表示されます。行は各要素に対応し、列は以下を表します。
サービス要素の計算は、予測サーバによって実施されることに注意してください。リアルタイムのデータではありません。また、サービスにエージェントが追加された場合、サービスのウエイトは、計算が再実行されるまで更新されないことに注意してください。
ここでは、次の画面のようにサービスをツリー構造で表示します。これにより、どのようなモジュール、エージェント、サブサービスがサービスに影響を与えるのかを見ることができます。サブサービスにおいても、ステータスをウェイトの合計で計算し、何がサブサービスに影響を与えるのかを確認できます。
ノードの種類は次の通りです。
ノードの色とそれぞれがサービスに接続している線は、ノードの状態に依存します。常に、緑が正常、赤が障害、黄色が警告、グレーが不明状態です。
ノード内は次の通りです。
ツリー内の各ノードはクリックすることができ、ノードの操作画面へのリンクになっています。
サービスのモードがシンプルの場合、赤い ! マークが障害要素の右に表示されます。
Pandora FMS バージョン 5 以降では、マップ内の他のアイテムのように、ビジュアルコンソールにサービスを追加することができます。
マップ上にサービスアイテムを作成するには、ビジュアルマップの他のアイテムと同じように操作します。ただし、オプション画面は、スクリーンショットのようになります。
次の設定があります。
ビジュアルマップ上の他のアイテムとは異なり、サービスアイテムは他のビジュアルマップにリンクすることはできないことに注意してください。ビジュアルコンソール内のサービスアイテムをクリックすると、常に前述のツリーサービスマップ表示になります。
この表示は、ツリー形式でサービスを表示します。
各レベルで、各サービスまたはエージェントに含まれる要素数のカウントが表示されます。
他のサービスに属さないサービスは常に一番上のレベルに表示されます。 子サービスの場合は、親の中にネストされて表示されます。
ACL によるアクセス制御は、一番上のレベルにのみ適用されます。
計画停止をあとから追加することにより、SLA レポートの値を再計算することができます。最初に設定画面で有効化する必要があります。サービスの要素に影響する計画停止がある場合、SLA レポートでは、計画停止が全体のサービスに影響があったものと認識します。なぜなら、システムは、サービス全体における無効化したサービスコンポーネントの影響を評価できないためです。
あとから設定した計画停止に基づいて変更されないレポートレベル、サービスマップ、ビジュアルコンソールでの表示情報は注目に値します。これらのサービス提供状況のパーセンテージは、同じサービスの過去のデータをもとにリアルタイムで計算されます。ダミーの計画停止を設定した場合と比べてレポートは大きく異なります。
一方で、サービスの順守状況の計算方法を知ることも重要です。
シンプルモードにおけるウエイトの計算
シンプルモードでは、通常のウエイトとは別に、障害ウエイトと 2つの状態のみがあるため、ウエイトの扱いが少し異なります。 各要素は、障害の場合は 1、その他の状態の場合は 0 のウエイトとなり、サービス要素に変化があるたびに、サービスのウエイトが再計算されます。 警告のウエイトは無視できます。 値が 0 の場合、サービスは少なくとも常に警告状態になるため、値は常に 0.5 になりますが、シンプルモードでは警告のウエイトは使用されません。 障害ウエイトは、障害要素の合計の半分になるように計算されます。これは 1 となります。3 つの要素がある場合、サービスの障害ウエイトは 1.5 であり、その後、サーバは、サービスが障害または警告状態であるかどうかをチェックします。
重要度に応じたウエイトの計算
1時間 (実際の場合ではとても短いですが内部アルゴリズムを理解するには良いです) で 95% の稼働率として定義したサービスがあると仮定します。値を表示にして、t が時間、x が(SLAの)パーセンテージ、そして s がサービスが維持できているかどうか(1:正常,0:異常)です。1時間のうちに、5分間隔で 12個の値を取得します。
この場合、最初の 11サンプル(最初の 55分)ではサービスを満たしており、60分のときに満たせずに次のようになったとします。
t | s | x --------+-------+-------- 1 1 100 2 1 100 3 1 100 4 1 100 5 1 100 6 1 100 7 1 100 8 1 100 9 1 100 10 1 100 11 1 100 12 0 91,6
この場合は計算は簡単です。パーセンテージはサンプル数に依存して計算されます。たとえば、t 3 ではサービスを満たすトータル 3つのサンプルがあり 100% です。t 12 では、12 サンプル中満たしているのが 11 なので、11 / 12 です。
途中で問題が発生したと仮定すると、ゆっくり復旧します。
t | s | x --------+-------+-------- 1 1 100 2 1 100 3 1 100 4 1 100 5 1 100 6 0 83,3 7 1 85,7 8 1 87,5 9 1 88,8 10 1 90 11 1 90,9 12 1 91,6
これまでのシナリオに似ていますが、その後時間が進んでいくとどうなるか見てみましょう。
t | s | x --------+-------+-------- 13 1 91,6 14 1 91,6 15 1 91,6 16 1 91,6 17 1 91,6 18 1 100 19 1 100 ....
直感的ではない動作が見られます。なぜなら、t 18 までの間に正常なサンプルの数は 11 あり、異常な値は範囲外になっています。そのため、t 18 では 100% になります。91.6 と 100 の間の差は、対象範囲の大きさで決まります。範囲が大きいと(通常 SLA の計算間隔は日次、週次、月次です)差は急ではなくなります。
サービス要素を動的に停止することができます。これにより、特定のサービスまたはサブサービスに属する各要素でアラートが過負荷になることを回避できます。
'サービ関連障害検知抑制' 機能が有効な場合、ルートサービス用に設定されたテンプレートにリンクされたアクションが実行されます。 サービス内で不正な状態となっている要素を報告します。
このシステムでは、サービスの全体の状態が正常の場合でも、サービス内の要素が障害状態になったときにそのアラートを発報できるということを考慮することが必要です。
サービス関連障害検知抑制は、定義されたサービスの深さに関係なく、どの要素が障害なのかを示します。
上記の例では、サービスの要素の 1つが障害状態にあることがわかります。メインサービスが正常な場合でも、内部の要素における障害状態を警告し、障害状態の要素に関連するアラートを発報します。
サービス内に無限の数のサブサービス(パス)が存在する場合があります。 以前のバージョンでは、Pandora FMS はサービスの状態(正常、障害、警告など)を示すアラートを出していました。 OUM725 からは、サービスの状態の根本原因を示す新しいマクロが利用可能になりました。
これを利用するには、サービスにリンクしたテンプレートに以下のテキストを追加します。
Alert body: Example message The series of events that have caused the service status is the following one: _rca_
これは、次のような出力を返します。
Alert body: Example message The series of events that have caused the service status is the following one: [web Application -> HW -> Apache server 3] [web Application -> HW -> Apache server 4] [web Application -> HW -> Apache server 10] [web Application -> DB Instances -> MySQL_base_1] [web Application -> DB Instances -> MySQL_base_5] [web Application -> Balanceadores -> 192.168.10.139]
この出力結果を見ることにより、以下を想定できます。
この追加情報で、サービス状態の裏にある理由を見つけることができ、原因調査のためのタスクを削減することができます。
サービスは、ビジネスの構造の一部を表す論理的なグループです。そのために、グループのサービスを表すのに理にかなっています。なぜなら、依存関係がある多くの状態で、例えば個々のサービス(ウェブページ、通信など)から構成される企業全体のサービスを表すからです。サービスをグループ化するには、全体の一つのサービスを作成し、論理的なツリー構造で個々のサービスを全体のサービスとしてまとめる必要があります。
サービスグループは、ビジュアルマップの作成、アラート設定、監視ポリシーなどの設定の手助けをしてくれます。営業部門が動けない状態であったり Web ページが停止しているために、企業としてのサービスが止まっている場合に、特定のアラートを設定することができます。
サービスグループをより理解するためには、以降の例を確認してください。
Apache および MySQL サービスによって作成された Pandora FMS 監視サービス、および Pandora FMS サーバと Tentacle の状態がそれぞれの重みで監視されるユースケースです。
これらの各要素は、同時に異なるコンポーネントを備えたサービスであり、サービスを通じてツリー状の構造をグループ化して作成します。
この場合、Pandora FMS のサービスは、ウエイトが 2になると障害状態になり、1 であれば警告状態になります。 ご覧のとおり、4つのコンポーネントが Pandora サービスで異なるウエイトを持っています。
サービスは、企業のビジネス構造の一部を論理的なグループで表現したものです。そのため、サービスのグループを正しく作成する必要があるでしょう。なぜなら、サービス単体では適切な内容を持たないことがあるからです。サービスグループを作成するには、それぞれのサービスを既存のエージェントに追加する必要があります。この場合、サービスはエージェントのモジュールになります。新たな論理的な構造(サービスのグループ)を、これらのグループごとに作成することができます。
次の例では、HA ストレージクラスタがあります。この場合、2つのファイルサーバシステムが並行して稼働しており、それぞれが特定の部署にサービスを提供するために、いくつかの異なるディスクを制御しています。グループ化したサービスでツリー構造を作ります。
この構造では、ストレージサービスが障害状態になるのは、双方のファイルサーバが障害になったときのみです。これはサービス全体が提供できません。もし一方のファイルサーバが障害の場合は、サービスとしてはデグレードという想定です。 以下の画面では、ストレージサービスの 2つのメインの要素のウエイト設定が見られます。
以下の画面では、グループ化したサービス FS01 のウエイト設定を見ることができます。ここでは、要素の状態に応じた特定のウエイトが設定されています。
全サービスの一覧でサービス名をクリックするかまたは、サービスタイトルヘッダーの虫眼鏡アイコンをクリックすることにより参照することができます。
Pandora は、次のようなスクリーンショットの画面を表示します。
2つのパートに分かれており、上に前述の表示と同じカラム、下にサービスを構成する要素の一覧です。
要素の一覧は表形式で表示されます。行は各要素に対応し、列は以下を表します。
サービス要素の計算は、予測サーバによって実施されることに注意してください。リアルタイムのデータではありません。また、サービスにエージェントが追加された場合、サービスのウエイトは、計算が再実行されるまで更新されないことに注意してください。
NG 765 version or later.
バージョン NG 765 以降
In the simple list of a service there is a drop-down icon with three options: adding, editing and bulk deletion of elements of a service.
サービスのシンプルな一覧には、サービスの要素の一括での追加、編集、削除の 3 つのオプションのドロップダウンアイコンがあります。
To add elements you have a dialog box that allows you to select agents, modules or other services and by clicking on each of them at the bottom it will show the elements available to be selected and added with the following options Add selected:
要素を追加するには、エージェント、モジュール、またはその他のサービスを選択できるダイアログボックスがあり、下部にある各サービスをクリックすることにより、選択して追加できる要素が表示され、次の 選択したものを追加(Add selected) オプションで追加できます。
Once you have finished adding elements click on the Add elements button to save the changes. Editing and deleting works in a similar way.
要素の追加が完了したら、要素の追加(Add elements) ボタンをクリックして変更を保存します。 編集と削除も同様です。
In the cases of addition and editing, the service must be in Manual mode because in Smart mode the weights are calculated automatically: for this reason the Service items summary option will be absent or empty.
追加および編集の場合、Smart モードでは重みが自動的に計算されるため、サービスは 手動(Manual) モードである必要があります。このため、サービス要素概要(Service items summary) オプションは存在しないか空になります。 .
See also “Massive operations: Services” for similar operations applied to services.
サービスに適用される同様の操作については、「一括操作: サービス」も参照してください。
ここでは、次の画面のようにサービスをツリー構造で表示します。これにより、どのようなモジュール、エージェント、サブサービスがサービスに影響を与えるのかを見ることができます。サブサービスにおいても、ステータスをウェイトの合計で計算し、何がサブサービスに影響を与えるのかを確認できます。
ノードの種類は次の通りです。
ノードの色とそれぞれがサービスに接続している線は、ノードの状態に依存します。常に、緑が正常、赤が障害、黄色が警告、グレーが不明状態です。
ノード内は次の通りです。
ツリー内の各ノードはクリックすることができ、ノードの操作画面へのリンクになっています。
サービスのモードがシンプル の場合、赤い ! マークが障害要素の右に表示されます。
Pandora FMS バージョン 5 以降では、マップ内の他のアイテムのように、ビジュアルコンソールにサービスを追加することができます。
マップ上にサービスアイテムを作成するには、ビジュアルマップの他のアイテムと同じように操作します。ただし、オプション画面は、スクリーンショットのようになります。
次の設定があります。
ビジュアルマップ上の他のアイテムとは異なり、サービスアイテムは他のビジュアルマップにリンクすることはできないことに注意してください。ビジュアルコンソール内のサービスアイテムをクリックすると、常に前述のツリーサービスマップ表示になります。