NetApp ONTAP EMS události, notifikace, monitoring zaplnění

Pozn.: Článek vychází z verze ONTAP 9.9.1.

Zobrazení systémových událostí (logů)

event log show
How to efficiently search the event log in clustered Data ONTAP (jde o starý článek pro ONTAP 8.2, kde existovalo více stupňů závažnosti)

Stupeň závažnosti (Severity Level)

EMERGENCY - Disruption
ALERT - Single point of failure
ERROR - Degradation
NOTICE - Information
INFORMATIONAL - Information
DEBUG - Debug information

Výpis událostí pomocí CLI

V CLI máme příkaz, s řadou parametrů, pro zobrazení obsahu logu událostí (Event Log). Defaultně se zobrazují nejnovější události první s hodnotami čas, kdy událost nastala, na kterém uzlu clusteru, závažnost události a text události.

event log show

Pro více detailů můžeme přidat parametr detail, ale ještě více zobrazí instance.

event log show -detail
event log show -instance

Ve výchozím stavu se zobrazují pouze události se závažností EMERGENCY, ALERT a ERROR. Změnit můžeme určením závažnosti.

event log show -severity DEBUG
event log show -severity <=NOTICE

Filtrovat můžeme podle jména zprávy (Message Name)

event log show -message-name secd.*

Nebo celého obsahu (textu) události (a pomocí dalších parametrů, které zde neuvádíme)

event log show -event *Aggregate*

Události můžeme vybírat podle času, třeba za posledních 10 minut nebo určením intervalu.

event log show -time >10m
event log show -time "11/30/2021 1:00:00".."11/30/2021 22:00:00"

Pozn.: V praxi většinou potřebujeme různé parametry kombinovat.

Podle informací v The 'event log show' command displays only 3 days or 2048 events příkaz pracuje pouze s posledními 3 dny nebo 2048 záznamy. Počítají se všechny EMS zprávy, takže je to většinou jen krátký časový úsek.

Článek popisuje i různé možnosti, jak pracovat se staršími logy. Například stáhnout soubory s logy. To můžeme jednoduše přes webové rozhraní Service Processor infrastructure (SPI), adresa http(s)://<cluster-mgmt-ip>/spi/ (adresa clusteru plus /spi).

Zobrazení událostí pomocí ONTAP System Manager

Events & Jobs - Events

Na webu si můžeme zobrazit události, můžeme v nich filtrovat a vyhledávat. Zobrazení ovšem není zrovna svižné.

Také mám zvláštní chování na jednom NetApp poli s ONTAP 9.9.1P3 a nedohledal jsem, zda je to vlastnost nebo chyba. Zde se mi zobrazují pouze události se závažností EMERGENCY, ALERT and ERROR. Kdežto na starším poli s ONTAP 9.8P7 jsou vidět všechny závažnosti (všechny kategorie se nabízí i ve filtru).

Nastavení upozornění na systémové události (posílání na mail)

Pozn.: Podle dokumentace bude od ONTAP 9.10.1 možno konfigurovat pomocí (GUI) System Manager, jak EMS doručuje upozornění na události. Ve starších verzích je nutno využít CLI.

Vybrané události můžeme odesílat přímo na email, Syslog server, REST API klienta (WebHooks) nebo jako SNMP trap. Konfigurace je dost podobná, zde se zaměříme na posílání emailů.

Zadání SMTP serveru

Nastavení poštovního SMTP serveru (nenabízí příliš možností).

event config modify -mail-server SERVER.FIRMA.CZ -mail-from EMAIL@FIRMA.CZ

Vytvoření příjemců (email adresy)

Vytvoření emailových příjemců (obecně definujeme různé příjemce notifikací), vždy jde o jednu adresu, takže pro více adres musíme definovat několik záznamů nebo využít distribuční skupinu.

event notification destination create -name ADMIN1 -email PRIJEMCE1@FIRMA.CZ
event notification destination create -name ADMIN2 -email PRIJEMCE2@FIRMA.CZ

Výběr odesílaných událostí (filtr)

Události, které nás zajímají a chceme na ně být upozornění, se vybírají pomocí filtru událostí (Event Filter). Je tvořen jedním nebo více pravidly (Rule), která se prochází odshora dolů, dokud nedojde ke shodě (First Fit). Na konci je implicitní pravidlo, které zachytí vše a vyřadí (Exclude).

Pravidlo může být typu include (zpráva odpovídající pravidlu se vloží) nebo exclude (nevloží). V pravidle zadáváme jméno (zprávy) události (message-name), závažnost (severity) a typ SNMP Trap (snmp-trap-type). Tyto tři položky se vyhodnocují pomocí logického AND. Když je v položce více hodnot, tak se použije logické OR. Hvězdička (*) je zástupný znak pro vše (můžeme kombinovat s dalšími znaky).

Filtr můžeme využít předdefinovaný nebo vytvořit vlastní. Výpis existujících filtrů spolu s pravidly:

event filter show

Systémem definované jsou 3 filtry událostí

important-events - všechny události ALERT a EMERGENCY
no-info-debug-events - všechny události EMERGENCY, ALERT, ERROR a NOTICE (ne INFO a DEBUG)
default-trap-events - všechny události ALERT a EMERGENCY a všechny Standard a Built-in SNMP trapy

Vytvoření nového filtru událostí (vybírá všechny události EMERGENCY, ALERT, ERROR, plus události o zaplnění agregátu nebo svazku)

event filter create -filter-name important-events-2
event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volume.full
event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volumes.one.ok
event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volume.ok
event filter rule add -filter-name important-events-2 -type include -severity EMERGENCY,ALERT,ERROR

Vyřazení určité zprávy ze zasílání

event filter rule add -filter-name important-events-2 -type exclude -message-name tsse.scan.start.failed
event filter rule reorder -filter-name important-events-2 -position 4 -to-position 5

Nastavení zasílání upozornění

Poslední krok je spojení filtru událostí a jednoho nebo více příjemců (cílů) vytvořením Event Notification. Jakmile vytvoříme, tak začne odesílání fungovat.

event notification create -filter-name no-info-debug-events -destinations ADMIN1,ADMIN2

Úprava nebo mazání se provádí pomocí ID, které se zobrazuje při výpisu.

event notification show
event notification modify -ID 3 -destinations ADMIN3
event notification modify -ID 3 -filter-name important-events-2
event notification delete -ID 1

Můžeme si také vypsat historii události, které byly zaslány na určitý cíl notifikací (email).

event notification history show -destination admin1

Katalog událostí

Máme k dispozici příkaz, který nám vypíše události podle zadaného filtru nebo detail jedné události.

AFF::> event catalog show -message-name *nearlyFull*
Message                          Severity         SNMP Trap Type
-------------------------------- ---------------- -----------------
fg.inodes.member.nearlyFull      ALERT            Severity-based
fg.space.member.nearlyFull       ALERT            Severity-based
monitor.volume.nearlyFull        ERROR            Built-in
3 entries were displayed.

event catalog show -message-name monitor.volume.nearlyFull

Další příkaz shrnuje informace o výskytech událostí.

event status show -message-name *nearlyFull*

Sledování zaplnění agregátů a svazků

How to configure Aggregate and Volume Nearly Full and Full Thresholds in Clustered Data ONTAP 8 and ONTAP 9
Address aggregate fullness and overallocation alerts
How the FlexVol volume and aggregate fullness alerts work (starý popis, který již není úplně aktuální)

Hodnoty téměř plné a plné (Nearly Full and Full Thresholds)

Pro svazky (Volume) a agregáty (Aggregate) se definují procentuální hodnoty, kdy je považován za

téměř plný - EMS generuje chybu (ERROR), defaultně 95%, 0 znamená vypnuto, maximum 99%
plný - EMS generuje zprávu (DEBUG), defaultně 98%, 0 znamená vypnuto, maximum 100%

EMS zpráva se generuje při každém překročení prahové hodnoty. Pokud zaplnění stoupá, tak jde o ERROR/DEBUG, pokud klesá, tak o OK. Pokud nastavíme zasílání upozornění na tyto události, tak nás to může včas informovat na docházející místo ve svazku nebo agregátu.

Prahové hodnoty pro agregát (Aggregate Thresholds)

Zobrazení aktuálního nastavení. Můžeme zobrazit všechny položky určitého agregátu nebo jen prahové hodnoty pro všechny či určitý agregát.

storage aggregate show -aggregate AFF_01_NVME_SSD_1
storage aggregate show -fields space-nearly-full-threshold-percent,space-full-threshold-percent

Změnit můžeme jednu nebo obě hodnoty určitého agregátu.

storage aggregate modify AFF_01_NVME_SSD_1 -space-nearly-full-threshold-percent 90 -space-full-threshold-percent 95

Prahové hodnoty pro svazek (Volume Thresholds)

Zobrazení aktuálního nastavení.

volume show -fields space-nearly-full-threshold-percent,space-full-threshold-percent

Změna hodnot.

volume modify -volume Server_vol -vserver svm-iscsi -space-nearly-full-threshold-percen 94 -space-full-threshold-percent 97

Můžeme také nastavit více svazků najednou.

volume modify -volume VMware* -space-nearly-full-threshold-percen 90 -space-full-threshold-percent 95

EMS zprávy pro události

Pokud se generuje zpráva při překročení hodnoty téměř plné, tak jde o následující událost. Je stejná, jestli se jedná o svazek nebo agregát.

AFF::> event catalog show -message-name monitor.volume.nearlyFull

     Message Name: monitor.volume.nearlyFull
         Severity: ERROR
      Description: This message occurs when one or more file systems are nearly full, typically indicating at least 95% full.
 This event is accompanied by global health monitoring messages for the customer. The space usage is computed based on the
 active file system size and is computed by subtracting the value of the "Snapshot Reserve" field from the value of the
 "Used" field of the "volume show-space" command.
Corrective Action: Create space by increasing the volume or aggregate sizes, or by deleting data or deleting Snapshot(R)
 copies. To increase a volume's size, use the "volume size" command. To delete a volume's Snapshot(R) copies, use the "volume
 snapshot delete" command. To increase an aggregate's size, add disks by using the "storage aggregate add-disks" command.
 Aggregate Snapshot(R) copies are deleted automatically when the aggregate is full.
   SNMP Trap Type: Built-in
    Is Deprecated: false

Zaslaný email obsahuje předmět a zprávu a pokračuje popisem a nápravnou akcí výše.

Subject: AFF-01: monitor.volume.nearlyFull [ERROR]

Message: monitor.volume.nearlyFull: Aggregate AFF_01_NVME_SSD_1 is nearly full (using or reserving 75% of space and 0%
 of inodes).

Pokud se generuje zpráva při překročení hodnoty plné, tak jde o následující událost. Opět stejnou pro svazek i agregát.

AFF::> event catalog show -message-name monitor.volume.full

     Message Name: monitor.volume.full
         Severity: DEBUG
      Description: This message occurs when one or more file systems are full, typically indicating at least 98% full. This
 event is accompanied by global health monitoring messages for the customer. The space usage is computed based on the active
 file system size and is computed by subtracting the value of the "Snapshot Reserve" field from the value of the "Used"
 field of the "volume show-space" command. The volume/aggregate can be over 100% full due to space used or reserved by
 metadata. A value greater than 100% might cause Snapshot(tm) copy space to become unavailable or cause the volume to become
 logically overallocated. See the "vol.log.overalloc" EMS message for more information.
Corrective Action: NONE
   SNMP Trap Type: Built-in
    Is Deprecated: false

Email obsahuje.

Subject: AFF-02: monitor.volume.full [DEBUG]

Message: monitor.volume.full: Volume HV01lab_vol_01@app:602... is full (using or reserving 87% of space and 0% of inodes).

Při návratu pod prahovou hodnotu se generuje zpráva závažnosti DEBUG monitor.volumes.one.ok a monitor.volume.ok.

Při úplném zaplnění se generují další zprávy jako wafl.vol.full (ALERT), LUN.out.of.space (EMERGENCY).