www.SAMURAJ-cz.com 

26.04.2024 Oto Translate to English by Google     VÍTEJTE V MÉM SVĚTĚ

Články

NetApp ONTAP EMS události, notifikace, monitoring zaplnění

Úterý, 30.11.2021 18:59 | Samuraj - Petr Bouška |
EMS (Event Management System) shromažďuje události (Events) generované ONTAP systémem. Obsahuje velké množství informací o provozu o stavech systému. Je důležité být okamžitě upozorněni na systémové problémy, abychom mohli rychle reagovat. Podíváme se na možnosti prohlížení událostí a nastavení odesílání vybraných EMS událostí (Notifications) na email. Speciálně si popíšeme nastavování upozornění na docházející místo v agregátech a svazcích (sledování zaplnění).

Pozn.: Článek vychází z verze ONTAP 9.9.1.

Zobrazení systémových událostí (logů)

Stupeň závažnosti (Severity Level)

  • EMERGENCY - Disruption
  • ALERT - Single point of failure
  • ERROR - Degradation
  • NOTICE - Information
  • INFORMATIONAL - Information
  • DEBUG - Debug information

Výpis událostí pomocí CLI

V CLI máme příkaz, s řadou parametrů, pro zobrazení obsahu logu událostí (Event Log). Defaultně se zobrazují nejnovější události první s hodnotami čas, kdy událost nastala, na kterém uzlu clusteru, závažnost události a text události.

event log show

Pro více detailů můžeme přidat parametr detail, ale ještě více zobrazí instance.

event log show -detail
event log show -instance

Ve výchozím stavu se zobrazují pouze události se závažností EMERGENCY, ALERT a ERROR. Změnit můžeme určením závažnosti.

event log show -severity DEBUG
event log show -severity <=NOTICE

Filtrovat můžeme podle jména zprávy (Message Name)

event log show -message-name secd.*

Nebo celého obsahu (textu) události (a pomocí dalších parametrů, které zde neuvádíme)

event log show -event *Aggregate*

Události můžeme vybírat podle času, třeba za posledních 10 minut nebo určením intervalu.

event log show -time >10m
event log show -time "11/30/2021 1:00:00".."11/30/2021 22:00:00" 

Pozn.: V praxi většinou potřebujeme různé parametry kombinovat.

Podle informací v The 'event log show' command displays only 3 days or 2048 events příkaz pracuje pouze s posledními 3 dny nebo 2048 záznamy. Počítají se všechny EMS zprávy, takže je to většinou jen krátký časový úsek.

Článek popisuje i různé možnosti, jak pracovat se staršími logy. Například stáhnout soubory s logy. To můžeme jednoduše přes webové rozhraní Service Processor infrastructure (SPI), adresa http(s)://<cluster-mgmt-ip>/spi/ (adresa clusteru plus /spi).

Zobrazení událostí pomocí ONTAP System Manager

  • Events & Jobs - Events

Na webu si můžeme zobrazit události, můžeme v nich filtrovat a vyhledávat. Zobrazení ovšem není zrovna svižné.

Také mám zvláštní chování na jednom NetApp poli s ONTAP 9.9.1P3 a nedohledal jsem, zda je to vlastnost nebo chyba. Zde se mi zobrazují pouze události se závažností EMERGENCY, ALERT and ERROR. Kdežto na starším poli s ONTAP 9.8P7 jsou vidět všechny závažnosti (všechny kategorie se nabízí i ve filtru).

ONTAP System Manager - Events

Nastavení upozornění na systémové události (posílání na mail)

Pozn.: Podle dokumentace bude od ONTAP 9.10.1 možno konfigurovat pomocí (GUI) System Manager, jak EMS doručuje upozornění na události. Ve starších verzích je nutno využít CLI.

Vybrané události můžeme odesílat přímo na email, Syslog server, REST API klienta (WebHooks) nebo jako SNMP trap. Konfigurace je dost podobná, zde se zaměříme na posílání emailů.

Zadání SMTP serveru

Nastavení poštovního SMTP serveru (nenabízí příliš možností).

event config modify -mail-server SERVER.FIRMA.CZ -mail-from EMAIL@FIRMA.CZ 

Vytvoření příjemců (email adresy)

Vytvoření emailových příjemců (obecně definujeme různé příjemce notifikací), vždy jde o jednu adresu, takže pro více adres musíme definovat několik záznamů nebo využít distribuční skupinu.

event notification destination create -name ADMIN1 -email PRIJEMCE1@FIRMA.CZ
event notification destination create -name ADMIN2 -email PRIJEMCE2@FIRMA.CZ

Výběr odesílaných událostí (filtr)

Události, které nás zajímají a chceme na ně být upozornění, se vybírají pomocí filtru událostí (Event Filter). Je tvořen jedním nebo více pravidly (Rule), která se prochází odshora dolů, dokud nedojde ke shodě (First Fit). Na konci je implicitní pravidlo, které zachytí vše a vyřadí (Exclude).

Pravidlo může být typu include (zpráva odpovídající pravidlu se vloží) nebo exclude (nevloží). V pravidle zadáváme jméno (zprávy) události (message-name), závažnost (severity) a typ SNMP Trap (snmp-trap-type). Tyto tři položky se vyhodnocují pomocí logického AND. Když je v položce více hodnot, tak se použije logické OR. Hvězdička (*) je zástupný znak pro vše (můžeme kombinovat s dalšími znaky).

Filtr můžeme využít předdefinovaný nebo vytvořit vlastní. Výpis existujících filtrů spolu s pravidly:

event filter show

Systémem definované jsou 3 filtry událostí

  • important-events - všechny události ALERT a EMERGENCY
  • no-info-debug-events - všechny události EMERGENCY, ALERT, ERROR a NOTICE (ne INFO a DEBUG)
  • default-trap-events - všechny události ALERT a EMERGENCY a všechny Standard a Built-in SNMP trapy

Vytvoření nového filtru událostí (vybírá všechny události EMERGENCY, ALERT, ERROR, plus události o zaplnění agregátu nebo svazku)

event filter create -filter-name important-events-2
event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volume.full
event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volumes.one.ok
event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volume.ok
event filter rule add -filter-name important-events-2 -type include -severity EMERGENCY,ALERT,ERROR

Vyřazení určité zprávy ze zasílání

event filter rule add -filter-name important-events-2 -type exclude -message-name tsse.scan.start.failed
event filter rule reorder -filter-name important-events-2 -position 4 -to-position 5

Nastavení zasílání upozornění

Poslední krok je spojení filtru událostí a jednoho nebo více příjemců (cílů) vytvořením Event Notification. Jakmile vytvoříme, tak začne odesílání fungovat.

event notification create -filter-name no-info-debug-events -destinations ADMIN1,ADMIN2

Úprava nebo mazání se provádí pomocí ID, které se zobrazuje při výpisu.

event notification show
event notification modify -ID 3 -destinations ADMIN3
event notification modify -ID 3 -filter-name important-events-2
event notification delete -ID 1

Můžeme si také vypsat historii události, které byly zaslány na určitý cíl notifikací (email).

event notification history show -destination admin1

Katalog událostí

Máme k dispozici příkaz, který nám vypíše události podle zadaného filtru nebo detail jedné události.

AFF::> event catalog show -message-name *nearlyFull*
Message                          Severity         SNMP Trap Type
-------------------------------- ---------------- -----------------
fg.inodes.member.nearlyFull      ALERT            Severity-based
fg.space.member.nearlyFull       ALERT            Severity-based
monitor.volume.nearlyFull        ERROR            Built-in
3 entries were displayed.

event catalog show -message-name monitor.volume.nearlyFull

Další příkaz shrnuje informace o výskytech událostí.

event status show -message-name *nearlyFull*

Sledování zaplnění agregátů a svazků

Hodnoty téměř plné a plné (Nearly Full and Full Thresholds)

Pro svazky (Volume) a agregáty (Aggregate) se definují procentuální hodnoty, kdy je považován za

  • téměř plný - EMS generuje chybu (ERROR), defaultně 95%, 0 znamená vypnuto, maximum 99%
  • plný - EMS generuje zprávu (DEBUG), defaultně 98%, 0 znamená vypnuto, maximum 100%

EMS zpráva se generuje při každém překročení prahové hodnoty. Pokud zaplnění stoupá, tak jde o ERROR/DEBUG, pokud klesá, tak o OK. Pokud nastavíme zasílání upozornění na tyto události, tak nás to může včas informovat na docházející místo ve svazku nebo agregátu.

Prahové hodnoty pro agregát (Aggregate Thresholds)

Zobrazení aktuálního nastavení. Můžeme zobrazit všechny položky určitého agregátu nebo jen prahové hodnoty pro všechny či určitý agregát.

storage aggregate show -aggregate AFF_01_NVME_SSD_1
storage aggregate show -fields space-nearly-full-threshold-percent,space-full-threshold-percent 

Změnit můžeme jednu nebo obě hodnoty určitého agregátu.

storage aggregate modify AFF_01_NVME_SSD_1 -space-nearly-full-threshold-percent 90 -space-full-threshold-percent 95

Prahové hodnoty pro svazek (Volume Thresholds)

Zobrazení aktuálního nastavení.

volume show -fields space-nearly-full-threshold-percent,space-full-threshold-percent

Změna hodnot.

volume modify -volume Server_vol -vserver svm-iscsi -space-nearly-full-threshold-percen 94 -space-full-threshold-percent 97

Můžeme také nastavit více svazků najednou.

volume modify -volume VMware* -space-nearly-full-threshold-percen 90 -space-full-threshold-percent 95

EMS zprávy pro události

Pokud se generuje zpráva při překročení hodnoty téměř plné, tak jde o následující událost. Je stejná, jestli se jedná o svazek nebo agregát.

AFF::> event catalog show -message-name monitor.volume.nearlyFull

     Message Name: monitor.volume.nearlyFull
         Severity: ERROR
      Description: This message occurs when one or more file systems are nearly full, typically indicating at least 95% full.
 This event is accompanied by global health monitoring messages for the customer. The space usage is computed based on the
 active file system size and is computed by subtracting the value of the "Snapshot Reserve" field from the value of the
 "Used" field of the "volume show-space" command.
Corrective Action: Create space by increasing the volume or aggregate sizes, or by deleting data or deleting Snapshot(R)
 copies. To increase a volume's size, use the "volume size" command. To delete a volume's Snapshot(R) copies, use the "volume
 snapshot delete" command. To increase an aggregate's size, add disks by using the "storage aggregate add-disks" command.
 Aggregate Snapshot(R) copies are deleted automatically when the aggregate is full.
   SNMP Trap Type: Built-in
    Is Deprecated: false

Zaslaný email obsahuje předmět a zprávu a pokračuje popisem a nápravnou akcí výše.

Subject: AFF-01: monitor.volume.nearlyFull [ERROR]

Message: monitor.volume.nearlyFull: Aggregate AFF_01_NVME_SSD_1 is nearly full (using or reserving 75% of space and 0%
 of inodes).

Pokud se generuje zpráva při překročení hodnoty plné, tak jde o následující událost. Opět stejnou pro svazek i agregát.

AFF::> event catalog show -message-name monitor.volume.full

     Message Name: monitor.volume.full
         Severity: DEBUG
      Description: This message occurs when one or more file systems are full, typically indicating at least 98% full. This
 event is accompanied by global health monitoring messages for the customer. The space usage is computed based on the active
 file system size and is computed by subtracting the value of the "Snapshot Reserve" field from the value of the "Used"
 field of the "volume show-space" command. The volume/aggregate can be over 100% full due to space used or reserved by
 metadata. A value greater than 100% might cause Snapshot(tm) copy space to become unavailable or cause the volume to become
 logically overallocated. See the "vol.log.overalloc" EMS message for more information.
Corrective Action: NONE
   SNMP Trap Type: Built-in
    Is Deprecated: false

Email obsahuje.

Subject: AFF-02: monitor.volume.full [DEBUG]

Message: monitor.volume.full: Volume HV01lab_vol_01@app:602... is full (using or reserving 87% of space and 0% of inodes).

Při návratu pod prahovou hodnotu se generuje zpráva závažnosti DEBUG monitor.volumes.one.ok a monitor.volume.ok.

Při úplném zaplnění se generují další zprávy jako wafl.vol.full (ALERT), LUN.out.of.space (EMERGENCY).

zobrazeno: 2092krát | Komentáře [0]

Autor:

Související články:

NetApp ONTAP

Články, které se týkají diskových polí NetApp AFF (All Flash FAS) a FAS (Fabric-Attached Storage) s operačním systémem ONTAP.

Computer Storage

Ukládání dat je v počítačovém světě rozsáhlá a komplexní problematika. Zde se nachází články, které se věnují sítím Storage Area Network (SAN), technologiím iSCSI, Fibre Channel, diskovým polím (Storage System, Disk Srray) i obecně ukládání dat a úložištím.

Pokud se chcete vyjádřit k tomuto článku, využijte komentáře níže.

Komentáře

Zatím tento záznam nikdo nekomentoval.

Přidat komentář

Vložit tag: strong em link

Vložit smajlík: :-) ;-) :-( :-O

Nápověda:
  • maximální délka komentáře je 2000 znaků
  • HTML tagy nejsou povoleny (budou odstraněny), použít se mohou pouze speciální tagy (jsou uvedeny nad vstupním polem)
  • nový řádek (ENTER) ukončí odstavec a začne nový
  • pokud odpovídáte na jiný komentář, vložte na začátek odstavce (řádku) číslo komentáře v hranatých závorkách