Pozn.: Článek vychází z verze ONTAP 9.9.1.
Zobrazení systémových událostí (logů)
- event log show
- How to efficiently search the event log in clustered Data ONTAP (jde o starý článek pro ONTAP 8.2, kde existovalo více stupňů závažnosti)
Stupeň závažnosti (Severity Level)
- EMERGENCY - Disruption
- ALERT - Single point of failure
- ERROR - Degradation
- NOTICE - Information
- INFORMATIONAL - Information
- DEBUG - Debug information
Výpis událostí pomocí CLI
V CLI máme příkaz, s řadou parametrů, pro zobrazení obsahu logu událostí (Event Log). Defaultně se zobrazují nejnovější události první s hodnotami čas, kdy událost nastala, na kterém uzlu clusteru, závažnost události a text události.
event log show
Pro více detailů můžeme přidat parametr detail, ale ještě více zobrazí instance.
event log show -detail event log show -instance
Ve výchozím stavu se zobrazují pouze události se závažností EMERGENCY, ALERT a ERROR. Změnit můžeme určením závažnosti.
event log show -severity DEBUG event log show -severity <=NOTICE
Filtrovat můžeme podle jména zprávy (Message Name)
event log show -message-name secd.*
Nebo celého obsahu (textu) události (a pomocí dalších parametrů, které zde neuvádíme)
event log show -event *Aggregate*
Události můžeme vybírat podle času, třeba za posledních 10 minut nebo určením intervalu.
event log show -time >10m event log show -time "11/30/2021 1:00:00".."11/30/2021 22:00:00"
Pozn.: V praxi většinou potřebujeme různé parametry kombinovat.
Podle informací v The 'event log show' command displays only 3 days or 2048 events příkaz pracuje pouze s posledními 3 dny nebo 2048 záznamy. Počítají se všechny EMS zprávy, takže je to většinou jen krátký časový úsek.
Článek popisuje i různé možnosti, jak pracovat se staršími logy. Například stáhnout soubory s logy. To můžeme jednoduše přes webové rozhraní Service Processor infrastructure (SPI), adresa http(s)://<cluster-mgmt-ip>/spi/
(adresa clusteru plus /spi).
Zobrazení událostí pomocí ONTAP System Manager
- Events & Jobs - Events
Na webu si můžeme zobrazit události, můžeme v nich filtrovat a vyhledávat. Zobrazení ovšem není zrovna svižné.
Také mám zvláštní chování na jednom NetApp poli s ONTAP 9.9.1P3 a nedohledal jsem, zda je to vlastnost nebo chyba. Zde se mi zobrazují pouze události se závažností EMERGENCY, ALERT and ERROR. Kdežto na starším poli s ONTAP 9.8P7 jsou vidět všechny závažnosti (všechny kategorie se nabízí i ve filtru).
Nastavení upozornění na systémové události (posílání na mail)
Pozn.: Podle dokumentace bude od ONTAP 9.10.1 možno konfigurovat pomocí (GUI) System Manager, jak EMS doručuje upozornění na události. Ve starších verzích je nutno využít CLI.
Vybrané události můžeme odesílat přímo na email, Syslog server, REST API klienta (WebHooks) nebo jako SNMP trap. Konfigurace je dost podobná, zde se zaměříme na posílání emailů.
Zadání SMTP serveru
Nastavení poštovního SMTP serveru (nenabízí příliš možností).
event config modify -mail-server SERVER.FIRMA.CZ -mail-from EMAIL@FIRMA.CZ
Vytvoření příjemců (email adresy)
Vytvoření emailových příjemců (obecně definujeme různé příjemce notifikací), vždy jde o jednu adresu, takže pro více adres musíme definovat několik záznamů nebo využít distribuční skupinu.
event notification destination create -name ADMIN1 -email PRIJEMCE1@FIRMA.CZ event notification destination create -name ADMIN2 -email PRIJEMCE2@FIRMA.CZ
Výběr odesílaných událostí (filtr)
Události, které nás zajímají a chceme na ně být upozornění, se vybírají pomocí filtru událostí (Event Filter). Je tvořen jedním nebo více pravidly (Rule), která se prochází odshora dolů, dokud nedojde ke shodě (First Fit). Na konci je implicitní pravidlo, které zachytí vše a vyřadí (Exclude).
Pravidlo může být typu include (zpráva odpovídající pravidlu se vloží) nebo exclude (nevloží). V pravidle zadáváme jméno (zprávy) události (message-name), závažnost (severity) a typ SNMP Trap (snmp-trap-type). Tyto tři položky se vyhodnocují pomocí logického AND. Když je v položce více hodnot, tak se použije logické OR. Hvězdička (*) je zástupný znak pro vše (můžeme kombinovat s dalšími znaky).
Filtr můžeme využít předdefinovaný nebo vytvořit vlastní. Výpis existujících filtrů spolu s pravidly:
event filter show
Systémem definované jsou 3 filtry událostí
- important-events - všechny události ALERT a EMERGENCY
- no-info-debug-events - všechny události EMERGENCY, ALERT, ERROR a NOTICE (ne INFO a DEBUG)
- default-trap-events - všechny události ALERT a EMERGENCY a všechny Standard a Built-in SNMP trapy
Vytvoření nového filtru událostí (vybírá všechny události EMERGENCY, ALERT, ERROR, plus události o zaplnění agregátu nebo svazku)
event filter create -filter-name important-events-2 event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volume.full event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volumes.one.ok event filter rule add -filter-name important-events-2 -type include -severity DEBUG -message-name monitor.volume.ok event filter rule add -filter-name important-events-2 -type include -severity EMERGENCY,ALERT,ERROR
Vyřazení určité zprávy ze zasílání
event filter rule add -filter-name important-events-2 -type exclude -message-name tsse.scan.start.failed event filter rule reorder -filter-name important-events-2 -position 4 -to-position 5
Nastavení zasílání upozornění
Poslední krok je spojení filtru událostí a jednoho nebo více příjemců (cílů) vytvořením Event Notification. Jakmile vytvoříme, tak začne odesílání fungovat.
event notification create -filter-name no-info-debug-events -destinations ADMIN1,ADMIN2
Úprava nebo mazání se provádí pomocí ID, které se zobrazuje při výpisu.
event notification show event notification modify -ID 3 -destinations ADMIN3 event notification modify -ID 3 -filter-name important-events-2 event notification delete -ID 1
Můžeme si také vypsat historii události, které byly zaslány na určitý cíl notifikací (email).
event notification history show -destination admin1
Katalog událostí
Máme k dispozici příkaz, který nám vypíše události podle zadaného filtru nebo detail jedné události.
AFF::> event catalog show -message-name *nearlyFull* Message Severity SNMP Trap Type -------------------------------- ---------------- ----------------- fg.inodes.member.nearlyFull ALERT Severity-based fg.space.member.nearlyFull ALERT Severity-based monitor.volume.nearlyFull ERROR Built-in 3 entries were displayed. event catalog show -message-name monitor.volume.nearlyFull
Další příkaz shrnuje informace o výskytech událostí.
event status show -message-name *nearlyFull*
Sledování zaplnění agregátů a svazků
- How to configure Aggregate and Volume Nearly Full and Full Thresholds in Clustered Data ONTAP 8 and ONTAP 9
- Address aggregate fullness and overallocation alerts
- How the FlexVol volume and aggregate fullness alerts work (starý popis, který již není úplně aktuální)
Hodnoty téměř plné a plné (Nearly Full and Full Thresholds)
Pro svazky (Volume) a agregáty (Aggregate) se definují procentuální hodnoty, kdy je považován za
- téměř plný - EMS generuje chybu (ERROR), defaultně 95%, 0 znamená vypnuto, maximum 99%
- plný - EMS generuje zprávu (DEBUG), defaultně 98%, 0 znamená vypnuto, maximum 100%
EMS zpráva se generuje při každém překročení prahové hodnoty. Pokud zaplnění stoupá, tak jde o ERROR/DEBUG, pokud klesá, tak o OK. Pokud nastavíme zasílání upozornění na tyto události, tak nás to může včas informovat na docházející místo ve svazku nebo agregátu.
Prahové hodnoty pro agregát (Aggregate Thresholds)
Zobrazení aktuálního nastavení. Můžeme zobrazit všechny položky určitého agregátu nebo jen prahové hodnoty pro všechny či určitý agregát.
storage aggregate show -aggregate AFF_01_NVME_SSD_1 storage aggregate show -fields space-nearly-full-threshold-percent,space-full-threshold-percent
Změnit můžeme jednu nebo obě hodnoty určitého agregátu.
storage aggregate modify AFF_01_NVME_SSD_1 -space-nearly-full-threshold-percent 90 -space-full-threshold-percent 95
Prahové hodnoty pro svazek (Volume Thresholds)
Zobrazení aktuálního nastavení.
volume show -fields space-nearly-full-threshold-percent,space-full-threshold-percent
Změna hodnot.
volume modify -volume Server_vol -vserver svm-iscsi -space-nearly-full-threshold-percen 94 -space-full-threshold-percent 97
Můžeme také nastavit více svazků najednou.
volume modify -volume VMware* -space-nearly-full-threshold-percen 90 -space-full-threshold-percent 95
EMS zprávy pro události
Pokud se generuje zpráva při překročení hodnoty téměř plné, tak jde o následující událost. Je stejná, jestli se jedná o svazek nebo agregát.
AFF::> event catalog show -message-name monitor.volume.nearlyFull Message Name: monitor.volume.nearlyFull Severity: ERROR Description: This message occurs when one or more file systems are nearly full, typically indicating at least 95% full. This event is accompanied by global health monitoring messages for the customer. The space usage is computed based on the active file system size and is computed by subtracting the value of the "Snapshot Reserve" field from the value of the "Used" field of the "volume show-space" command. Corrective Action: Create space by increasing the volume or aggregate sizes, or by deleting data or deleting Snapshot(R) copies. To increase a volume's size, use the "volume size" command. To delete a volume's Snapshot(R) copies, use the "volume snapshot delete" command. To increase an aggregate's size, add disks by using the "storage aggregate add-disks" command. Aggregate Snapshot(R) copies are deleted automatically when the aggregate is full. SNMP Trap Type: Built-in Is Deprecated: false
Zaslaný email obsahuje předmět a zprávu a pokračuje popisem a nápravnou akcí výše.
Subject: AFF-01: monitor.volume.nearlyFull [ERROR] Message: monitor.volume.nearlyFull: Aggregate AFF_01_NVME_SSD_1 is nearly full (using or reserving 75% of space and 0% of inodes).
Pokud se generuje zpráva při překročení hodnoty plné, tak jde o následující událost. Opět stejnou pro svazek i agregát.
AFF::> event catalog show -message-name monitor.volume.full Message Name: monitor.volume.full Severity: DEBUG Description: This message occurs when one or more file systems are full, typically indicating at least 98% full. This event is accompanied by global health monitoring messages for the customer. The space usage is computed based on the active file system size and is computed by subtracting the value of the "Snapshot Reserve" field from the value of the "Used" field of the "volume show-space" command. The volume/aggregate can be over 100% full due to space used or reserved by metadata. A value greater than 100% might cause Snapshot(tm) copy space to become unavailable or cause the volume to become logically overallocated. See the "vol.log.overalloc" EMS message for more information. Corrective Action: NONE SNMP Trap Type: Built-in Is Deprecated: false
Email obsahuje.
Subject: AFF-02: monitor.volume.full [DEBUG] Message: monitor.volume.full: Volume HV01lab_vol_01@app:602... is full (using or reserving 87% of space and 0% of inodes).
Při návratu pod prahovou hodnotu se generuje zpráva závažnosti DEBUG monitor.volumes.one.ok
a monitor.volume.ok
.
Při úplném zaplnění se generují další zprávy jako wafl.vol.full
(ALERT), LUN.out.of.space
(EMERGENCY).
Zatím zde nejsou žádné komentáře.