NetApp ONTAP chyby na síťových portech

Popis chyby

Chybu si můžeme zobrazit v Event Logu v ONTAP System Manager. Pokud máme nastaveno, tak nám dorazí na email. Její obsah vypadá následně.

Node: AFF-01
Time: Thu, Oct 21 17:36:40 2021 +0200
Severity: ALERT

Message: vifmgr.cluscheck.hwerrors: Port e2b on node AFF-01 is reporting a high number (at least 1 per 1000 packets) of
 observed hardware errors (CRC, length, alignment, dropped).

Description: This message occurs when a network device reports a high number of observed hardware errors, such as CRC errors
, length errors, alignment errors, or dropped frames.

Corrective Action: The errors could be originating from the specified port, a remote port, or a port on another component of
 the network. Check the statistics for both the port and the switch. Contact NetApp technical support for assistance
 and specific instructions.

Source: vifmgr
Sequence#: 143803

Zobrazení statistik rozhraní (Interface - Port)

Pomocí příkazové řádky v Node Shell si můžeme zobrazit statistiky portu, kde jsou počítadla různých typů chyb a další údaje.

Zobrazení jednoho portu

system node run -node <nodename> -command ifstat <interface>

AFF::> system node run -node AFF-02 -command ifstat e2c

-- interface  e2c  (18 days, 14 hours, 17 minutes, 57 seconds) --

RECEIVE
 Total frames:      890m | Frames/second:     554  | Total bytes:      3354g
 Bytes/second:     2088k | Total errors:     1148  | Errors/minute:       0 
 Total discards:      0  | Discards/minute:     0  | Multi/broadcast:  1515k
 Non-primary u/c:     0  | Errored frames:      0  | Unsupported Op:      0 
 CRC errors:        534  | Runt frames:         0  | Fragment:            0 
 Long frames:        43  | Jabber:              0  | Length errors:      37 
 Alignment errors:    0  | No buffer:           0  | Pause:               0 
 Jumbo:             411m | Error symbol:      534  | Bus overruns:        0 
 Queue drops:         0  | LRO segments:      737m | LRO bytes:        3342g
 LRO6 segments:       0  | LRO6 bytes:          0  | Bad UDP cksum:       0 
 Bad UDP6 cksum:      0  | Bad TCP cksum:       0  | Bad TCP6 cksum:      0 
 Mcast v6 solicit:    0  | Lagg errors:         0  | Lacp errors:         0 
 Lacp PDU errors:     0 
TRANSMIT
 Total frames:     1041m | Frames/second:     648  | Total bytes:      6336g
 Bytes/second:     3943k | Total errors:        0  | Errors/minute:       0 
 Total discards:      0  | Queue overflow:      0  | Multi/broadcast:   107k
 Collisions:          0  | Pause:               0  | Jumbo:             760m
 Cfg Up to Downs:     0  | TSO segments:      101m | TSO bytes:        5792g
 TSO6 segments:       0  | TSO6 bytes:          0  | HW UDP cksums:       0 
 HW UDP6 cksums:      0  | HW TCP cksums:       0  | HW TCP6 cksums:      0 
 Mcast v6 solicit:    0  | Lagg drops:          0  | Lagg no buffer:      0 
 Lagg no entries:     0 
DEVICE
 Mcast addresses:     3  | Rx MBuf Sz:       9216 
LINK INFO
 Speed:           10000M | Duplex:            full | Flowcontrol:      full
 Media state:     active | Up to downs:          2 | HW assist:        5655

Je zde uveden celkový počet chyb za uvedené období a následný rozpad na různé typy chyb. Zde zaznamenané chyby jsou CRC errors, Long frames, Error symbol a Length errors. Možné jsou i další chyby, jako Alignment errors.

Zobrazení všech portů

Zobrazit můžeme statistiky pro všechny porty najednou.

system node run -node <nodename> -command ifstat -a

Vymazání statistik na portu

Abychom mohli jednodušeji sledovat statistiky po nějaké změně, tak můžeme počítadlo na portu vymazat.

system node run -node <nodename> -command ifstat -z <interface>

AFF::> system node run -node AFF-02 -command ifstat -z e2c
-- interface  e2c  (23 days, 14 hours, 10 minutes, 55 seconds) --

Možné příčiny chyb na portu

Asi první krok je kontrola aktivních prvků (switchů), kde by se v řadě případů měly také zobrazovat chyby na portech. Mohl by se tak nalézt port, odkud chyby přichází. Složitější jsou situace, kdy zde žádné chyby nejsou. Běžná je kontrola kabeláže, SFP modulů apod. Další možnost je ověřit MTU na prvcích v (SAN) síti.

Později se mi podařilo nalézt celou řadu článků v KB NetApp, které radí různé možnosti a příčiny chyb.

Flowcontrol jiné nastavení na poli a switchi

První článek popisuje, že se objevují CRC chyby při výměně kontrolerů. To ale není tolik podstatné, jako zmínka, že je důležité, aby byl stejně nastaven Flowcontrol na portech NetApp node a portech switche, kde je připojeno (obecně v celé síti). Předchozí příkaz, pro zobrazení statistik portu, také ukazuje nastavení Flowcontrol. Může být Flowcontrol: full, což je asi již nějakou dobou u NetAppu výchozí hodnota. Nebo Flowcontrol: none.

Já jsem tuto věc nikdy dříve neřešil. Podíval jsem se na switche, což jsou Cisco Nexus pro SAN a Cisco Catalyst pro LAN a u obou je flow-control vypnutý.

iSCSI1# sh int Eth1/50/1 | inc flow
  Input flow-control is off, output flow-control is off

LAN1#sh int Gi1/0/47 | inc flow
  input flow-control is off, output flow-control is unsupported

Další uvedené články popisují různé názory, zda je lepší mít Flowcontrol zapnutý nebo vypnutý. Ale hlavní je, že by v celé síti mělo být nastaveno stejně. Proto můžeme na NetApp vypnout. Způsobí to reset portu, tedy jeho výpadek. Ale určitě bychom měli mít redundanci, tak by to neměl být problém.

net port modify -node <node that owns port> -port <port> -flowcontrol-admin none

AFF::> network port modify -node AFF-01 -port e2c -flowcontrol-admin none

Warning: This command will cause a several second interruption of service on this network
         port.
Do you want to continue? {y|n}: y

CRC errors - chyba komponenty

CRC chyby jsou chyby na médiu. Mohou být způsobeny chybným kabelem či SFP modulem. Také mohou být propagovány ze sítě. Musíme zkontrolovat spojení mezi portem s chybou a dalším připojeným zařízením. Zkontrolovat samotný port. Vyměnit SFP.

Long frames - velké MTU

Ifstat output reports long frames

Pokud se nám ve statistikách portu objevují Long frames, tak to znamená že přichází rámce, které mají větší Maximum Transfer Unit (MTU) než je nastaveno na daném portu. Musíme projít servery, které se připojují k poli, zda nemají nastavenu větší hodnotu.

Error symbol - chyba komponenty

Error symbol and Illegal symbol count incrementing on a NIC port

Pokud se ve statistikách objevují Error symbol, tak NetApp uvádí, že jde o hardwarovou chybu komponenty. Chyba nastává při přenosu z fyzicky připojeného zařízení. Nemůže být propagováno ze sítě. Máme zkontrolovat síťovou kartu a SFP na NetAppu, na připojeném zařízení (switch), spojující kabel a dobré zapojení kabelu.

Length errors

První popis se týká pouze určitých typů rozhraní či karty (X1143A). Ale snad se dá použít, že malý počet těchto chyb je možno ignorovat. Další článek zmiňuje nekompatibilní twinax kabel.