Popis chyby
Chybu si můžeme zobrazit v Event Logu v ONTAP System Manager. Pokud máme nastaveno, tak nám dorazí na email. Její obsah vypadá následně.
Node: AFF-01 Time: Thu, Oct 21 17:36:40 2021 +0200 Severity: ALERT Message: vifmgr.cluscheck.hwerrors: Port e2b on node AFF-01 is reporting a high number (at least 1 per 1000 packets) of observed hardware errors (CRC, length, alignment, dropped). Description: This message occurs when a network device reports a high number of observed hardware errors, such as CRC errors , length errors, alignment errors, or dropped frames. Corrective Action: The errors could be originating from the specified port, a remote port, or a port on another component of the network. Check the statistics for both the port and the switch. Contact NetApp technical support for assistance and specific instructions. Source: vifmgr Sequence#: 143803
Zobrazení statistik rozhraní (Interface - Port)
Pomocí příkazové řádky v Node Shell si můžeme zobrazit statistiky portu, kde jsou počítadla různých typů chyb a další údaje.
Zobrazení jednoho portu
system node run -node <nodename> -command ifstat <interface> AFF::> system node run -node AFF-02 -command ifstat e2c -- interface e2c (18 days, 14 hours, 17 minutes, 57 seconds) -- RECEIVE Total frames: 890m | Frames/second: 554 | Total bytes: 3354g Bytes/second: 2088k | Total errors: 1148 | Errors/minute: 0 Total discards: 0 | Discards/minute: 0 | Multi/broadcast: 1515k Non-primary u/c: 0 | Errored frames: 0 | Unsupported Op: 0 CRC errors: 534 | Runt frames: 0 | Fragment: 0 Long frames: 43 | Jabber: 0 | Length errors: 37 Alignment errors: 0 | No buffer: 0 | Pause: 0 Jumbo: 411m | Error symbol: 534 | Bus overruns: 0 Queue drops: 0 | LRO segments: 737m | LRO bytes: 3342g LRO6 segments: 0 | LRO6 bytes: 0 | Bad UDP cksum: 0 Bad UDP6 cksum: 0 | Bad TCP cksum: 0 | Bad TCP6 cksum: 0 Mcast v6 solicit: 0 | Lagg errors: 0 | Lacp errors: 0 Lacp PDU errors: 0 TRANSMIT Total frames: 1041m | Frames/second: 648 | Total bytes: 6336g Bytes/second: 3943k | Total errors: 0 | Errors/minute: 0 Total discards: 0 | Queue overflow: 0 | Multi/broadcast: 107k Collisions: 0 | Pause: 0 | Jumbo: 760m Cfg Up to Downs: 0 | TSO segments: 101m | TSO bytes: 5792g TSO6 segments: 0 | TSO6 bytes: 0 | HW UDP cksums: 0 HW UDP6 cksums: 0 | HW TCP cksums: 0 | HW TCP6 cksums: 0 Mcast v6 solicit: 0 | Lagg drops: 0 | Lagg no buffer: 0 Lagg no entries: 0 DEVICE Mcast addresses: 3 | Rx MBuf Sz: 9216 LINK INFO Speed: 10000M | Duplex: full | Flowcontrol: full Media state: active | Up to downs: 2 | HW assist: 5655
Je zde uveden celkový počet chyb za uvedené období a následný rozpad na různé typy chyb. Zde zaznamenané chyby jsou CRC errors, Long frames, Error symbol a Length errors. Možné jsou i další chyby, jako Alignment errors.
Zobrazení všech portů
Zobrazit můžeme statistiky pro všechny porty najednou.
system node run -node <nodename> -command ifstat -a
Vymazání statistik na portu
Abychom mohli jednodušeji sledovat statistiky po nějaké změně, tak můžeme počítadlo na portu vymazat.
system node run -node <nodename> -command ifstat -z <interface> AFF::> system node run -node AFF-02 -command ifstat -z e2c -- interface e2c (23 days, 14 hours, 10 minutes, 55 seconds) --
Možné příčiny chyb na portu
Asi první krok je kontrola aktivních prvků (switchů), kde by se v řadě případů měly také zobrazovat chyby na portech. Mohl by se tak nalézt port, odkud chyby přichází. Složitější jsou situace, kdy zde žádné chyby nejsou. Běžná je kontrola kabeláže, SFP modulů apod. Další možnost je ověřit MTU na prvcích v (SAN) síti.
Později se mi podařilo nalézt celou řadu článků v KB NetApp, které radí různé možnosti a příčiny chyb.
Flowcontrol jiné nastavení na poli a switchi
- CRC Errors seen on data ports after a head upgrade
- What are the flow control best practices for Ethernet?
- What is the potential impact of PAUSE frames on a network connection?
- Configuring Link Level Flow Control
- To flow or not to flow? - Cisco Blogs
První článek popisuje, že se objevují CRC chyby při výměně kontrolerů. To ale není tolik podstatné, jako zmínka, že je důležité, aby byl stejně nastaven Flowcontrol na portech NetApp node a portech switche, kde je připojeno (obecně v celé síti). Předchozí příkaz, pro zobrazení statistik portu, také ukazuje nastavení Flowcontrol. Může být Flowcontrol: full
, což je asi již nějakou dobou u NetAppu výchozí hodnota. Nebo Flowcontrol: none
.
Já jsem tuto věc nikdy dříve neřešil. Podíval jsem se na switche, což jsou Cisco Nexus pro SAN a Cisco Catalyst pro LAN a u obou je flow-control vypnutý.
iSCSI1# sh int Eth1/50/1 | inc flow Input flow-control is off, output flow-control is off LAN1#sh int Gi1/0/47 | inc flow input flow-control is off, output flow-control is unsupported
Další uvedené články popisují různé názory, zda je lepší mít Flowcontrol zapnutý nebo vypnutý. Ale hlavní je, že by v celé síti mělo být nastaveno stejně. Proto můžeme na NetApp vypnout. Způsobí to reset portu, tedy jeho výpadek. Ale určitě bychom měli mít redundanci, tak by to neměl být problém.
net port modify -node <node that owns port> -port <port> -flowcontrol-admin none AFF::> network port modify -node AFF-01 -port e2c -flowcontrol-admin none Warning: This command will cause a several second interruption of service on this network port. Do you want to continue? {y|n}: y
CRC errors - chyba komponenty
- CRC errors received on a single NIC port
- NIC port seeing CRC errors in ifstat
- Cluster Network Degraded alerts reported multiple times due to errors on cluster ports
CRC chyby jsou chyby na médiu. Mohou být způsobeny chybným kabelem či SFP modulem. Také mohou být propagovány ze sítě. Musíme zkontrolovat spojení mezi portem s chybou a dalším připojeným zařízením. Zkontrolovat samotný port. Vyměnit SFP.
Long frames - velké MTU
Pokud se nám ve statistikách portu objevují Long frames, tak to znamená že přichází rámce, které mají větší Maximum Transfer Unit (MTU) než je nastaveno na daném portu. Musíme projít servery, které se připojují k poli, zda nemají nastavenu větší hodnotu.
Error symbol - chyba komponenty
Pokud se ve statistikách objevují Error symbol, tak NetApp uvádí, že jde o hardwarovou chybu komponenty. Chyba nastává při přenosu z fyzicky připojeného zařízení. Nemůže být propagováno ze sítě. Máme zkontrolovat síťovou kartu a SFP na NetAppu, na připojeném zařízení (switch), spojující kabel a dobré zapojení kabelu.
Length errors
- ONTAP reports length errors in ifstat output
- Length Errors Incrementing on Data Network Ports
- Unknown length error counts up
- Incrementing frame length errors on port interface
První popis se týká pouze určitých typů rozhraní či karty (X1143A). Ale snad se dá použít, že malý počet těchto chyb je možno ignorovat. Další článek zmiňuje nekompatibilní twinax kabel.
Zatím zde nejsou žádné komentáře.