Dit document beschrijft hoe u fabric-fouten kunt oplossen die in het Cisco Nexus 7000-platform zijn gemeld. Een probleemoplossing van cyclische redundantie checksum (CRC) omvat het verzamelen van gegevens, data-analyse en een eliminatieproces om de probleemcomponent te isoleren. Dit document behandelt de meest voorkomende typen CRC-fouten van stoffen.
Hier is een diagram op hoog niveau van een Nexus 7018 fabric module met M1 lijnkaarten:
De vorige afbeelding geeft een overzicht van de componenten die betrokken zijn wanneer een pakket een fabric module doorkruist. Fase 1 (S1), Fase 2 (S2) en Fase 3 (S3) zijn de drie fases van de Nexus 7000 stof, Octopus is de wachtrijmotor, Santa Cruz (SC) is de stof ASIC, en instantie 1 en 2 zijn de twee SC instanties op de XBAR. Dit document overweegt slechts één XBAR. Denk eraan dat de meeste Nexus 7000 Series switches drie of meer XBAR's hebben geïnstalleerd.
In de aanname dat er een unidirectionele stroom van module 1 (M1) naar module 2 (M2) aanwezig is, voert de entress Octopus-1 op M1 foutcontroles uit op de pakketten die het ontvangt van het zuiden, en de uitgaande Octopus-1 op M2 van het noorden. Als CRC in S3 wordt ontdekt, zou een probleem in S1 of S2 ook kunnen zijn voorgekomen, aangezien geen CRC controle in die stadia wordt uitgevoerd. De apparaten die bij het pad betrokken zijn, zijn de entress Octopus, het chassis, de dwarsbalkstof en de entress Octopus.
In de M1/Fab1-architectuur worden CRC's alleen gedetecteerd op de uitgangslijn (S3).
Hier is een voorbeeld van een foutmelding:
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
Dit wordt gemeld door M1, wat aangeeft dat het pakketten met de verkeerde CRC van Module 15 (M15) via XBAR sleuf 1/instantie 1 ontving.
In dit gedeelte worden vier van de meest voorkomende typen CRC-fouten voor stoffen beschreven.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets withDit betekent dat de module in sleuf 1 een CRC-fout heeft gedetecteerd van M15 via XBAR sleuf 1/instantie 1. De module waar de CRC-fouten vandaan komen, wordt de ingangsmodule genoemd (in dit geval M15), en de module die het probleem heeft gerapporteerd, is de uitgangsmodule (M1). XBAR 1 is de dwarsbalk waarin het pakket is ontvangen. Er zijn twee exemplaren per XBAR. In dit geval, M1 ontdekte CRC fouten van M15 door XBAR groef 1 instantie 1.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets withIn dit bericht rapporteerde module 4 (M4) de CRC-fout van M1. Merk op dat de XBAR informatie ontbreekt. Het systeem kan niet controleren of de XBAR waar het pakket doorheen stroomde. Er zijn vele redenen, maar de meest voorkomende zijn: De informatie in de fabric header van het pakket kan corrupt zijn, zodat de bron module niet kan worden bepaald; de XBAR die werd doorgestuurd wordt verwijderd uit het systeem sinds de fout verhoogd. Dit werd niet vermeld in de syslog-boodschap.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets withIn dit geval, een apparaat ontdekte een CRC van Module 16 (M16) door XBAR 1. Er is echter geen ontvangermodule. Wanneer de Supervisor (SUP) een CRC detecteert die afkomstig is van de fabric module, wordt de sleufinformatie niet vastgelegd. Wanneer u sleufinformatie niet ziet, dan heeft de SUP het probleem gedetecteerd. Dit betekent niet dat de SUP slecht is. Net zoals wanneer de module het probleem rapporteert, zijn er meerdere componenten die het probleem mogelijk hebben veroorzaakt: M16, het chassis (niet zo waarschijnlijk), XBAR 1, of de SUP.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets withDe bronmodule is afgeleid van de indringende Octopus die het slechte pakket afkomstig heeft. Het stuurprogramma dat een onderbreking opheft om deze foutmelding te registreren, kent niet altijd de ingang Octopus van waaruit het slechte pakket is ontstaan. Dit komt doordat sommige bits die worden gebruikt om de entress-octopus voor te stellen, niet worden gebruikt. Als het systeem meerdere modules bepaalt die deze ongebruikte bits aangezet hebben, moet het systeem ervan uitgaan dat een van hen de bron zou kunnen zijn, wat ervoor zorgt dat de foutmelding al die modules bevat. Het systeem stelde vast dat Module 13 (M13) dit conflict niet kan hebben als gevolg van het niet gebruiken van die bits; het is dus niet geregistreerd als een potentiële bron.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
Nieuwe lijnkaarten (M2) en fabric module 2 (FAB2) detecteren CRC's in S1, S2 of S3. Wanneer u in detail onderzoekt en patronen in de mislukking en logberichten vindt, helpt het isoleren van de defecte component.
Hier zijn een paar vragen om te stellen:
De antwoorden op deze vragen stellen u in staat de probleemoplossingsprocedure te benaderen vanuit een hoek die eerder tot een snellere oplossing zal leiden.
Deze sectie stelt een algemeen kader vast dat wordt gebruikt om deze problemen op te lossen.
Deze sectie geeft voorbeelden van hoe u problemen met dezelfde soort oplossingen kunt oplossen.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
Een paar uur lang worden CRC-fouten gezien op M1 en module 3 (M3) die alleen uit module 7 (M7) komen.
Er is een slechte of miszittende XBAR die pakketten met een kop naar M7 corrumpeert, of M7 is slecht of misplaatst.
Als u drie XBARs hebt geïnstalleerd, geeft het u N+1 redundantie. Daarom kunt u ze een voor een afsluiten (nooit meer dan een sluiting op een gegeven moment) met slechts minimale impact om te zien of het probleem is opgelost. Voer deze opdrachten in om dit proces te voltooien:
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
In dit specifieke geval studie, werd het probleem niet opgelost toen de XBARs werden gesloten.
Aangezien er twee modules zijn die CRC-fouten rapporteren, is het onwaarschijnlijk dat die twee modules (M1 en M3) de oorzaak zijn. De volgende stap is om M7 (ingangsmodule) te herstellen, omdat het waarschijnlijk de defecte component is. Mis-zittende lijnkaarten kunnen dit probleem veroorzaken, en het wordt geadviseerd om de module vóór vervanging te herstellen.
In dit onderzoek bleven CRC-fouten toenemen bij de fabric-module na een herhaling van M7. Neem op dit punt (of eerder) contact op met het Cisco Technical Assistance Center (TAC) om de M7 te vervangen, aangezien een herhaling het probleem niet oplost.
In deze casestudy, de vervanging van M7 stopte de stof CRC foutmeldingen, en loste het pakketverlies op.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
Meervoudige modules rapporteren CRC-fouten van module 12 (M12) die door XBAR 3 gaan.
XBAR 3 is slecht of zit niet goed, of M12 zit niet goed of is defect.
In dit geval wordt XBAR 3 afgesloten met de eerder beschreven procedure (in de eerste casestudy) en gecontroleerd op verdere fouten. Geconstateerd werd dat de fouten ophielden toen XBAR 3 werd gesloten. Op dit punt wordt XBAR 3 opnieuw gecreëerd en wordt er op toegezien dat er geen pinnen worden gebogen op de middenvlak en dat de module goed wordt ingebracht. Nadat XBAR 3 opnieuw is ingeschakeld, komt het probleem nooit meer voor. Dit probleem wordt toegeschreven aan een verkeerd zittende XBAR module.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
Module 6 (M6) meldt pakketten met CRC-fouten die van meerdere lijnkaarten en XBAR’s zijn ontvangen.
M6 zit verkeerd of slecht.
M6 is de meest waarschijnlijke oorzaak van dit probleem omdat het de enige gemeenschappelijke modules in alle foutmeldingen is. Van alle modules die in de foutmeldingen worden vermeld, is de module die het meest consistent wordt weergegeven M6. Probeer daarom M6 opnieuw te starten om te zien of het probleem is opgelost voordat u het vervangt.
In dit geval wordt M6 opnieuw gecreëerd, maar de fouten blijven bestaan. U moet dus een Cisco TAC-case openen om M6 te laten vervangen. Nadat M6 is vervangen, worden de fouten niet gerapporteerd.
Hier is een lijst van de opdrachten die worden gebruikt voor probleemoplossing/debuggen:
Revisie | Publicatiedatum | Opmerkingen |
---|---|---|
1.0 |
13-Aug-2013 |
Eerste vrijgave |