Dit document legt de stappen uit om problemen op te lossen en te isoleren welk deel of component van Cisco 7200 mislukt wanneer u een verscheidenheid aan parity foutmeldingen identificeert. We raden u aan om routerfouten voor probleemoplossing te lezen en processorgeheugen fouten (PMPE’s) te lezen voordat u doorgaat met dit document.
Opmerking: de informatie in dit document is gebaseerd op Cisco 7200 Series routers.
Er zijn geen specifieke voorwaarden van toepassing op dit document.
Dit document is niet beperkt tot specifieke software- en hardware-versies.
De informatie in dit document is gebaseerd op apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als u in een levend netwerk werkt, zorg er dan voor dat u de mogelijke impact van een opdracht begrijpt voordat u het gebruikt.
Raadpleeg Cisco Technical Tips Conventions (Conventies voor technische tips van Cisco) voor meer informatie over documentconventies.
In dit diagram worden de stappen beschreven om te bepalen welk deel of component van Cisco 7200 niet werkt wanneer u een verscheidenheid aan parity foutmeldingen identificeert.
Opmerking: Opnemen en opnemen van de loggen voor technische ondersteuning en console van de show en verzamelen van alle crashinformatie bestanden tijdens parity error gebeurtenissen.
Deze sectie bevat blokdiagrammen van het NPE en waar deze systemen pariteitsfouten detecteren. U vindt hieronder een beschrijving van elk type foutmelding.
NPE-300 gebruikt parity check in gedeeld geheugen (SDRAM), PCI-bus en de externe interface van de CPU om het systeem met bit fouten te beveiligen. pariteitscontroles kunnen een enkele bit-fout detecteren met een eenvoudige methode; het toevoegen van één controlebit per acht bits gegevens. Als het een beetje fout detecteert bij het overbrengen van de gegevens tussen hardwareonderdelen, verwijdert het systeem de verkeerde gegevens. Enkele bit fouten op elke locatie in het diagram hierboven veroorzaken de router om te resetten.
NPE-400 gebruikt Single Bit Error Correction en Multi-bit Error Detectie ECC (Error Code Correction) voor gedeeld geheugen (SDRAM). Om de beschikbaarheid van het systeem in NPE-400 te verhogen corrigeert ECC enkele bit fouten in SDRAM, zodat het systeem normaal kan functioneren zonder resetten en zonder down time. Raadpleeg de pagina Verhoogde netwerkbeschikbaarheid voor meer informatie over de manier waarop ECC de beschikbaarheid van het systeem verbetert.
Een multi-bit fout in SDRAM veroorzaakt dat de router opnieuw wordt ingesteld met een cache fout of een bus fout. De rest van het geheugen en de bussen in het systeem gebruiken eenbits pariteitsdetectie. Enkele bit fouten bij 1 en 3 in het diagram hierboven veroorzaken de router om te resetten.
Verschillende apparaten van de parity controle op de router C7200/NPE kunnen gegevens met slechte pariteit voor om het even welke lees- of schrijfverrichting rapporteren. Hier volgt een beschrijving van de verschillende foutmeldingen die op een C7200/NPE-systeem zijn gemeld:
Deze fout wordt gemeld wanneer een GT64120 systeemcontroller een pariteitsfout detecteert bij het lezen van SDRAM:
%ERR-1GT64120 (PCI0):Fatal error, Memory parity error (external) GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200 Bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x1C000000
Vervang SDRAM na een tweede mislukking. Als de fout blijft optreden, vervangt u de NPE.
OPMERKING: Voor oudere NPE's (NPE-100/150/2000) die de GT64010-controllers gebruiken, ziet de fout er zo uit:
%ERR-1-GT64010: Fatal error, Memory parity error (external) cause=0x0300E283, mask=0x0CD01F00, real_cause=0x00000200 bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000000
De GT64010-controller gebruikt Dynamic RAM (DRAM) en niet SDRAM. Vervang in dit geval de DRAM na een tweede storing. Als de fout blijft optreden, vervangt u de NPE.
Een pariteitsfout in Master Read is een pariteitsfout die wordt veroorzaakt door het benaderen van een Perifere Component Interconnect (PCI) brug. Hier is een voorbeeld van parity error output:
%ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000 Bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470 %ERR-1-SERR: PCI bus system/parity error %ERR-1-FATAL: Fatal error interrupt, No reloading Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
Vervang de juiste component na een tweede storing. Het systeem bridge-dumpen geeft aan welke component moet worden vervangen.
System bridge dump: Bridge 1, for PA bay 1, 3 and 5. Handle=1 DEC21150 bridge chip, config=0x0 (0x1C):sec status, io base =0x83A09141 Detected Parity Error on secondary bus Data Parity Detected on secondary bus (0x20):mem base & limit =0x4AF04880
Deze tabellen vertellen u welke component een mogelijk probleem heeft in de uitvoer van de foutmelding.
Bridge number | Waar is de brug voor | Pariteitsfout in primaire bus | Pariteitsfout in secundaire bus |
---|---|---|---|
Bridge 0 | Downstream MB0 tot MB1 0 | Vervang de NPE | Vervang NPE; indien nog aanwezig, vervang het chassis |
Brug 1 | Upstream MB1 naar MB0 | Vervang NPE; indien nog aanwezig, vervang het chassis | Vervang de NPE |
Brug 2 | Downstream MB0 tot MB2 | Vervang de NPE | Vervang NPE; indien nog aanwezig, vervang het chassis |
Brug 3 | Upstream MB2 naar MB0 | Vervang NPE; indien nog aanwezig, vervang het chassis | Vervang de NPE |
Bridge number | Waar is de brug voor | Pariteitsfout in primaire bus | Pariteitsfout in secundaire bus |
---|---|---|---|
Bridge 0 | Voor PA-lade 0 (I/O-kaart, PCMCIA, interfaces | Vervang de NPE | Vervang NPE; indien nog aanwezig, vervang de I/O-kaart. Indien nog aanwezig, vervang chassis |
Brug 1 | Voor PA-lade 1, 3 en 5 | Vervang de NPE | Vervang de NFE; indien nog aanwezig, vervang het chassis |
Brug 2 | Voor PA-lade 2, 4 en 6 | Vervang de NPE | Vervang NPE; indien nog aanwezig, vervang het chassis |
Bridge number | Waar is de brug voor | Pariteitsfout in primaire bus | Pariteitsfout in secundaire bus |
---|---|---|---|
Brug 4 | Poortadapter 1 | Vervang NPE; indien nog aanwezig, vervang het chassis | Vervang PA 1; indien nog aanwezig, vervang het chassis |
Bridge 5 | Poortadapter 2 | Vervang NPE; indien nog aanwezig, vervang het chassis | Vervangen van PA 2; indien nog aanwezig, vervang het chassis |
Bridge 6 | Poortadapter 3 | Vervang NPE; indien nog aanwezig, vervang het chassis | Vervang PA 3; indien nog aanwezig, vervang het chassis |
Bridge 7 | Poortadapter 4 | Vervang NPE; indien nog aanwezig, vervang het chassis | Vervang PA 4; indien nog aanwezig, vervang het chassis |
Bridge 8 | Poortadapter 5 | Vervang NPE; indien nog aanwezig, vervang het chassis | Vervang PA 5; indien nog aanwezig, vervang het chassis |
Bridge 9 | Poortadapter 6 | Vervang NPE; indien nog aanwezig, vervang het chassis | Vervang PA 6; indien nog aanwezig, vervang het chassis |
Net als bij alle computer- en netwerkapparaten is NPE vatbaar voor het zeldzame optreden van pariteitsfouten in processorgeheugen. Pariteitsfouten kunnen ervoor zorgen dat het systeem opnieuw wordt ingesteld en kunnen een tijdelijke Single Event Upset (SEU of soft error) zijn of meerdere malen voorkomen (vaak aangeduid als harde fouten) als gevolg van beschadigde hardware. Raadpleeg voor meer informatie over SEU’s de pagina Verhoogde netwerkbeschikbaarheid. Een CPU-pariteitsfout wordt gerapporteerd als de CPU een pariteitsfout detecteert bij de toegang tot een van de caches van de processor (L1, L2 of, indien aanwezig, L3).
Hier zijn vier voorbeelden van dit soort fouten:
Error: SysAD, data cache, fields: data, 1st dword Physical addr(21:3) 0x195BE88, Virtual address is imprecise. Imprecise Data Parity Error Imprecise Data Parity Error
NPE heeft een R7K processor met niet-blokkerend cache. Niet-blokkerend cache betekent dat wanneer een instructie wordt uitgevoerd om gegevens in een register te laden en deze gegevens niet in het L1-cache zijn opgeslagen, de CPU de gegevens uit een lagere order of uit SDRAM-gegevens oplaadt. De CPU blokkeert de uitvoering van verdere instructies niet, tenzij er een ander cacheprobleem is of een andere instructie afhankelijk is van het laden van de gegevens. Dit kan de processor sterk versnellen en de prestaties verbeteren, maar kan ook leiden tot onnauwkeurige pariteitsfouten. Een onnauwkeurige pariteitsfout is wanneer de CPU informatie leest zonder blokkering, en later bepaalt dat er een pariteitsfout was in de gekoppelde cache-lijn. De R7K processor is niet in staat ons specifiek te vertellen welke instructie werd uitgevoerd toen de cache line werd geladen, en daarom noemen we het een onnauwkeurige pariteitsfout.
Zelfs als systemen foutcodecorrectie (ECC) gebruiken, is het nog mogelijk om een incidentele pariteitsfout te zien wanneer er meer dan één fout is opgetreden in de 64 bits gegevens als gevolg van een harde fout in het cache.
Een pariteitsfout doet zich voor wanneer een waarde van het signaalbit wordt gewijzigd van zijn oorspronkelijke waarde (0 of 1) naar de tegenovergestelde waarde. Deze fout kan optreden door een fout in de zachte of harde pariteit.
Zachte pariteitsfouten komen voor vanwege een externe invloed op het geheugen van het apparaat, die de bitwaarde op het huidige niveau wijzigt. Dit soort problemen is van voorbijgaande aard en treedt niet meer op. Harde pariteitsfouten doen zich voor wanneer de waarde van het bit door het geheugen zelf is gewijzigd vanwege schade aan het geheugen. In dat geval treedt het probleem op elke keer dat dat geheugengebied wordt gebruikt, wat betekent dat het probleem meerdere keren kan herhalen binnen een paar dagen tot een week.
Error: SysAD, instr cache, fields: data, 1st dword Physical addr(21:3) 0x000000, virtual addr 0x6040BF60, vAddr(14:12) 0x3000 virtual address corresponds to main:text, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01 Low Data High Data Par Low Data High Data Par DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
Cache Err Reg = 0xE4588D10 Data reference, Secondary/Sys intf cache, Data field error Error on 1st doubleword on System interface No errors in addition to instr error Data phy addr that caused last parity or bus error: 0x1E84040C
%CERF-3-RECOVER: PC=0x604F136C, Origin=L3 Data ,PhysAddr=0x013CEFD0
of
%SYS-2-CERF_ABORT: Reason=0xEE23, PC=0x604629C8, Origin=L3 Data, Phys Addr=0x0287A4E8
Beide berichten gaan vergezeld van het volgende "Cache Error Restore Functie (CERF) rapport":
CERFa[1 ] 05:25:36 MET Tue Jul 9 2002: result=0xEE23; instr_pos=-2; rpl_off=1 CERFb[1 ] PC =604629C8; ORGN=L3 Data; PRID=00002710; PHYA=0287A4E8 CERFc[1 ] SREG=3400E105; CAUS=00000400; DEA0=0287A4E8; ECC =00000000 CERFd[1 ] CERR=E447A4EA; EPC =606361F8; DEA1=02517058; INFO=00000000 CERFe[1 ] CACHE=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D CERFe[1 ] SDRAM=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D CERFg[1 ] CXT =00000000; XCXT=00000000; BVAD=00000008; PFCL=00000000 CERFh[1 ] ISeq: 0045182B; 1060000E; 2C4203E9; 92430028; 38420001; 30630005 CERFi[1 ] o0 $3 ....; beq....; sltiu $2 ....; lbu $3, 0x0028($18); xori $2....; andi $3 ....;* CERFj[1 ] ; ; ; 6287A4E8; ; ; CERFk[1 ] ResumptionCode= 0x92430028; 0x0000000F; 0x42000018 CERFl[1 ] Instr's checked=4; diags=0x00000158,0x00040000,3600,1,0 CERFm[1 ] BaseRegLost later/off: 0/0 times; StoredValueLost: 0 times CERFn[1 ] INFO=00000000; CNFG=5061F4BB; ICTL=00000000 Initial Register Values CERFs00[1 ] $0=00000000 AT=61A30000 v0=00000001 v1=00000002 CERFs04[1 ] a0=28FF8728 a1=00003A98 a2=00000000 a3=00000007 CERFs08[1 ] t0=00000000 t1=3400E101 t2=606381E0 t3=FFFF00FF CERFs12[1 ] t4=606381C8 t5=000005D4 t6=00000008 t7=61C50000 CERFs16[1 ] s0=6189C188 s1=00000000 s2=6287A4C0 s3=00003A98 CERFs20[1 ] s4=61BD57B0 s5=00000006 s6=00000000 s7=61BD6C60 CERFs24[1 ] t8=60634788 t9=00000000 k0=621A8374 k1=6063EA40 CERFs28[1 ] gp=61A33B20 sp=61E28678 s8=00000000 ra=60462CA4 1 Cache error exceptions already reported
U ziet de bovenstaande stammen als CERF is ingeschakeld op een NPE-300 of NPE-400 en er een pariteitsfout optreedt. Raadpleeg voor meer informatie over CERF het gedeelte Oplossingen hieronder.
Het volgende verloop van de actie wordt aanbevolen wanneer u dergelijke fouten ondervindt:
Controleer de getroffen hardware om te zien of hetzelfde probleem zich opnieuw voordoet. Als dit niet het geval is, dan was het een transient Single Event Upset (SEU) en u hoeft geen actie te ondernemen.
In het onwaarschijnlijke geval dat het probleem zich opnieuw voordoet, is de opdracht cache L3 bypass/socket een optie die de impact van het probleem kan verminderen. Deze opdracht is alleen beschikbaar op de volgende platforms:
7200 met processormotor NPE-300, NPE-400 of NSE-1
7400 met processor-enginer NSE-1
Omdat NPE-300 het ECC geheugen niet ondersteunt, is deze optie in het bijzonder belangrijk om de beschikbaarheid van het systeem te verhogen en deze pariteitsfouten zonder service-onderbreking aan te pakken. Dit lost veel zachte pariteitsfouten op. Voorwaarde is dat er een kleine prestatiereslag is voor het systeem als L3 cache wordt uitgeschakeld. De verslechtering van de prestaties is ergens tussen 1% en 10%, afhankelijk van de systeemconfiguratie. De syntaxis voor het gebruik van deze opdracht is afhankelijk van de Cisco IOS-softwareversie.
De cache L3-opdracht kan worden gevonden in Cisco IOS-softwarereleases 12.3(5a) en hoger. Het zal ook beschikbaar zijn onder 12.1(22)E. In deze versies wordt het L3 cache standaard uitgeschakeld, zodat er geen actie nodig is om van deze functie te profiteren. L3 cache kan opnieuw worden ingeschakeld met de opdracht geen cache L3-schakelt.
De cache L3-bypass-opdracht kan worden gevonden in Cisco IOS-softwarereleases 12.2(6)S, 12.2(6)B, 12.2(8)BC1b, 12.0(20)SP, 12.2(6)PB, 12.2(2)DD2, 12.0(20)ST3 , 12.0(21)S, 12.1(11)EC, 12.2(7)T, 12.1(13) en 12.2(7) of later, en 12.1(11)E tot en met 12.1(21)E. Deze opdracht is standaard uitgeschakeld.
Om L3 cache bypass in te schakelen, dient u het volgende in te voeren vanuit de configuratie-modus:
Router(config)#cache L3 bypass
Om L3 cache bypass uit te schakelen, dient u het volgende in de configuratiemodus in:
Router(config)#no cache L3 bypass
De nieuwe cache instelling wordt niet van kracht totdat de router opnieuw wordt geladen.
Wanneer de router opstart, wordt de systeeminformatie weergegeven, inclusief informatie over het L3 cache. Dit komt doordat het opstartende-configuratiebestand nog niet door het systeem is verwerkt. Nadat het opstartbeeld-configuratiebestand is verwerkt, wordt het L3 cache gebypasseerd als het cache L3 bypass commando in de configuratie staat.
Om de L3 cache instelling te controleren, kunt u de opdracht show versie geven. Als het L3 cache wordt omzeild, is er geen verwijzing naar het L3 cache in de show versie output.
Een andere functie die de beschikbaarheid van het systeem verhoogt, is de Cache Error Restore Functie (CERF). Wanneer deze optie is ingeschakeld (dit is de standaardinstelling in de nieuwste Cisco IOS-softwarereleases, maar vanaf februari 2004, alleen voor NPE-300 en NPE-400), probeert de Cisco IOS-software de pariteitsfout op te lossen en te voorkomen dat de processor crasht. Deze optie lost ongeveer 75% van bepaalde soorten zachte pariteitsfouten op. Door deze opdracht in te voeren, ziet het systeem minder dan 5% achteruitgang van de prestaties.
CERF voor NPE-300 is te vinden in Cisco IOS-softwarereleases 12.1(15)T, 12.1(12)EC, 12.0(22)S, 12.2(10)S, 12.2(10)T, 12.2(10)X2(2)XF B4, 12.2(11)BC1b en 12.1(5)XM8 of later.
CERF voor NPE-400 vindt u in 12.3(3)B, 12.2(14)S3, 12.1(20)E, 12.1(19)E1, 12.3(1a), 12.2(13)T5, 12.2(18)S, 2.3(2)T, 12.2(18), 12.3(3) en 12.3(1)B1 of later.
CERF voor NPE-300 vereist een hardwareherziening 4.1 of hoger. Om de hardwareversie van uw NPE-300 te identificeren, gebruik de show c7200 opdracht.
Router>show c7200 ... C7206VXR CPU EEPROM: Hardware revision 4.1 Board revision A0 ...
CERF voor NPE-400 vereist dat de processor R7K herziening 2.1 of hoger heeft. Om de processor revisie van uw NPE-400 te identificeren, gebruik de show versie opdracht.
Router>show version ... cisco 7206VXR (NPE400) processor with 491520K/32768K bytes of memory. R7000 CPU at 350Mhz, Implementation 39, Rev 3.2, 256KB L2, 4096KB L3 Cache 6 slot VXR midplane, Version 2.1 ...
Opmerking: Het is belangrijk om alle relevante crashinformatie-bestanden te verzamelen om de oorzaak van de fout te bepalen, zoals uitgelegd in Informatie ophalen uit het Crashinfo-bestand.
Als de bovenstaande suggesties het probleem niet oplossen, kan het vervangen van het PE-formulier helpen in geval van herhaalde voorkomen van pariteitsfouten omdat harde pariteitsfouten het gevolg zijn van beschadigde hardware. Hardware-vervangingen zijn identiek aan het oorspronkelijke NPE. Het vervangen van de NPE garandeert niet dat er geen verdere pariteitsfouten zullen optreden aangezien Single Event Upsets (SEUs) inherent zijn aan computerapparatuur met geheugen.
Revisie | Publicatiedatum | Opmerkingen |
---|---|---|
1.0 |
13-Apr-2009 |
Eerste vrijgave |