يشرح هذا المستند الخطوات الرامية إلى أستكشاف أخطاء التماثل وإصلاحها وعزل أي جزء أو مكون من Cisco 7200 يتعطل عند تحديد مجموعة متنوعة من رسائل خطأ التماثل. نحن نوصي بقراءة أعطال الموجه وأخطاء تماثل ذاكرة المعالج (PMPEs) قبل متابعة هذا المستند.
ملاحظة: تستند المعلومات الواردة في هذا المستند إلى موجهات سلسلة 7200 من Cisco.
لا توجد متطلبات أساسية خاصة لهذا المستند.
لا يقتصر هذا المستند على إصدارات برامج ومكونات مادية معينة.
تم إنشاء المعلومات المُقدمة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كنت تعمل في شبكة مباشرة، فتأكد من فهمك للتأثير المحتمل لأي أمر.
للحصول على مزيد من المعلومات حول اصطلاحات المستندات، ارجع إلى اصطلاحات تلميحات Cisco التقنية.
يصف هذا المخطط الخطوات الرامية إلى تحديد الجزء أو المكون من Cisco 7200 الذي يفشل عند تحديد مجموعة متنوعة من رسائل خطأ التماثل.
ملاحظة: يمكنك التقاط سجلات إخراج وحدة التحكم الخاصة بدعم الفني وتسجيلها، وتجميع جميع ملفات crashinfo أثناء أحداث خطأ التماثل.
يحتوي هذا القسم على مخططات كتل ل NPE وحيث تكشف هذه الأنظمة عن أخطاء التماثل. يمكنك العثور على وصف لكل نوع من رسائل الخطأ أدناه.
يستخدم NPE-300 فحص التماثل في الذاكرة المشتركة (SDRAM) وناقل PCI والواجهة الخارجية لوحدة المعالجة المركزية لحماية النظام من الخلل في التشغيل بسبب أخطاء البت. كما أن فحص التماثل قادر على اكتشاف خطأ واحد من خلال إستخدام طريقة بسيطة، وذلك بإضافة بت تحقق واحد لكل ثماني وحدات بت من البيانات. إذا اكتشف خطأ ما عند تمرير البيانات بين مكونات الأجهزة، فإن النظام يتجاهل البيانات الخطأ. تتسبب أخطاء البت الفردية في أي موقع في المخطط أعلاه في إعادة تعيين الموجه.
يستخدم NPE-400 تصحيح أخطاء البت الواحد واكتشاف الأخطاء متعددة البت ECC (تصحيح رمز الخطأ) للذاكرة المشتركة (SDRAM). لزيادة توفر النظام في NPE-400، يقوم مركز تصحيح الأخطاء (ECC) بتصحيح أخطاء البت الفردية في SDRAM، للسماح للنظام بالعمل بشكل طبيعي دون إعادة الضبط ودون وقت انقطاع. لمزيد من المعلومات حول كيفية قيام ECC بتحسين توفر النظام، راجع صفحة زيادة توفر الشبكة.
يتسبب خطأ متعدد وحدات بت في SDRAM في إعادة تعيين الموجه باستخدام إستثناء خطأ ذاكرة التخزين المؤقت أو خطأ الناقل. تستخدم باقي وحدات الذاكرة والحافلات الموجودة في النظام ميزة اكتشاف التماثل بنظام البت الواحد. تتسبب أخطاء البت الفردية في 1 و 3 في المخطط أعلاه في إعادة تعيين الموجه.
يمكن للعديد من أجهزة التحقق من التماثل على الموجه C7200/NPE الإبلاغ عن البيانات ذات التماثل غير الصحيح لأي عملية قراءة أو كتابة. فيما يلي وصف لرسائل الخطأ المختلفة التي تم الإعلام عنها على نظام C7200/NPE:
يتم الإبلاغ عن هذا الخطأ عندما تكتشف وحدة تحكم النظام GT64120 خطأ تماثل عند قراءة SDRAM:
%ERR-1GT64120 (PCI0):Fatal error, Memory parity error (external) GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200 Bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x1C000000
استبدل ذاكرة SDRAM بعد فشل ثان. إذا استمر الفشل، فاستبدل NPE.
ملاحظة: بالنسبة لوحدات التحكم NPE القديمة (NPE-100/150/200) التي تستخدم وحدات التحكم GT64010، يبدو الخطأ كما يلي:
%ERR-1-GT64010: Fatal error, Memory parity error (external) cause=0x0300E283, mask=0x0CD01F00, real_cause=0x00000200 bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000000
تستخدم وحدة التحكم في الطراز GT64010 ذاكرة وصول عشوائي (DRAM) ديناميكية لا ذاكرة SDRAM. في هذه الحالة، استبدل ذاكرة DRAM بعد فشل ثان. إذا استمر الفشل، فاستبدل NPE.
يعد خطأ التماثل في "القراءة الرئيسية" خطأ تماثل تم تشغيله عن طريق الوصول إلى جسر Peripheral Component Interconnect (PCI). فيما يلي مثال على إخراج خطأ التماثل:
%ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000 Bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470 %ERR-1-SERR: PCI bus system/parity error %ERR-1-FATAL: Fatal error interrupt, No reloading Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
استبدل المكون المناسب بعد فشل ثان. يشير تفريغ جسر النظام إلى المكون الذي سيتم إستبداله.
System bridge dump: Bridge 1, for PA bay 1, 3 and 5. Handle=1 DEC21150 bridge chip, config=0x0 (0x1C):sec status, io base =0x83A09141 Detected Parity Error on secondary bus Data Parity Detected on secondary bus (0x20):mem base & limit =0x4AF04880
تخبرك هذه الجداول أي مكون له مشكلة محتملة من إخراج رسالة الخطأ.
رقم الجسر | الغرض من الجسر | خطأ تماثل على الناقل الأساسي | خطأ تماثل في الناقل الثانوي |
---|---|---|---|
جسر 0 | تدفق ميغابايت 0 إلى ميغابايت 1 0 | إستبدال NPE | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا |
الجسر 1 | Up MB1 إلى MB0 | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا | إستبدال NPE |
جسر 2 | تدفق ميغابايت0 إلى ميغابايت 2 | إستبدال NPE | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا |
جسر 3 | Up MB2 إلى MB0 | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا | إستبدال NPE |
رقم الجسر | الغرض من الجسر | خطأ تماثل على الناقل الأساسي | خطأ تماثل في الناقل الثانوي |
---|---|---|---|
جسر 0 | لفتحة PA 0 (بطاقة الإدخال/الإخراج، PCMCIA، الواجهات | إستبدال NPE | استبدل NPE؛ استبدل بطاقة الإدخال/الإخراج إذا كانت لا تزال موجودة. استبدل الهيكل إذا كان لا يزال موجودا |
الجسر 1 | لخليج PA 1 و 3 و 5 | إستبدال NPE | استبدل وحدة الشبكة (NPE)، إذا كان لا يزال موجودا، استبدل الهيكل |
جسر 2 | لخليج PA رقم 2 و 4 و 6 | إستبدال NPE | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا |
رقم الجسر | الغرض من الجسر | خطأ تماثل على الناقل الأساسي | خطأ تماثل في الناقل الثانوي |
---|---|---|---|
الجسر 4 | مهايئ المنفذ 1 | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا | استبدل PA 1، وإذا كان لا يزال موجودا، استبدل الهيكل |
الجسر 5 | مهايئ المنفذ 2 | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا | استبدل PA 2؛ استبدل الهيكل إذا كان لا يزال موجودا |
الجسر 6 | مهايئ المنفذ 3 | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا | استبدل PA 3؛ استبدل الهيكل إذا كان لا يزال موجودا |
الجسر 7 | مهايئ المنفذ 4 | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا | يستعاض عن PA 4؛ وفي حالة إستمرار وجوده، يستعاض عن الهيكل |
الجسر 8 | مهايئ المنفذ 5 | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا | استبدل PA 5، وفي حالة إستمرار وجوده، استبدل الهيكل |
الجسر 9 | مهايئ المنفذ 6 | استبدل NPE؛ استبدل الهيكل إذا كان لا يزال موجودا | استبدل PA 6؛ استبدل الهيكل إذا كان لا يزال موجودا |
وكما هو الحال مع جميع أجهزة الكمبيوتر والشبكات، فإن NPE عرضة للتكرار النادر لأخطاء التماثل في ذاكرة المعالج. قد تتسبب أخطاء التماثل في إعادة ضبط النظام، وقد تكون "حالة إنزعاج مؤقتة لحادثة واحدة" (SEU أو خطأ بسيط) أو قد تحدث عدة مرات (يشار إليها عادة بالأخطاء الثابتة) بسبب الأجهزة التالفة. لمزيد من المعلومات حول وحدات الخدمة (SEU)، ارجع إلى صفحة زيادة توفر الشبكة. يتم الإبلاغ عن خطأ في تماثل وحدة المعالجة المركزية (CPU) إذا اكتشفت وحدة المعالجة المركزية خطأ تماثل عند الوصول إلى أي من ذاكرات التخزين المؤقت للمعالج (L1، L2، أو L3 إذا كان ملائما).
هنا أربعة أمثلة لهذا النوع من الخطأ:
Error: SysAD, data cache, fields: data, 1st dword Physical addr(21:3) 0x195BE88, Virtual address is imprecise. Imprecise Data Parity Error Imprecise Data Parity Error
يحتوي NPE على معالج R7K مع ذاكرة تخزين مؤقت غير قابلة للحظر. تعني ذاكرة التخزين المؤقت غير القابلة للحظر أنه عندما يقوم بتنفيذ إرشادات لتحميل البيانات في سجل وهذه البيانات ليست موجودة في ذاكرة التخزين المؤقت من المستوى الأول، تقوم وحدة المعالجة المركزية بتحميل البيانات من ذاكرة تخزين مؤقت أقل طلبا أو من بيانات SDRAM. لا تمنع وحدة المعالجة المركزية تنفيذ تعليمات إضافية إلا إذا كان هناك خطأ آخر في ذاكرة التخزين المؤقت أو أي تعليمات أخرى تعتمد على البيانات التي يتم تحميلها. ويمكن أن يؤدي ذلك إلى تسريع المعالج وتحسين الأداء بدرجة كبيرة، كما يمكن أن يؤدي إلى عدم دقة أخطاء التماثل. والخطأ غير الدقيق في التماثل هو عندما تقرأ وحدة المعالجة المركزية المعلومات دون حظر، وتحدد لاحقا وجود خطأ تماثل في سطر ذاكرة التخزين المؤقت المقترن. يتعذر على المعالج R7K الإخبار بشكل محدد بالتعليمات التي تم تنفيذها أثناء تحميل بند ذاكرة التخزين المؤقت، ولهذا السبب نسميه خطأ تماثل غير دقيق.
حتى إذا كانت الأنظمة تستخدم "تصحيح رمز الخطأ" (ECC)، فلا يزال من الممكن مشاهدة خطأ تماثل عرضي عند حدوث أكثر من خطأ واحد في 64 بت من البيانات بسبب خطأ فادح في ذاكرة التخزين المؤقت.
يحدث خطأ تماثل عندما يتم تغيير قيمة بت الإشارة من قيمتها الأصلية (0 أو 1) إلى القيمة المقابلة. قد يحدث هذا الخطأ إما بسبب خطأ في التماثل البسيط أو الثابت.
تحدث أخطاء التماثل الناعم بسبب تأثير خارجي على ذاكرة الجهاز، والذي يغير قيمة البت في المستوى الحالي. هذا النوع من المشاكل عابر ولا يتكرر. تحدث أخطاء تماثل صعبة عند تغيير قيمة البت بواسطة الذاكرة نفسها بسبب تلف الذاكرة. في هذه الحالة، تحدث المشكلة في كل مرة يتم إستخدام هذه المنطقة من الذاكرة، مما يعني أن المشكلة يمكن أن تتكرر عدة مرات في غضون يومين إلى أسبوع.
Error: SysAD, instr cache, fields: data, 1st dword Physical addr(21:3) 0x000000, virtual addr 0x6040BF60, vAddr(14:12) 0x3000 virtual address corresponds to main:text, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01 Low Data High Data Par Low Data High Data Par DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
Cache Err Reg = 0xE4588D10 Data reference, Secondary/Sys intf cache, Data field error Error on 1st doubleword on System interface No errors in addition to instr error Data phy addr that caused last parity or bus error: 0x1E84040C
%CERF-3-RECOVER: PC=0x604F136C, Origin=L3 Data ,PhysAddr=0x013CEFD0
أو
%SYS-2-CERF_ABORT: Reason=0xEE23, PC=0x604629C8, Origin=L3 Data, Phys Addr=0x0287A4E8
كلتا الرسالتين أعلاه مصحوبة بتقرير "وظيفة إسترداد أخطاء ذاكرة التخزين المؤقت (CERF)" على النحو التالي:
CERFa[1 ] 05:25:36 MET Tue Jul 9 2002: result=0xEE23; instr_pos=-2; rpl_off=1 CERFb[1 ] PC =604629C8; ORGN=L3 Data; PRID=00002710; PHYA=0287A4E8 CERFc[1 ] SREG=3400E105; CAUS=00000400; DEA0=0287A4E8; ECC =00000000 CERFd[1 ] CERR=E447A4EA; EPC =606361F8; DEA1=02517058; INFO=00000000 CERFe[1 ] CACHE=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D CERFe[1 ] SDRAM=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D CERFg[1 ] CXT =00000000; XCXT=00000000; BVAD=00000008; PFCL=00000000 CERFh[1 ] ISeq: 0045182B; 1060000E; 2C4203E9; 92430028; 38420001; 30630005 CERFi[1 ] o0 $3 ....; beq....; sltiu $2 ....; lbu $3, 0x0028($18); xori $2....; andi $3 ....;* CERFj[1 ] ; ; ; 6287A4E8; ; ; CERFk[1 ] ResumptionCode= 0x92430028; 0x0000000F; 0x42000018 CERFl[1 ] Instr's checked=4; diags=0x00000158,0x00040000,3600,1,0 CERFm[1 ] BaseRegLost later/off: 0/0 times; StoredValueLost: 0 times CERFn[1 ] INFO=00000000; CNFG=5061F4BB; ICTL=00000000 Initial Register Values CERFs00[1 ] $0=00000000 AT=61A30000 v0=00000001 v1=00000002 CERFs04[1 ] a0=28FF8728 a1=00003A98 a2=00000000 a3=00000007 CERFs08[1 ] t0=00000000 t1=3400E101 t2=606381E0 t3=FFFF00FF CERFs12[1 ] t4=606381C8 t5=000005D4 t6=00000008 t7=61C50000 CERFs16[1 ] s0=6189C188 s1=00000000 s2=6287A4C0 s3=00003A98 CERFs20[1 ] s4=61BD57B0 s5=00000006 s6=00000000 s7=61BD6C60 CERFs24[1 ] t8=60634788 t9=00000000 k0=621A8374 k1=6063EA40 CERFs28[1 ] gp=61A33B20 sp=61E28678 s8=00000000 ra=60462CA4 1 Cache error exceptions already reported
يمكنك الاطلاع على السجلات أعلاه إذا تم تمكين CERF على NPE-300 أو NPE-400 وحدث خطأ تماثل. لمزيد من المعلومات حول CERF، ارجع إلى قسم الحلول أدناه.
يوصى باتباع مسار العمل التالي عند مواجهة مثل هذه الأخطاء:
قم بمراقبة الأجهزة المتأثرة لمعرفة ما إذا كانت المشكلة نفسها تحدث مرة أخرى. إذا لم يكن كذلك، فهذا يعني أنه حدث فردي زائف (SEU) ولا تحتاج إلى إتخاذ أي إجراء.
في الحدث غير المحتمل أن المشكلة تحدث مرة أخرى، يكون أمر التخزين المؤقت L3 bypass/disable خيار أن يساعد أن يقلل تأثير الإصدار. لا يتوفر هذا الأمر إلا على الأنظمة الأساسية التالية:
7200 مع محرك المعالج NPE-300 أو NPE-400 أو NSE-1
7400 مع وحدة تحكم المعالج NSE-1
ولأن NPE-300 لا يدعم ذاكرة ECC، فإن هذه الميزة مهمة بشكل خاص لزيادة توفر النظام ومعالجة أخطاء التماثل هذه دون مقاطعة الخدمة. وهذا يحل العديد من أخطاء التماثل البسيط. يكمن التنبيه في أن هناك أداء طفيفا يضرب النظام عندما يتم تعطيل ذاكرة التخزين المؤقت L3. قد تتراوح نسبة انخفاض الأداء بين 1٪ و 10٪ حسب تهيئة النظام. تعتمد الصياغة الخاصة باستخدام هذا الأمر على إصدار برنامج Cisco IOS software.
يمكن العثور على الأمر cache l3 disable في الإصدار 12.3(5a) من برنامج Cisco IOS والإصدارات الأحدث. وسيتاح أيضا في 12-1(22)E. في هذه الإصدارات، يتم تعطيل ذاكرة التخزين المؤقت من المستوى الثالث بشكل افتراضي، لذلك لا حاجة لأي إجراء للاستفادة من هذه الميزة. يمكن إعادة تمكين ذاكرة التخزين المؤقت من المستوى الثالث باستخدام الأمر no cache L3 disable.
يمكن العثور على الأمر cache l3 bypass في الإصدار 12.2(6)S من برنامج Cisco IOS Software، الإصدار 12.2(6)B، 12.2(8)BC1b، 12.0(20)SP، 12.2(6)PB، 12.2(2)DD2، 12.0(20)ST3، 12.0(21)S، 12.1(11)EC، 12.2(7)T، 12.11(3)، 2.2(7) أو إصدار أحدث، و 12.1(11)E إلى 12.1(21)E. يتم تعطيل هذا الأمر بشكل افتراضي.
لتمكين تجاوز ذاكرة التخزين المؤقت من المستوى الثالث، أدخل ما يلي من وضع التكوين:
Router(config)#cache L3 bypass
لتعطيل تجاوز ذاكرة التخزين المؤقت من المستوى الثالث، أدخل ما يلي من وضع التكوين:
Router(config)#no cache L3 bypass
لا يسري مفعول إعداد ذاكرة التخزين المؤقت الجديدة حتى يتم إعادة تحميل الموجه.
عند تمهيد الموجه، يتم عرض معلومات النظام، بما في ذلك معلومات حول ذاكرة التخزين المؤقت من المستوى الثالث. وذلك لأن ملف startup-config لم تتم معالجته بعد بواسطة النظام. بعد معالجة ملف startup-config، يتم تجاوز ذاكرة التخزين المؤقت من المستوى الثالث إذا كان الأمر cache من المستوى الثالث في التكوين.
للتحقق من إعداد ذاكرة التخزين المؤقت L3، يمكنك إصدار الأمر show version. إذا تم تجاوز ذاكرة التخزين المؤقت من المستوى الثالث، فلا يوجد مرجع إلى ذاكرة التخزين المؤقت من المستوى الثالث في إخراج show version.
هناك ميزة أخرى تساعد على زيادة توفر النظام، وهي وظيفة إسترداد أخطاء ذاكرة التخزين المؤقت (CERF). عند تمكين هذه الميزة (هذا هو الإعداد الافتراضي في أحدث إصدارات برنامج Cisco IOS software، ولكن اعتبارا من فبراير 2004، فقط ل NPE-300 و NPE-400)، يقوم برنامج Cisco IOS software بمحاولة حل خطأ التماثل ومنع المعالج من التعطل. تحل هذه الميزة حوالي 75٪ من أنواع معينة من أخطاء التماثل البسيط. من خلال إستدعاء هذا الأمر، يرى النظام انخفاض في الأداء بنسبة أقل من 5٪.
يمكن العثور على CERF الخاص ب NPE-300 في الإصدار 12.1(15) من برنامج Cisco IOS Software، و 12.1(12)EC، و 12.0(22)S، و 12.2(10)S، و 12.2(10)T، و 12.2(10)، و 12.2(2)XB4، و 12.2(11)BC1b، و 12.1(5)XM8 أو إصدار أحدث.
ويمكن الاطلاع على CERF الخاص بالمحول NPE-400 في 12.3(3)B و 12.2(14)S3 و 12.1(20)E و 12.1(19)E1 و 12.3(1a) و 12.2(13)T5 و 12.2(18)S و 12.3(2)T و 12.2(18) و 12.3(3) و 12.3(1)B1 أو أحدث.
يتطلب CERF الخاص ب NPE-300 مراجعة الأجهزة 4.1 أو أعلى. لتحديد إصدار الجهاز من NPE-300 لديك، أستخدم الأمر show c7200.
Router>show c7200 ... C7206VXR CPU EEPROM: Hardware revision 4.1 Board revision A0 ...
يتطلب CERF الخاص ب NPE-400 مراجعة المعالج R7K 2.1 أو أعلى. لتحديد مراجعة المعالج ل NPE-400، أستخدم الأمر show version.
Router>show version ... cisco 7206VXR (NPE400) processor with 491520K/32768K bytes of memory. R7000 CPU at 350Mhz, Implementation 39, Rev 3.2, 256KB L2, 4096KB L3 Cache 6 slot VXR midplane, Version 2.1 ...
ملاحظة: من المهم تجميع جميع ملفات crashinfo ذات الصلة لتحديد السبب الجذري للخطأ كما هو موضح في إسترداد المعلومات من ملف crashinfo.
إذا لم تحل الاقتراحات الواردة أعلاه المشكلة، فقد يساعد إستبدال NPE في حالات تكرار أخطاء التماثل حيث إن أخطاء التماثل الصلبة ترجع إلى تلف الأجهزة. تتطابق استبدالات الأجهزة مع NPE الأصلي. لا تضمن عملية إستبدال NPE عدم حدوث مزيد من أخطاء التماثل نظرا لأن عمليات إصلاح حدث واحد (SEU) متأصلة في أي من أجهزة الكمبيوتر ذات الذاكرة.
المراجعة | تاريخ النشر | التعليقات |
---|---|---|
1.0 |
13-Apr-2009 |
الإصدار الأولي |