Маршрутизаторы : Маршрутизаторы Cisco серии 7200

Cisco 7200: дерево неисправностей, ошибка четности

20 октября 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Английский (22 августа 2015) | Отзыв


Содержание


Введение

В этом документе объясняется порядок действий для устранения неполадок и локализации отказавшей части или компонента Cisco 7200 при различного рода сообщениях об ошибках четности. Перед изучением этого документа мы рекомендуем прочесть статью: Устранение неисправностей, связанных с отказами маршрутизатора и ошибками четности памяти процессора (PMPE).

Примечание: Сведения в этом документе основываются на маршрутизаторах Cisco серии 7200.

Предварительные условия

Требования

Для данного документа отсутствуют предварительные условия.

Используемые компоненты

Настоящий документ не имеет жесткой привязки к каким-либо конкретным версиям программного обеспечения и оборудования.

Сведения, содержащиеся в данном документе, были получены с устройств в специальной лабораторной среде. Все устройства, описанные в данном документе, были запущены с конфигурацией по умолчанию. Перед выполнением любых команд в активной сети необходимо осознавать потенциальные последствия их применения.

Условные обозначения

Дополнительные сведения об условных обозначениях см. в документе Технические рекомендации Cisco. Условные обозначения.

Анализ диагностического дерева отказов для устранения ошибок четности системы Network Processing Engine (NPE)

Эта схема описывает шаги для определения, какая часть или компонент Cisco 7200 отказывают при определении множества сообщений об ошибках четности.

/image/gif/paws/12763/c7200_faulttree1.gif

Примечание: Перехватите и сделайте запись выходных данных show tech-support и console log, и соберите все файлы crashinfo во время событий ошибки контроля четности.

Обнаружение ошибки четности модуля сетевых вычислений (NPE) и сообщения о ней

Этот раздел содержит блок-схемы NPE и где эти системы обнаруживают ошибки контроля четности. Можно найти описание каждого типа сообщения об ошибках ниже.

Ошибки четности в NPE-300

c7200_faulttree2.gif

NPE-300 использует проверку четности в совместно используемой памяти (SDRAM), Шина PCI и внешний интерфейс ЦП для защиты системы от неправильного функционирования ошибками в канале связи. Проверка четности способна к обнаружению ошибки в одном разряде при помощи простого метода; добавление одного проверочного бита на восемь битов данных. Если это обнаруживает маленькую ошибку при передаче данных между аппаратными компонентами система сбрасывает от ошибочных данных. Ошибки в одном разряде в любом местоположении в схеме выше заставляют маршрутизатор перезагружать.

Обнаружение ошибок четности/ECC в NPE-400

c7200_faulttree3.gif

NPE-400 использует Код с исправлением ошибок для обнаружения Исправления однобитовых ошибок и Мультибитной ошибки (Error Code Correction) для совместно используемой памяти (SDRAM). Для увеличения доступности системы в NPE-400 ECC исправляет ошибки в одном разряде в SDRAM, чтобы позволить системе обычно работать, не перезагружая и без времени простоя. Для получения дополнительной информации о том, как ECC улучшает доступность системы, обратитесь к странице Increasing Network Availability.

Мультибитная ошибка в SDRAM заставляет маршрутизатор перезагружать с исключением в результате ошибки кэша или ошибкой шины. Для остальной части памяти и шин в системе используется одноразрядная схема контроля четности. Ошибки в одном разряде в 1 и 3 в схеме выше заставляют маршрутизатор перезагружать.

Ошибки четности в маршрутизаторе C7200

Несколько из устройств проверки четности на маршрутизаторе C7200/NPE могут сообщить о данных со сбоем при контроле четности для любой операции чтения или операции записи. Вот описание различных сообщений об ошибках, сообщил относительно системы C7200/NPE:

Ошибка DRAM GT64010/GT64120

Когда системный контроллер GT64120 обнаруживает ошибку контроля четности при чтении SDRAM, об этой ошибке сообщают:

%ERR-1GT64120 (PCI0):Fatal error, Memory parity error (external)
GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
Bus_err_high=0x00000000, bus_err_low=0x00000000,
addr_decode_err=0x1C000000

Замените модуль SDRAM при повторном отказе. Если сбой сохраняется, замените NPE.

Примечание: Для более старых NPE (NPE-100/150/200), которые используют контроллеры GT64010, ошибка похожа на это:

%ERR-1-GT64010: Fatal error, Memory parity error (external) 
cause=0x0300E283, mask=0x0CD01F00, real_cause=0x00000200 
bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000000

Контроллер GT64010 использует Динамический ram (dram) и не SDRAM. В этом случае замените DRAM после второго неудачного завершения. Если сбой сохраняется, замените NPE.

Системное Чтение Основной ошибки контроля четности GT64010/GT64120

Ошибка контроля четности в Ведущем устройстве Риде является ошибкой контроля четности, инициированной путем доступа к мосту Подсоединения периферийных устройств (PCI). Вот пример выходных данных ошибки контроля четности:

%ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read
GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
Bus_err_high=0x00000000, bus_err_low=0x00000000,
addr_decode_err=0x00000470

%ERR-1-SERR: PCI bus system/parity error
%ERR-1-FATAL: Fatal error interrupt, No reloading
Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40

Замените соответствующий компонент после второго неудачного завершения. Системный дамп моста указывает который компонент заменить.

System bridge dump:

Bridge 1, for PA bay 1, 3 and 5. Handle=1
DEC21150 bridge chip, config=0x0

(0x1C):sec status, io base =0x83A09141
                Detected Parity Error on secondary bus
                Data Parity Detected on secondary bus
(0x20):mem base & limit =0x4AF04880

Эти таблицы говорят вам, какой компонент имеет возможную проблему от выходного сообщения об ошибках.

NPE-100/150/200:

Номер моста Для чего мост Ошибка контроля четности на основной шине Ошибка контроля четности на вторичной шине
Мост 0 Нисходящий MB0 к MB1 0 Замените NPE Замените NPE; если все еще присутствует, замените блок
Мост 1 Восходящий MB1 к MB0 Замените NPE; если все еще присутствует, замените блок Замените NPE
Мост 2 Нисходящий MB0 к MB2 Замените NPE Замените NPE; если все еще присутствует, замените блок
Мост 3 Восходящий MB2 к MB0 Замените NPE; если все еще присутствует, замените блок Замените NPE

NPE-175/225/300/400/NSE-1:

Номер моста Для чего мост Ошибка контроля четности на основной шине Ошибка контроля четности на вторичной шине
Мост 0 Для отсека PA 0 (Карта ввода/вывода, PCMCIA, интерфейсы Замените NPE Замените NPE; если все еще представляют, заменяют Карту ввода/вывода. Если все еще присутствует, замените блок
Мост 1 Для отсека PA 1, 3, и 5 Замените NPE Замените NPE; если все еще присутствует, замените блок
Мост 2 Для отсека PA 2, 4, и 6 Замените NPE Замените NPE; если все еще присутствует, замените блок

Весь C7200s:

Номер моста Для чего мост Ошибка контроля четности на основной шине Ошибка контроля четности на вторичной шине
Мост 4 Адаптер порта 1 Замените NPE; если все еще присутствует, замените блок PA 1 замены; если все еще присутствует, замените блок
Мост 5 Адаптер порта 2 Замените NPE; если все еще присутствует, замените блок PA 2 замены; если все еще присутствует, замените блок
Мост 6 Адаптер порта 3 Замените NPE; если все еще присутствует, замените блок PA 3 замены; если все еще присутствует, замените блок
Мост 7 Адаптер порта 4 Замените NPE; если все еще присутствует, замените блок PA 4 замены; если все еще присутствует, замените блок
Мост 8 Адаптер порта 5 Замените NPE; если все еще присутствует, замените блок PA 5 замены; если все еще присутствует, замените блок
Мост 9 Адаптер порта 6 Замените NPE; если все еще присутствует, замените блок PA 6 замены; если все еще присутствует, замените блок

Ошибка контроля четности ЦП

Как со всем компьютером и сетевыми устройствами, NPE восприимчив к редкому случаю ошибок контроля четности в памяти процессора. Ошибки контроля четности могут заставить систему перезагружать и могут быть переходным Single Event Upset (SEU или устранимая ошибка) или могут произойти многократно (часто называемый постоянными ошибками) из-за поврежденного оборудования. Для получения дополнительной информации о SEU обратитесь к странице Increasing Network Availability. Если ЦП обнаруживает ошибку контроля четности при доступе к какому-либо из кэшей процессора (L1, L2, или, если адаптировано, L3), об ошибке контроля четности ЦП сообщают.

Вот четыре примера этого типа ошибки:

Пример 1:

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

NPE имеет процессор R7K с неблокируемым кэшем. Неблокируемый кэш означает, когда он выполняет инструкцию для загрузки данных в регистр, и эти данные не находятся в кэше L1, Загрузки ЦПУ данные от кэша более низкоуровневого или от данных SDRAM. ЦП не блокирует выполнение дальнейших инструкций, пока нет другое непопадание в кэш, или другая инструкция зависит от загружаемых данных. Это может значительно ускорить процессор и улучшить производительность, но может также привести к ошибкам контроля четности, являющимся неточным. Неопределенная ошибка контроля четности - когда ЦП считывает информации без блокирования, и позже решает, что в cвязанной строке кэш-памяти была ошибка контроля четности. Процессор R7K неспособен сказать нам в частности, какая инструкция выполнялась, когда строка кэш-памяти загружалась, и это - причина, мы называем его неопределенной ошибкой контроля четности.

Даже если системы используют Error Code Correction (ECC), все еще возможно видеть случайную ошибку контроля четности, когда больше, чем одиночная ошибка произошли в 64 битах данных к постоянной ошибке в кэше.

Когда сигнальное разрядное значение изменено от его исходного значения (0 или 1) к противоположному значению, ошибка контроля четности происходит. Эта ошибка может произойти или из-за мягкого или фатальной ошибки четности.

Ошибки мягкого контроля четности происходят из-за внешнего влияния на память об устройстве, которое изменяет разрядное значение в текущем уровне. Этот тип ошибки является переходным и не повторно происходит. Когда разрядное значение изменено самой памятью из-за повреждения памяти, фатальные ошибки четности происходят. В этом случае проблема происходит каждый раз, когда область памяти используется, что означает, что проблема может повториться многократно в течение пары дней к неделе.

Пример 2:

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0

          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

Пример 3:

Cache Err Reg = 0xE4588D10
Data reference, Secondary/Sys intf cache, Data field error
Error on 1st doubleword on System interface
No errors in addition to instr error
Data phy addr that caused last parity or bus error: 0x1E84040C

Пример 4 (только NPE-300 и NPE-400):

%CERF-3-RECOVER: PC=0x604F136C, Origin=L3 Data ,PhysAddr=0x013CEFD0

или

%SYS-2-CERF_ABORT: Reason=0xEE23, PC=0x604629C8, Origin=L3 Data, 
Phys Addr=0x0287A4E8

Оба сообщения выше сопровождаются "Отчётом о Cache Error Recovery Function (CERF)" следующим образом:

CERFa[1 ] 05:25:36 MET Tue Jul 9 2002: result=0xEE23; instr_pos=-2; rpl_off=1
CERFb[1 ] PC =604629C8; ORGN=L3 Data; PRID=00002710; PHYA=0287A4E8
CERFc[1 ] SREG=3400E105; CAUS=00000400; DEA0=0287A4E8; ECC =00000000 
CERFd[1 ] CERR=E447A4EA; EPC =606361F8; DEA1=02517058; INFO=00000000
CERFe[1 ] CACHE=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D
CERFe[1 ] SDRAM=28FF78B4 62B36D98 02020684 00000E17 00000030 00000001 61F2934C 3EDA025D
CERFg[1 ] CXT =00000000; XCXT=00000000; BVAD=00000008; PFCL=00000000
CERFh[1 ] ISeq: 0045182B; 1060000E; 2C4203E9; 92430028; 38420001; 30630005
CERFi[1 ] o0 $3 ....; beq....; sltiu $2 ....; lbu $3, 0x0028($18); xori $2....; andi $3 ....;*
CERFj[1 ]           ;        ;              ;            6287A4E8;            ;             ;
CERFk[1 ] ResumptionCode= 0x92430028; 0x0000000F; 0x42000018
CERFl[1 ] Instr's checked=4; diags=0x00000158,0x00040000,3600,1,0
CERFm[1 ] BaseRegLost later/off: 0/0 times; StoredValueLost: 0 times
CERFn[1 ] INFO=00000000; CNFG=5061F4BB; ICTL=00000000

Initial Register Values
CERFs00[1 ] $0=00000000 AT=61A30000 v0=00000001 v1=00000002
CERFs04[1 ] a0=28FF8728 a1=00003A98 a2=00000000 a3=00000007 
CERFs08[1 ] t0=00000000 t1=3400E101 t2=606381E0 t3=FFFF00FF
CERFs12[1 ] t4=606381C8 t5=000005D4 t6=00000008 t7=61C50000
CERFs16[1 ] s0=6189C188 s1=00000000 s2=6287A4C0 s3=00003A98
CERFs20[1 ] s4=61BD57B0 s5=00000006 s6=00000000 s7=61BD6C60
CERFs24[1 ] t8=60634788 t9=00000000 k0=621A8374 k1=6063EA40
CERFs28[1 ] gp=61A33B20 sp=61E28678 s8=00000000 ra=60462CA4

1 Cache error exceptions already reported

Вы видите вышеупомянутые журналы, если CERF включен на NPE-300 или NPE-400, и ошибка контроля четности происходит. Для получения дополнительной информации о CERF, обратитесь к Разделу решений ниже.

Решения

Следующий курс действий рекомендуется при обнаружении с такими ошибками:

  1. Контролируйте аппаратные средства, на которые влияют, чтобы видеть, происходит ли та же проблема снова. Если это не делает, то это был переходный Single Event Upset (SEU), и вы не должны принимать меры.

  2. В маловероятном случае, что проблема действительно повторно происходит, команда cache L3 bypass/disable является опцией, которая может помочь уменьшать влияние проблемы. Эта команда только доступна на следующих платформах:

    • 7200 с NPE-300 модуля процессора, NPE-400 или NSE-1

    • 7400 с NSE-1 инженера процессора

    Поскольку NPE-300 не поддерживает память ECC, эта функция особенно важна, чтобы увеличить доступность системы и обработать эти ошибки контроля четности без прекращения сервиса. Это решает много ошибок мягкого контроля четности. Предупреждение состоит в том, что существует небольшое падение производительности к системе, когда отключен кэш L3. Снижение производительности где угодно между 1% и 10% в зависимости от конфигурации системы. Синтаксис для использования этой команды зависит от версии программного обеспечения Cisco IOS.

    • Команда cache L3 disable может быть найдена в Cisco IOS Software Release 12.3 (5a) и позже. Это также будет доступно в 12.1 (22) E. В этих версиях кэш L3 отключен по умолчанию, таким образом, никакое действие не необходимо для использования преимуществ этой функции. Кэшу L3 можно реактивировать с командой no cache L3 disable.

    • Команда cache L3 bypass может быть найдена в Cisco IOS Software Release 12.2 (6) S, 12.2 (6) B, 12.2 (8) BC1b, 12.0 (20) SP, 12.2 (6) петабайт, 12.2 (2) DD2, 12.0 (20) ST3, 12.0 (21) S, 12.1 (11) EC, 12.2 (7) T, 12.1 (13), и 12.2 (7) или позже, и 12.1 (11) E до 12.1 (21) E. Эта команда по умолчанию отключена.

    Для включения обхода кэша L3 введите следование из режима конфигурации:

    Router(config)#cache L3 bypass
    

    Для отключения обхода кэша L3 введите следование из режима конфигурации:

    Router(config)#no cache L3 bypass
    

    Новый параметр кэша не вступает в силу, пока маршрутизатор не повторно загружен.

    Когда загрузки маршрутизатора, сведения о системе отображены, включая информацию о кэше L3. Это вызвано тем, что файл startup-config еще не был обработан системой. После того, как файл startup-config обработан, кэш L3 обойден, если команда cache L3 bypass находится в конфигурации.

    Для проверки параметра кэша L3 можно выполнить команду Show version. Если кэш L3 обойден, нет никакой ссылки на кэш L3 в выходных данных show version.

  3. Другой функцией, которая помогает увеличивать доступность системы, является Cache Error Recovery Function (CERF). Когда эта опция активирована (это - по умолчанию в последних Cisco IOS Software Release, но по состоянию на февраль 2004, только для NPE-300 и NPE-400), программное обеспечение Cisco IOS предпринимает попытку решить ошибку контроля четности и помешать процессору завершаться катастрофическим отказом. Эта функция решает приблизительно 75% определенных типов ошибок мягкого контроля четности. Путем призыва этой команды система видит меньше чем 5%-е снижение производительности.

    CERF для NPE-300 может быть найден в Cisco IOS Software Release 12.1 (15), 12.1 (12) EC, 12.0 (22) S, 12.2 (10) S, 12.2 (10) T, 12.2 (10), 12.2 (2) XB4, 12.2 (11) BC1b, и 12.1 (5) XM8 или позже.

    CERF для NPE-400 может быть найден в 12.3 (3) B, 12.2 (14) S3, 12.1 (20) E, 12.1 (19) E1, 12.3 (1a), 12.2 (13) T5, 12.2 (18) S, 12.3 (2) T, 12.2 (18), 12.3 (3), и 12.3 (1) B1 или позже.

    CERF для NPE-300 требует проверки оборудования 4.1 или выше. Для определения версии аппаратного обеспечения NPE-300 используйте команду show c7200.

    Router>show c7200
    ...
    C7206VXR CPU EEPROM:
    Hardware revision 4.1 Board revision A0
    
    	  ...

    CERF для NPE-400 требует revision 2.1 процессора R7K или выше. Для определения версии процессора NPE-400 используйте команду Show version.

    Router>show version
    ...
    cisco 7206VXR (NPE400) processor with 491520K/32768K bytes of memory.
    R7000 CPU at 350Mhz, Implementation 39, Rev 3.2, 256KB L2, 4096KB L3 
    Cache 6 slot VXR midplane, Version 2.1
    ...

    Примечание: Важно собрать все соответствующие файлы crashinfo для определения основной причины ошибки, как объяснено в Получении информации от Файла crashinfo.

Если предложения выше не решают вопрос, то замена NPE может помочь в случаях повторных вхождений ошибок контроля четности, так как фатальные ошибки четности происходят из-за поврежденного оборудования. Замены оборудования идентичны исходному NPE. Замена NPE не гарантирует, что никакие дальнейшие ошибки контроля четности не произойдут, так как Single Event Upset (SEU) свойственны от любого компьютерного оборудования с памятью.


Дополнительные сведения


Document ID: 12763