Маршрутизаторы : Маршрутизаторы Cisco серии 7200

Ошибки четности в памяти процессора (PMPE)

28 июля 2008 - Перевод, выполненный профессиональным переводчиком
Другие версии: PDF-версия:pdf | Машинный перевод (28 июля 2013) | Английский (31 января 2006) | Отзыв

Интерактивный документ: В данном документе приводится анализ используемого устройства Cisco.


Содержание

Введение
Предварительные условия
     Требования
     Используемые компоненты
     Условные обозначения
Определение ошибки четности
Сравнение программных и аппаратных ошибок четности
Локализация неисправностей
     Платформы Cisco 4500 и 4700
     Процессор маршрутизации/коммутации (RSP), сетевой процессор (NPE) и платформы с маршрутизирующими процессорами (RP)
     Многоцелевой интерфейсный процессор (VIP)
Рекомендуемые действия
Информация, которую необходимо собрать в случае обращения в центр технической поддержки
Связанные обсуждения сообщества поддержки Cisco
Дополнительные сведения

Введение

В данном документе разъясняются причины ошибок четности на маршрутизаторах Cisco и способы их устранения.

Предварительные условия

Требования

Рекомендуется ознакомиться со способами устранения сбоев маршрутизатора.

Дополнительные сведения см. в документе Устранение неполадок при аварийных отказах маршрутизатора.

Используемые компоненты

Сведения в данном документе не ограничиваются определенными версиями ПО или устройств.

Данные для этого документа были получены при тестировании указанных устройств в специально созданных лабораторных условиях. Все устройства, описанные в данном документе, обладают ненастроенной (заданной по умолчанию) конфигурацией. При работе в действующей сети необходимо изучить все возможные последствия каждой команды.

Условные обозначения

Дополнительные сведения о применяемых в документе обозначениях см. в документе Условные обозначения, используемые в технической документации Cisco.

Определение ошибки четности

Ошибки четности памяти возникают в продуктах на основе процессоров MIPS (MultiChannel Interface Processor, процессор многоканального интерфейса), например:

  • маршрутизаторы Cisco серии 4500/4700;

  • маршрутизаторы Cisco серии 7500 (RSP1, RSP2, RSP4, RSP8, VIP2-10, VIP2-15, VIP2-20, VIP2-40, VIP2-50);

  • маршрутизаторы Cisco серии 7000 (RSP 7000);

  • маршрутизаторы Cisco серии 7200 (NPE-100, NPE-150, NPE-175, NPE-200, NPE-225, NPE-300);

  • IP-маршрутизатор Cisco серии 12000.

Здесь приводятся некоторые сообщения, связанные с обнаружением ошибок четности в системе (список не является исчерпывающим, но содержит наиболее распространенные сообщения).

  • В выходных данных команды вывода версии show version:

    System restarted by processor memory parity error at PC 0x6014F7C0,
     address 0x0

    или

    System restarted by shared memory parity error at PC 0x60130F40

    Если есть выходные данные команды show version от устройства Cisco, то их можно использовать для отображения возможных неисправностей и способов их устранения. Для ее использования необходимо быть зарегистрированным пользователем и выполнить вход в систему, при этом должна быть включена поддержка JavaScript.

  • В журналах консоли или в файлах со сведениями об аварийных отказах:

    -  *** Cache Error Exception ***
       Cache Err Reg = 0xa401a65a
       data reference, primary cache, data field error , error on SysAD Bus
       PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
    
    
    -  Error: primary data cache, fields: data,
       virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
       virtual address corresponds to main:data, cache word 0
                                      
                    Low Data   High Data  Par    Low Data   High Data  Par
       L1 Data  : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
                  2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8  
                                            
                    Low Data   High Data  Par    Low Data   High Data  Par
       Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
                  2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
    
    
    -  *** Shared Memory Parity Error ***
       shared memory control register= 0xffe3
       error(s) reported for: CPU on byte(s): 0/1
    
    -  %PAR-1-FATAL: Shared memory parity error
       shared memory status register= 0xFFEF
       error(s) reported for: CPU on byte(s): 0/1 2/3
    
    
    -  %RSP-3-ERROR: MD error 0000008000000200
       %RSP-3-ERROR: QA parity error (bytes 0:3) 02
       %RSP-3-ERROR: MEMD parity error condition
       %RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA) 
           log 22010000, data 00000000 00000000
       %RSP-3-RESTART: cbus complex
    
    
    -  %RSP-3-ERROR: CyBus error 01
       %RSP-3-ERROR: read data parity
       %RSP-3-ERROR: read parity error (bytes 0:7) 20
       %RSP-3-ERROR: physical address (bits 20:15) 000000
    
    -  %RSP-3-ERROR: MD error 00800080C000C000
       %RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
       %RSP-3-RESTART: cbus complex

Сравнение программных и аппаратных ошибок четности

Существует два вида ошибок четности.

  • Программные ошибки четности

    Эти ошибки происходят, когда в микросхеме меняется значение энергетического уровня (например, 1 или 0). Будучи связаны с центральным процессором, такие ошибки или приводят к сбоям системы (если они возникли на участке, не подлежащем восстановлению), или они вынуждают восстанавливать другие системы (например, система CyBus перезагружается, если ошибка произошла в пакетной памяти (MEMD)). В случае программной ошибки четности нет необходимости заменять плату или другие компоненты. Дополнительную информацию о программных ошибках четности см. в разделе Дополнительные сведения.

  • Аппаратные ошибки четности

    Эти ошибки происходят в случае сбоев микросхемы или платы, повреждающих данные. В этом случае следует переустановить или заменить соответствующий компонент (как правило, микросхему памяти или плату). Если по одному и тому же адресу происходит несколько ошибок четности, это аппаратная ошибка четности. Бывают более сложные случаи, которые трудно распознать. Как правило, если в отдельной области памяти за относительно короткий промежуток времени происходит несколько ошибок, это, скорее всего, аппаратная ошибка четности.

Как показывают исследования, программные ошибки четности встречаются в 10-100 раз чаще, чем аппаратные ошибки четности. Исходя из этого, компания Cisco настоятельно рекомендует дождаться второй ошибки четности, прежде чем что-либо заменять. Это существенным образом уменьшит воздействие на сеть.

Локализация неисправностей

Память в маршрутизаторе может быть размещена по-разному. Теоретически, в любом месте памяти может произойти ошибка четности, однако большинство проблем с памятью возникает в динамической памяти RAM (DRAM) или в общей памяти RAM (SRAM). Здесь можно найти информацию о том, как определить, с учетом данной платформы, какая именно ячейка памяти была повреждена и, если высока вероятность аппаратной ошибки, какую деталь необходимо заменить.

Платформы Cisco 4500 и 4700

На платформах Cisco 4500 и 4700 в версиях ПО Cisco IOS®, предшествующих версиям 12.2(10) и 12.2(10)T, файл со сведениями об аварийных отказах недоступен.

Один из способов выяснить, где произошла ошибка, – это обратить внимание на "причину перезапуска" в журналах консоли или в выходных данных команды show version.

  • Ошибка четности в памяти DRAM

    Если после аварийного отказа маршрутизатор не перезагружался вручную, выходные данные команды show version будут выглядеть следующим образом:

    System restarted by processor memory parity error at PC 0x601799C4,
     address 0x0 
    System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash

    Если доступен файл со сведениями об аварийных отказах или записывался журнал консоли, можно увидеть следующее:

    *** Cache Error Exception *** 
     Cache Err Reg = 0xa0255c61 
     data reference, primary cache, data field error , error on SysAD Bus 
     PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007

    Повторяющиеся ошибки четности в DRAM означают неисправность в DRAM или шасси. Если недавно удалялось шасси или производились какие-либо изменения в аппаратной конфигурации, для решения этой проблемы следует переустановить микросхемы памяти DRAM. В противном случае сначала замените память DRAM. Это позволит предотвратить ошибки четности. Если маршрутизатор по-прежнему выдает аварийные отказы, следует заменить шасси.

  • Ошибка четности в памяти SRAM

    Если после аварийного отказа маршрутизатор не перезагружался вручную, выходные данные команды show version будут выглядеть следующим образом:

    System  restarted by shared memory parity error at PC 0x60130F40 
    System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash

    Если доступен файл со сведениями об аварийных отказах или записывался журнал консоли, можно увидеть следующее:

    *** Shared Memory Parity Error *** 
    shared memory control register= 0xffe3 
    error(s) reported for: CPU on byte(s): 0/1

    или

    %PAR-1-FATAL: Shared memory parity error 
    shared memory status register= 0xFFEF 
    error(s) reported for: CPU on byte(s): 0/1 2/3

    или

    *** Shared Memory Parity Error *** 
    shared memory control register= 0xffdf 
    error(s) reported for: NIM1 on byte(s): 0/1  2/3

Примечание.

  • В случае сообщения об ошибке процессора замените память SRAM.

  • Если сообщается об ошибке в модуле NIM(x) (сетевой интерфейсный модуль), замените его в слоте (x). Может быть также поврежден модуль памяти SRAM, размещенный в слоте (x). В этом случае замените модуль памяти SRAM.

    Повторяющиеся ошибки четности в памяти SRAM могут указывать на неисправность либо в модуле SRAM, либо в сетевом модуле, записавшем неверную четность в SRAM. Если недавно удалялось шасси или производились какие-либо изменения в аппаратной конфигурации, для решения этой проблемы следует переустановить сетевые модули и микросхемы памяти SRAM. В противном случае проверьте, где в журналах консоли сообщалось об ошибке (см. выше пример выходных данных).

Процессор маршрутизации/коммутации (RSP), сетевой процессор (NPE) и платформы с маршрутизирующими процессорами (RP)

Как и в случае платформы Cisco серии 4000, проблема может возникнуть из-за неисправностей в модулях памяти DRAM или SRAM для этих платформ. Эта неполадка может также возникнуть из-за повреждения платы процессора (RP, RSP или NPE). Устройства Cisco 7000 и 7500 также могут сообщать об ошибках четности вследствие неисправного или плохо установленного интерфейсного процессора (обычный xIP или VIP (многоцелевой интерфейсный процессор).

Следует проверить файл со сведениями об аварийных отказах и журнал консоли на наличие следующих сообщений об ошибках.

Ошибка четности в памяти DRAM или SRAM (MEMD)

Для устройств RP, RSP и NPE обычно можно увидеть следующее:

Error: primary data cache, fields: data, (SysAD) 
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000 
virtual address corresponds to main:data, cache word 0

или просто:

Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880

Это указывает на неполадку в самом процессоре RSP. Если неисправность возникла только один раз, это может быть следствием скачка напряжения.

Ошибка четности, переданная из памяти SRAM

Для процессора RSP сообщение может выглядеть следующим образом:

%RSP-3-ERROR: MD error 0000008000000200 
%RSP-3-ERROR: QA parity error (bytes 0:3) 02 
%RSP-3-ERROR: MEMD parity error condition 
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA) 
    log 22010000, data 00000000 00000000 
%RSP-3-RESTART: cbus complex

или

%RSP-3-ERROR: CyBus error 01 
%RSP-3-ERROR: read data parity 
%RSP-3-ERROR: read parity error (bytes 0:7) 20 
%RSP-3-ERROR: physical address (bits 20:15) 000000

Если нет признаков, указывающих, что другой интерфейсный процессор записал в память SRAM признак ошибки четности (например, сообщения об ошибках VIP2-1-MSG), наиболее вероятной причиной ошибки четности является сама память SRAM. В этом случае замените RSP.

Если другие сообщения об ошибках свидетельствуют о том, что в интерфейсном процессоре произошел сбой при проверке четности, причина может заключаться в неисправности или неправильной установке платы.

Многоцелевой интерфейсный процессор (VIP)

При наличии сообщения %VIP2-1-MSG: slot(x) в системном журнале или журнале записи ошибок см. раздел Устранение неисправностей в процессоре VIP.

Рекомендуемые действия

При возникновении ошибки четности в первый раз невозможно выяснить, является ли она программной или аппаратной. Практика показывает, что большинство ошибок четности являются программными и их можно проигнорировать. Если недавно заменялось какое-либо оборудование или был удален какой-то блок, следует попытаться заменить поврежденную часть (DRAM, SRAM, NPE, RP, RSP или VIP). Часто повторяющиеся ошибки четности означают неисправность оборудования. Необходимо заменить поврежденную деталь (DRAM, RSP, VIP или материнскую плату), следуя инструкциям, приведенным в этом документе.

Информация, которую необходимо собрать в случае обращения в центр технической поддержки

Если вам по-прежнему требуется помощь после выполнения всех шагов по устранению неисправности, приведенных выше, и вы хотите подать запрос на обслуживание в центр технической поддержки Cisco, в него необходимо включить следующую информацию:

  • устранение неполадок, выполненное ранее, перед подачей запроса на обслуживание;

  • выходные данные команды show technical-support (в активном режиме, если возможно);

  • выходные данные команды show log или снимки консоли (если имеются);

  • файл со сведениями об аварийных отказах (если он есть и не был уже включен в выходные данные команды show technical-support. Если есть несколько таких файлов, следует включить их все.);

  • количество перезагрузок, произведенных из-за обнаруженных ошибок четности в памяти процессора, и когда они произошли.

Присоедините собранные данные к незапакованному файлу с описанием случая неполадки в простом текстовом формате (.txt). Чтобы прикрепить указанные сведения к запросу на обслуживание, загрузите их через средство подачи запросов на обслуживание (только для зарегистрированных клиентов). Если не удается перейти в этот раздел, прикрепите нужную информацию к запросу и отправьте на адрес attach@cisco.com, указав номер запроса в строке "Тема" вашего сообщения.

Примечание. Не следует перезагружать маршрутизатор с помощью кнопок перезарузки или включения перед сбором вышеуказанной информации, если только не требуется устранить ошибку четности в памяти процессора, так как это может привести к потере важных данных, необходимых для определения причины возникновения проблемы.

Связанные обсуждения сообщества поддержки Cisco

В рамках сообщества поддержки Cisco можно задавать и отвечать на вопросы, обмениваться рекомендациями и совместно работать со своими коллегами.


Дополнительные сведения


Document ID: 6345