Маршрутизаторы : Маршрутизаторы Cisco серии 12000

Дерево отказов из-за ошибок четности интернет-маршрутизатора Cisco серии 12000

20 октября 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Английский (22 апреля 2015) | Отзыв


Содержание


Введение

В данном документе описаны этапы устранения неполадок и изолирования неисправных частей или компонентов IP-маршрутизатора Cisco серии 12000 после получения ряда сообщений об ошибках четности.

Примечание: Этот документ не покрывает причину ошибок контроля четности. Если требуется более краткое определение ошибок четности (известных также как одиночные сбои - SEU) и их возможной причины, рекомендуется прочесть документы, на которые даны ссылки в разделе "Увеличение доступности сети".

Перед началом работы

Условные обозначения

Дополнительные сведения об условных обозначениях в документах см. Cisco Technical Tips Conventions.

Предварительные условия

Перед работой с данным документом рекомендуется прочитать следующие:

Используемые компоненты

Сведения в этом документе основаны на версиях оборудования и программного обеспечения, указанных ниже.

  • IP-маршрутизатор Cisco серии 12000

  • Все версии программного обеспечения Cisco IOS₩½

Сведения, содержащиеся в данном документе, были получены с устройств в специальной лабораторной среде. Все устройства, описанные в данном документе, были запущены с конфигурацией по умолчанию. При работе с реальной сетью необходимо полностью осознавать возможные результаты использования всех команд.

Обзор

В большинстве процессоров маршрута и линейных плат IP- маршрутизатора Cisco серии 12000 предусмотрена функция Error Code Correction (ECC). Существуют, однако, некоторые существующие линейные карты в поле, которые не имеют поддержки ECC. Функциональность ECC только покрывает ОЗУ или память Синхронной динамической памяти ОЗУ (SDRAM) на картах. Остальные не защищены функциональностью ECC.

Вот сравнение функциональности ECC для линейных карт, используемых с Cisco 12000:

  • Весь Engine 2 и более поздние карты имеют функциональность ECC.

  • После FCS платы модуля 1 изменяются на ECC.

  • Платы Engine 0 не обладают функциями ECC.

  • Некоторые платы можно обновить до аналогичных продуктов, которые включают функции ECC.

Ниже в таблице приведены продукты, которые обладают функциональными возможностями ECC:

НЕПРОДУКТЫ ECC Продукты ECC
GRP (=) GRP-B (=)
GE-SX/LH-SC (=) GE-GBIC-SC-B (=)
GE-GBIC-SC-A (=) GE-GBIC-SC-B (=)
8FE-FX-SC (=) 8FE-FX-SC-B (=)
8FE-TX-RF45 (=) 8FE-TX-RJ45-B (=)
6DS3-SMB (=) 6DS3-SMB-B (=)
12DS3-SBM (=) 12DS3-SMB-B (=)
OC12/SRP-IR-SC (=) OC12/SRP-IR-SC-B (=)
OC12/SRP-MM-SC (=) OC12/SRP-mm-SC-B (=)
OC12/SRP-LR-SC (=) OC12/SRP-LR-SC-B (=)

Примечание: -B и ECC независимы. -B означает, что продукт является второй основной ревизией платы, доступной для заказа. В некоторых случаях это редакция ECC.

Cisco предлагает Технологический план перехода (TMP), который позволяет вам обновлять плату не-ECC к новой плате ECC. Кредит будет использован при покупке нового щита ECC вместо не-ECC щита.

Анализ дерева неисправностей ошибок четности гигабитного маршрутизатора (GRP)

Структурная схема помогает определить, какой компонент интернет-маршрутизатора серии Cisco 12000 отвечает за сообщения об ошибках четности/ECC на маршрутизаторе 1 гбит/с (GRP).

/image/gif/paws/29320/12000a_parity_error_fault_tree.gif

Примечание: Перехватите и сделайте запись выходных данных show tech-support и console log, и соберите все файлы crashinfo во время событий ошибки четности/ECC.

Анализ дерева неисправностей ошибки четности платы линии

С помощью следующей блок-схемы можно определить, какой компонент линейной платы IP-маршрутизатора отвечает за сообщения об ошибках четности/исправление кода ошибки:

/image/gif/paws/29320/12000b_parity_error_fault_tree.gif

Примечание: Каждый раз, когда линейная карта испытывает событие ошибки четности/ECC, соберите как можно больше информации (см. Отказы линейной платы Устранения проблем на Интернет-маршрутизаторе Cisco 12000 серии для подробных данных).

Интернет-маршрутизатор Cisco серии 12000 восстанавливается после ошибок честности в памяти других линейных плат (SDRAM и SRAM) без аварийного отказа.

Ошибки четности/кода коррекции ошибок (ECC) в маршрутизирующем процессоре серии Cisco 12000 Gigabit

О данных со сбоем при контроле четности могут сообщить несколько из устройств проверки четности для любой операции чтения или операции записи на Интернет-маршрутизаторе Cisco 12000 серии.

GRP-B и PRP используют Код с исправлением ошибок для обнаружения Исправления однобитовых ошибок и Мультибитной ошибки для совместно используемой памяти (SDRAM). Одноразрядные ошибки в памяти SDRAM устраняются автоматически, и система продолжает работать в штатном режиме.

Однобитовые ошибки (SBE)

PRP и GRP-B имеют расширенный контроллер Динамического ram (dram), который поддерживает ECC. Поэтому они могут исправить ошибки в одном разряде и сообщить о мультибитных ошибках. Коррекция ошибки в одном разряде выглядит следующим образом:

%Tiger-3-SBE: Single bit error detected and corrected at <address>

SBE исправляются схемой исправления ошибок и не влияют на функциональность GRP-B или PRP. Никакое действие не требуется для ошибок в одном разряде, пока они часто не происходят. В этом случае следует заменить плату процессора.

Мультибитные ошибки (MBE)

Об обнаружении мультибитной ошибки сообщают через Исключение ошибки шины или Исключение из-за ошибки четности кэша ЦП.

Ошибки четности в памяти процессора (PMPE)

Сообщение об ошибках четности памяти процессора появляется, если CPU обнаруживает ошибку четности при получении доступа к внешнему кэшу процессора (L3 на GRP) через шину SysAD либо памяти внутреннего кэша CPU (L1 или L2). Таблица 1 перечисляет примеры сообщений, которые были бы распечатаны для каждого типа ошибки контроля четности кэша:

Таблица 1: Местоположение ошибки четности кеш-памяти

Обнаружение ошибок четности
Кэш инструкций L1 Ошибка: Primary, instr cache, fields: данные
Кэш данных L1 Ошибка: Primary, data cache, fields: данные
Кэш инструкции L2 Ошибка: SysAD, instr cache, fields: данные
Кэш данных L2 Ошибка: SysAD, data cache, fields: данные
Кэш инструкции по L3 Ошибка: SysAD, instr cache, fields: 1st dword
Кэш данных L3 Ошибка: SysAD, data cache, fields: 1st dword

Пример:

В первой строке сообщения об ошибках указывается, где обнаружена ошибка четности; это может быть любое место из перечисленных в таблице 1. В этом примере ошибка расположена в кэше инструкций L3.

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0  
           Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:   0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01          
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01           
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01           
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

Выходные данные show version должны быть подобны этому:

...System was restarted by processor memory parity error at PC 0x602310D0, 
address 0x0 at 03:18:21 GMT Sun Oct 27 2002 ...

От выходных данных show context вы видите, что система была перезапущена Нарушением четности для кэша:

Router#show context slot 11
CRASH INFO: Slot 11, Index 1, Crash at 19:08:07 CST Thu Nov 14 2002

VERSION:
GS Software (GSR-P-M), Version 12.0(22)S1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1)
TAC Support: http://www.cisco.com/tac
Compiled Mon 16-Sep-02 17:36 by nmasa
Card Type: Route Processor, S/N

LC uptime was 0 minutes.
System exception: sig=20, code=0xE42F3E4B, context=0x52CF3D44
System restarted by a Cache Parity Exception
STACK TRACE:
-Traceback= 5020453C 500E5E24 5010E6DC 5015F89C 501E9F6C 501E9F58
...

Замените GRP или PRP после второго неудачного завершения.

Сообщение об ошибках %GRP-3-PARITYERR

В выводе консоли может появится следующее сообщение:

SEC 7: %GRP-3-PARITYERR: Parity error detected in the fabric buffers. Data (8)

Данное сообщение свидетельствует о том, что оборудование интерфейса матрицы определило ошибку контроля четности на плате GRP. Шестнадцатеричный номер соответствует вектору прерывания ошибки. Обычно это говорит о неполадках оборудования на GRP, который сообщает об ошибках (в этом случае слот 7). Неисправный GRP следует заменить, если подобная проблема повторится.

%PRP-3-SBE_DATA: Неправильные данные [шестнадцатеричный] [шестнадцатеричный] ECC rec [hex] calc [hex]

Когда маршрутизатор получает данные со сбоем при контроле четности, это сообщение об ошибках отображается.

О данных со сбоем при контроле четности сообщают несколько из устройств проверки четности для любой операции чтения или операции записи, выполненной на Интернет-маршрутизаторе Cisco 12000 серии.

PRP использует Код с исправлением ошибок для обнаружения Исправления однобитовых ошибок и Мультибитной ошибки для совместного использования памяти (SDRAM). Одноразрядные ошибки в памяти SDRAM устраняются автоматически, и система продолжает работать в штатном режиме.

Ошибки в одном разряде (SBE) исправлены Схемой исправления ошибок (ECC) и не влияют на функциональность PRP. Никакое действие не требуется для ошибок в одном разряде, пока они часто не происходят.

Если ошибка часто происходит, желательно заменить процессорную плату.

Ошибки четности/ECC в картах линии Cisco 12000 Series

Ошибки кода коррекции ошибок памяти SDRAM

  • Ошибки SDRAM Single Bit Error-Correcting Code (ECC)

    Однобитовая ошибка – это один неправильный бит данных в слове, считанном из памяти. Для SBE ошибка может быть устранена без прекращения работы.

    Обнаружены однобитовые ошибки и представлены исправленные данные. Например, об ошибках в одном разряде сообщают следующим образом на Механизме 4/4 +:

    SLOT 6:Jul 19 07:37:34: %TX192-3-SDRAM_SBE: Error=0x2 - DIMM1 Syndrome=0x7600 
    Addr=0xBEA09 Data bit80-Traceback= 401C8C9C 401C9508 401CDE08 401CDE40 4007F674 
    4009ED0C 4009ECF8

    SBE корректируются схемой исправления ошибок и не влияют на работу линейной платы. Никакое действие не требуется для ошибок в одном разряде, пока они часто не происходят. В данном случае рекомендуется заменить линейную карту.

  • Многобитовые ошибки ECC SDRAM

    Когда несколько битов являются неправильными в том же слове, мультибитная ошибка. Для MBE обнаруживается ошибка, и линейная карта выходит из строя. Вероятность появление SBE и MBE очень маленькая.

    Вот пример сообщения консоли в ответ на ошибку ECC в нескольких битах SDRAM:

    SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_SBE: Error=0x808 - DIMM0 
    Syndrome=0x31000000 Addr=0x81034 Data bit120
    -Traceback= 401C8C9C 401C9508 40450018 400BF7D4
    SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_MBE: Error=0x808 - DIMM0 
    Syndrome=0x18000000 Addr=0x80834
    -Traceback= 401C8D88 401C9508 40450018 400BF7D4

    Ошибки MBE невозможно исправить при помощи ECC, поэтому они вызывают сбой линейной платы. Затем процессор маршрута перезагрузит линейную плату и вернет ее в нормальный режим работы.

    Проверка памяти линейной платы на наличие MBE может осуществляться в условиях эксплуатации. MBEs обнаружен эксплуатационной диагностикой как ошибки памяти. Ниже приведен пример платы, на которой произошла мультибитовая ошибка TX SDRAM, не прошедшей диагностику в условиях эксплуатации:

    FDIAG_STAT_IN_PROGRESS(5): test #12 TX SDRAM Marching Pattern
    FD 5> RIM:
    FD 5> TX Registers
    FD 5> INT_CAUSE_REG = 0x00000680
    FD 5> Unexpected L3FE Interrupt occured.
    FD 5> ERROR: TX BMA Asic Interrupt Occured
    FD 5> *** 0-INT: External Interrupt ***
    FDIAG_STAT_DONE_FAIL(5) test_num 12, error_code 1
    Field Diagnostic: ****TEST FAILURE**** slot 5: last test run 12,
    TX SDRAM Marching Pattern, error 1
    Field Diag eeprom values: run 5 fail mode 1 (TEST FAILURE) slot 5
    last test failed was 12, error code 1

    Если у вас есть QOC48 или линейная карта OC192, обратитесь к этому Уведомлению о дефекте: QOC48/OC192 SBEs/MBEs. В противном случае после второго сбоя следует заменить линейную плату.

Исключения четности кэша

Проверьте значение поля "sig=" в выходных данных show context slot [slot#]:

Router#show context slot 4
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999
       
VERSION:
GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE
  SOFTWARE (fc1)
Compiled Mon 28-Dec-98 14:53 by tamb
Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL
System exception: SIG=20, code=0xA414EF5A, 
context=0x40337424
System restarted by a Cache Parity Exception

Некоторые карты на основе Механизма 1 механизм пересылки восприимчивы к проблемам повреждения внутреннего кэша при работе в очень определенном напряжении и температурных режимах.

Функция восстановления работоспособности после сбоя кэша (CERF) является программной характеристикой в линейных картах Engine1, которая обнаруживает и исправляет ошибки контроля четности кэша путем сбрасывания ошибок от внешнего кэша ЦП и обновления строки кэш-памяти от DRAM. Эта функция предоставляет информацию для алгоритма управления кэшированием CPU, который позволяет CPU восстанавливаться после ошибки четности кэш-памяти, предотвращая аварийный сбой платы без последующей потери производительности.

Примечание: По умолчанию функция CERF включена. Действие этого Кода Исправления программной ошибки (ECC) может быть проверено командой show controller cerf. Для выключения функции используйте команду глобальной конфигурации no service cerf.

Посмотрите Уведомление о дефекте: Ошибка контроля четности кэша на GSR 1GE Карта для дополнительных сведений.

Для определения, на котором механизме пересылки базируется линейная карта посмотрите, Как я могу определить то, что модульная карта выполняет в коробке? от Интернет-маршрутизатора Cisco 12000 серии: Вопросы и ответы.

Если линейная карта основывается на Механизме 1, обходной путь должен обновить программное обеспечение Cisco IOS к выпуску, который содержит Функцию восстановления работоспособности после сбоя кэша (CERF). Данная функция была впервые доступна в Cisco IOS Software Release 12.0(21)S3. Если это все еще завершается катастрофическим отказом Нарушением четности для кэша, то линейная карта должна быть заменена.

Если линейная карта основывается на другом Типе модуля, необходимо заменить линейную карту на втором возникновении подобного катастрофического отказа.

Сообщения об ошибках линейной платы на основе модуля Engine 0

Можно видеть следующее сообщение в console log:

SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERRS: L3FE DRAM error 12 
address 41E9B9A0
SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 
txbma 0 addr 0 dram 12 addr 41E9B9A0 io 0 addr 0
SLOT 2:Oct 23 17:07:45.531 EST: %GSR-3-INTPROC: Process Traceback= 40080BAC
	-Traceback= 40357084 40495D30 40496EE0 400CCF98

Это данные сообщения ошибка контроля четности записи ДИНАМИЧЕСКОГО ОЗУ ЦПУ. L3FE обозначает механизм пересылки третьего уровня. При повторном возникновении сходной проблемы линейную карту следует заменить.

Сообщения об ошибках платы линии на основе Engine 1

Здесь приведены сообщения об ошибках, с которыми можно столкнуться:

  • Журналы для однопортовой линейной платы Gigabit:

    SLOT 5: %LCGE-3-INTR: TX GigaTranslator external interface parity error
    

    Для более новых плат каждый исправляет, должен был заменить TX GigaTranslator ASIC программируемой на месте логической матрицей (FPGA). Во втором возникновении подобной проблемы должна быть заменена плата.

  • В выводе консоли:

    SLOT 6: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error,
    ECC status = 2 DRAM error status = = 21
    SLOT 6: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 21 
    addr 200020 io 0 addr 0
    SLOT 6: %LC-3-ECC: Salsa ECC: Addresses: Salsa returned =429BFDE8 correcting 
    on = 429BFDE8
    SLOT 6: %MEM_ECC-3-SBE: Single bit error detected and corrected at 0x429BFDE8
    SLOT 6: %MEM_ECC-3-SYNDROME_SBE: 8-bit Syndrome for the detected Single-bit error: 
    0x8A
    SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60
    SLOT 1:Jun 10 05:29:47.690 EDT: %LC-3-ECC: Salsa ECC:  About to handle ECC single bit error,ECC status = 0 DRAM error status =12
    SLOT 6:Sep 26 15:18:01: %LC-3-SWECC: L2 event cleared: EPC = 0x40631CCC, CERR = 0xE40BB933, SysAD Addr = 1, total = 1
    SLOT 0:Dec  7 13:48:11.480: %LC-3-SWECC_DATA: L2 event cleared: EPC = 0x400A8040, CERR = 0xA01DCE58, l1v = 0x41E3C20441E3C1C5, dv =0x41E3C1C441E3C204, SysAD Addr = 0, total = 1
    

    Эти сообщения могут быть разделены на следующие части:

    • %LC-3-ECC: ECC Salsa - существует ошибка в ASIC L3FE линейной карты.

    • %LC-3-L3FEERR - В ASIC reg L3FE линейной карты существует ошибка. информация.

    • %MEM_ECC-3-SBE - Одноразрядная корректируемая ошибка была обнаружена на чтении от DRAM. Команда show memory ecc может использоваться для формирования дампа ошибок в одном разряде, зарегистрированных к настоящему времени. Это совпадает с %MEM_ECC-3-SBE_LIMIT сообщением об ошибках.

    • %MEM_ECC-3-SYNDROME_SBE - 8-битный синдром обнаруженной ошибки в один бит. Это значение не указывает точное положение битов в ошибке, но позволяет получить представление об их соотношении. Оно аналогично сообщению об ошибках %MEM_ECC-3-SYNDROME_SBE_LIMIT.

      В основном линейная карта сообщила об ошибке в одном разряде и исправила ее автоматически. Если это не происходит слишком часто, никаких действий не требуется. В данном случае рекомендуется заменить линейную карту.

    • %LC-3-SWECC_DATA - Указывает, что событие кэша было исправлено в LC в СЛОТЕ 0 Кодом Исправления Программной ошибки (SWECC).

  • Другое сообщение, которое можно встретить:

    SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 
    0x6299FB60 

    Это сообщение означает, что неисправимая ошибка в одном разряде [систематическая ошибка] была обнаружена при чтении CPU из DRAM. Команда show memory ecc формирует дамп ошибок в одном разряде, зарегистрированных к настоящему времени, и указывает на обнаруженные расположения адреса постоянной ошибки.

    Контролируйте систему с помощью команды show memory ecc и замените DRAM, если существует слишком много вхождений этих ошибок.

Сообщения об ошибках линейной платы на основе модуля Engine 2

Выход консоли содержит следующую ошибку:

SLOT 6: %LC-6-PSAECC: An TLU SDRAM ECC correctable error occurred 
address 19C49FD
SLOT 2:035610: Feb 26 13:09:13.628 UTC: %LC-6-PSAECC: An PLU SDRAM ECC correctable error occurred address 1956059

Это означает, что защищенный SDRAM ECC ASIC коммутации пакетов (PSA) определил корректируемую однобитную ошибку. Никакое действие не требуется от вашей части, пока эти сообщения часто не происходят. В данном случае рекомендуется заменить линейную карту.

Основанные на механизме 3 сообщения об ошибках линейной карты

Вы видите эти ошибки в выходных данных консоли:

SLOT 6:00:03:53: %PM622-3-SAR_SRAM_PARITY_ERR: (6/0): Parity error in Reassembly SAR SRAM address: 80000000.Resetting the port
SLOT 3:00:00:53: %PM622-3- SAR_MULTIBIT_ECC_ERR: (3/0): Multi-bit ECC Uncorrectable error in SAR SDRAM address: 80000000. Resseting the port.
SLOT 4:00:00:53: %PM622-3 SAR_SINGLE_BIT_ECC_ERR: (3/0): ECC corrected an error in SAR SDRAM address: 800000.
SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC: RX ALPHA: An PLU SDRAM ECC correctable error occured address 1000C254
SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC2: RX ALPHA: An PLU SDRAM ECC multibit error occured at address 1000E254
SLOT 5:Nov 17 09:46:30.171: %EE48-6-ALPHA_PARITY: TX ALPHA: Transient SRAM64 parity corrected error 3E Data  0 100000 Parity bits  0
SLOT 10:Feb 21 16:55:36: %EE48-3-ALPHA_SRAM64_ERR: TX ALPHA: ALPHA_PST_RANGE_ERR error 11003F Data  0 0 Parity bits  0
SLOT 4:Jan 15 06:30:00.942 UTC: %EE48-2-GULF_TX_SRAM_ERROR: ASIC GULF: TX SRAM uncorrectable error detected. Details=0x0000
SLOT 0:Mar 16 19:50:22.464 cst: %EE48-4-QM_ZBT_PARITY: ToFab Address 0xB95E Data 0x1
SLOT 5:May 17 06:17:35.507: %EE48-4-QM_NON_ZBT_PARITY: ToFab Error 0x10000028
SLOT 5:May 17 06:17:53.883: %EE48-4-QM_ZBT_PARITY_TRANSIENT: FrFab Address 0x0 Data 0x7E
SLOT 5:May 17 06:17:53.883: %EE48-4- GULF_RX_TB_PARITY_ERROR: ASIC GULF: RX telecom bus parity error on port 0
SLOT 1:Dec 13 00:27:42: %EE48-3-SRAM_PARITY: SRAM parity: Unable to find shadow 281B9EB4
SLOT 0:Aug  4 08:55:37: %EE48-3-QM_PARITY: FrFab Address 0x1859E Data 0x10
SLOT 0:Aug  4 08:55:37: %EE48-3-QM_ERROR: FrFab error register 0x80000.

Сообщения об ошибках платы линии на основе Engine 4/4+

  • В случае линейных плат Engine 4/4+ могут появляться следующие сообщения:

    SLOT 4: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - 
    Parity error on rx_pbc_mem.
    -Traceback= 401C37C0 403D8814 400BE1EC
    SLOT 4: %LC-3-ERR_INTR: Error interrupt occurred
    -Traceback= 400CE028 400C8DF0 40010A24
    

    или

    SLOT 3: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - 
    Parity error on rx_pbc_mem.
    -Traceback= 406012E0 406972A0 400C555C
    %FIB-3-FIBDISABLE: Fatal error, slot 3: IPC failure
    

    или

    SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
    SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_SBE: Parameter 1 - Single Bit Error detected and corrected 
    Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
    SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_SBE: Parameter 1 - Single Bit Error detected and corrected
    Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
    SLOT 5:Apr 26 11:56:08.160: %MCC192-3-SDRAM_MBE: Error=0x200 - DIMM1 Syndrome=0x3000 Addr=0x811C3
    SLOT 10:Mar  6 05:05:26.965: %RX192-3-ADJ_MEM_MBE: phy addr 0x7905E648, offset 0xBCC9, old ecc 0x0, new ecc 0x0, bit -1, value 0x0 - MBE on Adjacency Memory..
    SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
    SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_MBE: Parameter 1 - Single Bit Error detected and corrected
    Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
    SLOT 2:00:03:41: %MCC192-3-RED: Error=0x80000 - RED PARAM 1 ECC SBE Error.
    -Traceback= 405AF5E0 405B1CEC 406DFF7C 406E057C 400FC7E
    SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_MBE: Parameter 1 - Single Bit Error detected and corrected
    Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
    Sep  8 14:32:09 jst: %MEM_ECC-3-SYNDROME_SBE_LIMIT: 
    8-bit Syndrome for the detected Single-bit error: 0xD5
    

    Признаки для этой проблемы включают:

    • Скоростная передача Cisco на этой линейной плате отключается

    • Cвязанные порты остаются up/up

    • Возможно линейная карта была автоматически перезагружена

    Если линейная карта не перезагружает, обходной путь должен выполнить команду microcode reload <slot>:

    Это сообщение не всегда говорит об аппаратной проблеме модуля RX192. Некоторые ошибки программного обеспечения Cisco IOS могут создавать это сообщение об ошибках как побочный эффект. Если это сообщение появляется только один раз, следите за платой. Устройство будет перезапущено. Если проблема останется, карта будет автоматически перезагружена. Обратитесь за помощью к представителю технической поддержки, если данное сообщение сохраняется.

  • События SBE можно проверить на E4/E4 с помощью команды show controllers mcc192 ecc:

    LC-Slot4#show controllers mcc192 ecc 
    MCC192 SDRAM ECC Counters
            SBE = 0x0,              MBE = 0x0
    TX192 SDRAM ECC Counters
            SBE = 0x0,              MBE = 0x0

    Это сообщает и относительно RX и относительно памяти TX.

Механизм 5/5 +-based Сообщения об ошибках Линейной карты

Вы видите эти ошибки в выходных данных консоли:

SLOT 1:Jun 26 20:45:53 KST: %EE192-6-WAHOOECC: RX WAHOO: An PLU SDRAM ECC correctable error occured address 20000254
SLOT 9:Sep 2 21:27:49.680 GMT+8: %MCC192-3-PKTMEM_SBE: Single bit error detected and corrected
SLOT 14:Jul 18 07:19:24.637:  RX_XBMA: 1-bit CPUIM_ECCERR1 error 0x2
SLOT 15:Jan  4 16:53:16.591:  TX_XBMA: (1) QSRAM qinfo SBE detected. info: 0x82605455
SLOT 12:Dec 12 22:34:15: %EE192-4-BM_ERRSSS: FrFab BM BADDR ECC ERR info single bit error(s) corrected, error 8250F63E count:  2
SLOT 1:Nov 22 13:40:02 JST: %EE192-3-QM_ERROR: RX_XBMA OQLLM error error register 0x1
-Traceback= 40AE71AC 406078C4 405F5EC0
SLOT 7:001113: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRS: RX WAHOO: WAHOO_CSRAM_CNTRL_INT PIPE0 error 8
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRSSS: RX WAHOO: WAHOO_FFCRAM_CNTRL_INT PIPE0 error 4  addr 3FBFAB8  agent 94
SLOT 7:001114: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRSSSS: RX WAHOO: WAHOO_PPC_INT PIPE1 error pl_ctl 4000226 pl_aa_avl F9F7B pl_aa_end 7FF9 pl_aa_fatal 4800000
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: RX WAHOO WAHOO_NFC_SRAM_MULTI_ECC_ERR multi-bit CSSRAM error 
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_FFCRAM_CNTRL_INT MBE
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: FSRAM not OK WAHOO_FSRAM_CNTRL_INT ECC_1_BIT_EE | ECC_UNCORR_EE
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error
SLOT 1:00:01:14: WEEKLY_THROTTLE_SOCKEYE_SBE: SOCKEYE SBE: addr: 0xC2A007C0, synd: 0xC4
SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_TX+i: CBSRAM SBE TX: 1-bit CBSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_RX+i: CBSRAM SBE RX: 1-bit CBSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_TX+i: CSSRAM SBE TX: 1-bit CSSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_RX+i: CSSRAM SBE RX: 1-bit CSSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_TX+i: CSRAM SBE TX: 1-bit CSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_RX+i: CSRAM SBE RX: 1-bit CSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_TX+throttle_i: TX FTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_RX+throttle_i: RX FTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_TX+throttle_i: TX CLTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_RX+throttle_i: RX CLTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_TX+throttle_i: TX NFTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_RX+throttle_i: RX NFTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_VMR: TCAM PRTY VMR error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_NO-VMR: TCAM PRTY NO-VMR error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_RX: FCRAM SBE TX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_PER_CHIP_SBE_TX: FCRAM CHIP SBE error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FCRAM_PER_CHIP_SBE_RX: FCRAM CHIP SBE error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_TX: FSRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_RX: FSRAM SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_TX: FSRAM MBE RX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_RX: FSRAM MBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_TX: ISERR TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_RX: ISERR RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_RX: FCRAM SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_TX: QSRAM LINK SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_RX: QSRAM LINK SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe rx error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_BADDR_SBE_TX: qsram bad addr sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_ QM_QSRAM_BADDR_SBE_RX: qsram bad addr sbe rx error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_TX: oqllm sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_RX: oqllm sbe rx error status = 0x3

Механизм сообщения об ошибках линейной карты на основе 6

Вы видите эти ошибки в выходных данных консоли:

SLOT 0:Jan 14 08:53:44.581 GMT: %FIA-3-RAMECCERR: To Fabric ECC error was detected Single Bit Error RAM2 status = 0x8000  
Syndrome = 0x0 addr = 0x0
SLOT 6:Apr 29 09:36:12: %E6LC-4-ECC_THRESHOLD: HERMES VID SBE exceeded threshold, possible memory failure
SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_SBE: Head1 Syndrome=0x94 Addr=0xFFF2B 
-Traceback= 40544830 40546A90 40688C94 400EDC18
SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_SBE: Syndrome=0x59 Addr=0xFFF2B
-Traceback= 40000830 40036A90 40555D44 400ddd23
SLOT 14:Dec  9 20:02:29: %E6_RX192-6-PBC_SBE: Single bit error detected and corrected RLDRAM 
Syndrome=0x61 Addr=0xF855
Dec  9 20:02:33: %GRP-4-RSTSLOT: Resetting the card in the slot: 14,Event: linecard error report
SLOT 4:06:21:43: %E6_RX192-3-ACL_SBE: ACTION MEM Syndrome=0x7 Addr=0x0
-Traceback= 40549740 4054A7E0 4068D814 400EE018
SLOT 6:Mar 28 03:30:19: %RX192-3-HINTR: status = 0x1000000000000, mask = 0x7FFFFF0FA320F - L3X SBE error.
-Traceback= 405816DC 406A1010 406A1650 400F70E8
SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_SBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B
SLOT 6:Nov 27 23:32:36: %HERA-3-PKTMEM_SBE: Single bit error detected and corrected Error=0x80 – 
Syndrome=0x5100000000000000 Addr=0x894620 Data bit116
SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_SBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_SBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 12:May 24 03:03:36: %HERA-6- UPF_SBE: Single bit error detected and corrected Error=0x60 – 
Syndrome=0x4100000000000000 Addr=0x451140 Data bit216
SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
SLOT 9:May  5 18:52:14: %HERA-6-QM_FBF_SBE: Free Block FIFO - Single Bit Error detected and corrected 
Syndrom = 0x10, Addr = 0x778, samebit Yes, diffbit No
SLOT 9:May  5 18:52:14: %HERA-3-QM: Error=0x40 - FBF RAM ECC SBE.
-Traceback= 405AD4CC 405AF5D0 405F2E80 406DCDB8 406DD434 400FC500
SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_SBE: Average Queue Depth - Single Bit Error detected and corrected 
Syndrome = 0x7, Address = 0x89, samebit No, diffbit No
SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_SBE: Statistics - Single Bit Error detected and corrected 
Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No
SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_MBE: Single bit error detected and corrected Head1 
Syndrome=0x94 Addr=0xFFF2B
SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_MBE: Syndrome=0x59 Addr=0xFFF2B
-Traceback= 40000830 40036A90 40555D44 400ddd23
00:00:18: %E6_RX192-3-PBC_MBE: ADJ OBANK LO Syndrome=0xE5 Addr=0x142
-Traceback= 405BF8B0 405C0F08 406E8D78 406E93B8 400FCCE0
SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_MBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B
SLOT 0:Apr 18 06:44:53.751 GMT: %HERA-3-PKTMEM_MBE: Error=0x1010 - Syndrome=0x9900000000
SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_MBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_MBE: Single bit error detected and corrected Error=0x50 - Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
SLOT 9:May  5 18:52:14: %HERA-6-QM_FBF_MBE: Free Block FIFO - Single Bit Error detected and corrected 
Syndrome = 0x10, Addr = 0x778, samebit Yes, diffbit No
SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_MBE: Average Queue Depth - Single Bit Error detected and corrected 
Syndrome = 0x7, Address = 0x89, samebit No, diffbit No
SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_MBE: Statistics - Single Bit Error detected and corrected 
Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No

Сообщения об ошибках SPA

Вы видите эти ошибки в выходных данных консоли:

SLOT 7:Jan 4 02:04:00.487: %SPA_CHOC_DSX-3-UNCOR_PARITY_ERR:  SPA4/0: CHOC SPA parity error(s) encountered
SLOT 7:Jan 4 02:04:00.487: %MCT1E1-3-UNCOR_PARITY_ERR:  SPA5/0: T1E1 SPA parity error(s) encountered
SLOT 3: 00:33:48: %MCT1E1-3-UNCOR_MEM_ERR: SPA3/0: 1 uncorrectable HDLC SRAM memory error(s) encountered.
SLOT 1:Oct  3 14:42:45.727: %SPA_PLIM-4-SBE_ECC: SPA-4XT3/E3[1/2] reports 2 SBE occurrence at 1 addresses
SLOT 1: Jul 22 05:26:29.613 UTC: %SPA_DATABUS-3-SPI4_SINGLE_DIP4_PARITY: SIP Sbslt 0 Ingress Sink - A single DIP4 parity error has occurred on the data bus.
SLOT 4: Dec  2 22:44:05: %SPA_DATABUS-3-SPI4_SINGLE_DIP2_PARITY: SIP Sbslt 0 Egress Source - A single DIP 2 parity error on the FIFO status bus has occurred.
SLOT 1:Oct  3 14:42:45.727: %SPA_PLIM-4-SBE_OVERFLOW: SPA-4XT3/E3[1/2] reports SBE table (2 elements) overflows
SLOT 1:Oct  3 14:42:45.727: % SPA_PLUGIN-3-SPI4_SETCB: SPA-4XT3/E3[1/2] : IPC SPI4 set callback failed(status 2).

Ошибки четности в платах коммутации матрицы Cisco 12000 Series

Все ошибки, выявленные контролем по четности и относящиеся к картам коммутационной матрицы, подробно рассмотрены в разделе устранение неисправностей технических средств для интернет маршрутизатора Cisco серии 12000. Эти сообщения включают (не исчерпывающий список):

%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error 
Data = 0x2.

SLOT 1:%FABRIC-3-PARITYERR: To Fabric parity error was detected. 

Grant parity error Data = 0x1

Дополнительные сведения


Document ID: 29320