Маршрутизаторы : Маршрутизаторы Cisco серии 10000

Дерево отказов из-за ошибок четности 10000 ESR PRE1

20 октября 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Английский (22 апреля 2015) | Отзыв


Содержание


Введение

В данном документе изложены процедуры устранения неполадок и отделения компонента ESR серии Cisco 10000 и Performance Routing Engine (PRE1), в которых произошел сбой, при получении множества сообщений об ошибках четности.

Предварительные условия

Требования

Компания Cisco рекомендует предварительно ознакомиться со следующими предметами:

Используемые компоненты

Сведения в этом документе основаны на версиях оборудования и программного обеспечения, указанных ниже.

  • Маршрутизаторы Edge Services Серии Cisco 10000 (ESR) с помощью Performance Routing Engine (PRE1)

  • Все версии программного обеспечения Cisco IOS₩½

Примечание: Этот документ не относится к интернет-маршрутизаторам серии Cisco 10720.

Сведения, представленные в этом документе, были получены от устройств, работающих в специальной лабораторной среде. Все устройства, описанные в этом документе, были запущены с чистой (стандартной) конфигурацией. В рабочей сети необходимо изучить потенциальное воздействие всех команд до их использования.

Условные обозначения

Дополнительные сведения об условных обозначениях см. в документе Условные обозначения технических терминов Cisco.

Анализ дерева неисправностей ошибок четности маршрутизирующего процессора PRE1

PRE1 ESR Серии Cisco 10000 состоит из двух карт модульной конструкции: Процессор маршрута (RP) и карта Процессра переадресации (FP). Структурная схема помогает определить, какой компонент серии Cisco 10000 ESR PRE1 отвечает за четность/ECC сообщений об ошибках на маршрутизаторе.

/image/gif/paws/25701/esr10000a.gif

Примечание: Перехватите и сделайте запись выходных данных show tech-support и console log, и соберите весь crashinfo (сведения об аварийном отказе) и файлы pxf_crashinfo во время событий ошибки четности/ECC.

Обнаружение ошибок четности/ECC в PRE1

На следующей схеме изображена та часть архитектуры процессора маршрутизации PRE1, в которой могут возникать ошибки четности/ECC.

esr10000b.gif

В PRE1 RP для общего использования памяти SDRAM используется исправление однобитовых ошибок и ЕСС (исправление кодов ошибок) при обнаружении мультибитных ошибок. Одноразрядные ошибки в памяти SDRAM устраняются автоматически, и система продолжает работать в штатном режиме.

Мультибитная ошибка в SDRAM является фатальным событием, которое заставляет исключение в результате ошибки кэша или ошибку шины происходить. Для остальной части памяти и шин в системе используется одноразрядная схема контроля четности. Ошибки в одиночных битах (категории 1 и 3 на вышеуказанной схеме) являются неустранимыми и вызывают сброс маршрутизатора.

Ошибки четности/ECC в модуле ESR Route Processor серии Cisco 10000

О данных со сбоем при контроле четности могут сообщить несколько из устройств проверки четности для любой операции чтения или операции записи на ESR Серии Cisco 10000 с помощью PRE1.

Ниже приводится описание различных сообщений об ошибках RP сообщило относительно ESR Серии Cisco 10000 с установленным PRE1:

  • ОШИБКА SDRAM GT64120B

    Если при чтении из SDRAM системный контроллер GT64120B обнаруживает ошибку ECC в нескольких разрядах, выдается следующее сообщение об ошибках:

    %ERR-1-GT64120 (PCI-0): Fatal error, Memory parity error (external)
     GT=0xB4000000, cause=0x0100E283, mask=0x0ED01F00, real_cause=0x00000200
     bus_err_high=0x00000000, bus_err_low=0x00000000, addr_decode_err=0x00000470
     %ERR-1-FATAL: Fatal error interrupt, reloading
     RP FPGA status 0x00000004
     EPC 0x6084116C Error EPC 0xBFC00C54 BadVA 0xD6E8B233
     Status 0x3400FF03
    

    Замените модуль SDRAM при повторном отказе. Если сбой сохраняется, замените PRE1.

  • Системное чтение основной ошибки контроля четности GT64120B

    Доступ к любому из мостов PCI инициирует ошибку контроля четности в Ведущем устройстве Риде. Пример сообщения об ошибках четности:

    %ERR-1-GT64120 (PCI0):Fatal error, Parity error on master read
    GT=B4000000, cause=0x0110E083, mask=0x0ED01F00, real_cause=0x00100000
    Bus_err_high=0x00000000, bus_err_low=0x00000000,
    addr_decode_err=0x00000470
     
    %ERR-1-SERR: PCI bus system/parity error
    %ERR-1-FATAL: Fatal error interrupt, No reloading
    Err_stat=0x81, err_enable=0xFF, mgmt_event=0x40
    

    Замените PRE1 при обнаружении этих ошибок.

  • Ошибка контроля четности ЦП

    Если ЦП обнаруживает ошибку контроля четности при доступе к внешнему процессору (L3 на PRE1) кэш через его шину SysAD, или или воспоминаний внутреннего кэша ЦП (L1 или L2), о сообщении об ошибках четности ЦП сообщают. Таблица 1 показывает примеры сообщений, которые могут выводиться для каждого типа ошибки чётности кэша:

    Таблица 1: Локализация ошибки четности ЦП

    Обнаружение ошибок четности
    Кэш инструкций L1 Ошибка: Primary, instr cache, fields: данные
    Кэш данных L1 Ошибка: Primary, data cache, fields: данные
    Кэш инструкции L2 Ошибка: SysAD, instr cache, fields: данные
    Кэш данных L2 Ошибка: SysAD, data cache, fields: данные
    Кэш инструкции по L3 Ошибка: SysAD, instr cache, fields: 1st dword
    Кэш данных L3 Ошибка: SysAD, data cache, fields: 1st dword

    Используйте Таблицу 1 для определения местоположения ошибки контроля четности, сообщил консоли ESR Серии Cisco 10000.

Пример 1:

В первой строке сообщения об ошибках указывается, где обнаружена ошибка четности; это может быть любое место из перечисленных в таблице 1. В данном примере местоположением является Кэш данных L3.

Error: SysAD, data cache, fields: data, 1st dword
Physical addr(21:3) 0x195BE88,
Virtual address is imprecise.
    Imprecise Data Parity Error
    Imprecise Data Parity Error

Замените PRE1 при повторном отказе.

Пример 2:

В первой строке сообщения об ошибках указывается, где обнаружена ошибка четности; это может быть любое место из перечисленных в таблице 1. В этом примере ошибка расположена в кэше инструкций L3.

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0
 
          Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:  0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
          2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

Как в Примере 1, замените PRE1 после второго неудачного завершения.

  • Катастрофический отказ из-за ошибки контроля четности:

    Mar 14 10:32:01.029 UTC: %C10K_TOASTER-3-ERROR: TCAM0 has parity error
    Mar 14 10:32:01.033 UTC: %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA ToasterFault
    Mar 14 10:32:01.033 UTC: %C10KEVENTMGR-1-MINOR_REOCCURRING: PXF DMAToaster Fault 

    Ошибки контроля четности TCAM должны ожидаться на основе известных вычислений MTBF. Сообщение об ошибках является просто переходной неполадкой в оборудовании.

Анализ дерева отказов платы быстрых пакетов PRE1

Плата канала процессора пересылки (FP) - это главная карта сборки PRE1. Плата FP содержит три специализированных интегральных схемы (ASIC-схемы), одиночный ASIC Интерфейса объединительной платы и два Parallel Express Forwarding (PXF) ASIC-схемы Сетевой обработки. Каждый ASIC имеет доступ к системам внешней памяти.

Приведенная ниже схема поможет определить, какие компоненты Cisco серии 10000 ESR PRE1 FP ответственны за сообщения ошибки ECC.

/image/gif/paws/25701/esr10000c.gif

ОШИБКИ ASIC SDRAM ECC интерфейса объединительной платы

  • SDRAM ASIC интерфейса объединительной платы одиночные разрядные ошибки кода исправления ошибки (ECC)

    Для интерфейсной платы задней панели ASIC предусмотрен доступ к памяти SDRAM с ECC защитой. Ошибки в одном разряде обнаружены, и исправленные данные представлены. Об ошибках в одном разряде сообщают следующим образом:

    %C10KEVENTMGR-1-MINOR_FAULT: PXF DMA Single Bit SDRAM Error
    %C10KEVENTMGR-1-SBE_DEBUG: Address: 0x01003C00, 
    Who: 0x02, Data With ECC: 0x6E453363 2843ADAC D4
    
    10769E 9773870C, Data w/o ECC: 0x6E453363 2843ADAC D410769E 9773870C

    Число ошибок с инверсией бита учитывается и может быть отображено с помощью команды show hardware pxf dma counters программного обеспечения Cisco IOS. Действие обычно не требуется для ошибок в одном разряде; однако, повторенные или частые экземпляры ошибок в одном разряде являются причиной для замены PRE1.

  • SDRAM ASIC интерфейса объединительной платы мультибитовые ошибки ECC

    Если в памяти SDRAM на интерфейсной плате задней панели ASIC обнаруживаются мультибитные ошибки, это приводит к перезапуску микропрограммы сетевой обработки PXF, а также созданию в устройстве Bootflash файла pxf_crashinfo. Повторная загрузка микрокода Сетевой обработки PXF заставляет ASIC Интерфейса объединительной платы повторно инициализироваться, эффективно вычищая мультибитную ошибку от SDRAM. Ниже приведен пример сообщения, выводимого в консоль в ответ на мультибитовую ошибку ECC в интерфейсе объединительной панели ASIC SDRAM:

    %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Multi-bit SDRAM Error, Restarting PXF
     Downloading Microcode: file=system:pxf/c10k-1-ucode.3.1.0,
     version=3.1.0, description=Release Software created Tue 11-Sep-01 19:25
    

    Замените PRE1 при повторном отказе.

Обработка ошибок ECC в памяти столбца ASIC сетью PXF

Две ASIC обработки сети PXF имеют доступ к защищенному ECC столбцу памяти SDRAM или памяти внешних столбцов (XCM).

  • Ошибки ECC в одиночных битах XCM на ASIC-микросхемах сетевой обработки PXF

    Обнаружены однобитовые ошибки и представлены исправленные данные. Ошибки в одном бите учитываются, и число ошибок в одном бите для модуля сетевой обработки PXF ASIC XCM можно вывести с помощью команды show hardware pxf xcm.

    Когда обертки счетчика ошибки в одном разряде, об ошибках в одном разряде сообщают, и RP вычищает адрес первой ошибки в одном разряде, которая была обнаружена PXF Network Processing ASIC. Ниже приводится пример сообщения сообщил, когда сообщают об ошибке в одном разряде:

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: ECC Single bit error counter has wrapped

    Toaster (PXF Network Processing ASIC), номер и Интерфейс SDRAM в вышеупомянутом сообщении отражают интерфейс XCM, где была обнаружена ошибка в одном разряде от обернутого счетчика. Действие обычно не требуется для оберток счетчика ошибки в одном разряде; однако, повторенные или частые экземпляры этих ошибок являются причиной для замены PRE1.

  • Сетевая обработка PXF мультибитовых ECC-ошибок ASIC XCM

    Мультибитные ошибки ECC при попытке коррекции XCM нельзя исправить. В системах с избыточными PRE1 мультибитные ошибки XCM вызывают катастрофический отказ и аварийное переключение PRE. В системах с одиночным PRE1 обнаружение мультибитных ошибок XCM вызывает повторную загрузку микрокода PXF Network Processing ASIC. Повторная загрузка микрокода повторно инициализирует все памяти XCM PXF Network Processing ASIC, эффективно вычищая ECC мультибитовый сбой из памяти. В журнале и файле pxf_crashinfo/crashinfo появятся следующие сообщения:

    %TOASTER-2-FAULT: T0 XCM1 SDRAM-A: Multi-bit ECC error
    %C10KEVENTMGR-1-MAJOR_FAULT: PXF DMA Toaster Fault, Restarting PXF
     Downloading Microcode: file=system:pxf/c10k-1-ucode.102.3.0.0, version=102.3.0.0,
    

    Когда это происходит, сообщение об ошибках задает Toaster (T0 или T1), соответствующий XCM номер (1 - 4) и Интерфейс SDRAM (A или B), который встретился с мультибитовой ошибкой ECC.

    Замените PRE1 при повторном отказе.


Дополнительные сведения


Document ID: 25701