Коммутаторы : Коммутаторы Cisco Catalyst серии 6500

Catalyst 6000/6500 Устранение неисправностей, связанных с системными сбоями"

9 февраля 2011 - Перевод, выполненный профессиональным переводчиком
Другие версии: PDF-версия:pdf | Машинный перевод (28 июля 2013) | Английский (26 января 2009) | Отзыв

Содержание

Введение
Предварительные условия
      Требования
      Используемые компоненты
      Условные обозначения
Сбои, связанные с модулем управления
      Система возвращается в режим ROMmon при включении (прерывание процессора коммутации)
      Принудительный программный аварийный останов в системе
      Система возвращается в режим ROMmon; причина перезагрузки неизвестна
      %PM_SCP-1-LCP_FW_ERR
      %SYSTEM_CONTROLLER-3-FATAL
      Сбой модуля супервизора из-за неисправного вентилятора
      Самопроизвольный сброс или перезагрузка коммутатора
      Самопроизвольный сброс модуля с платой DFC
      Сбой, вызванный загрузкой с неверного устройства
      CONST_DIAG-2-HM_SUP_CRSH
      Драйвер EARL: сбой lyra_purge_search:process_push_event_list
      Запрос SNMP при обновлении ROMMon приводит к аварийному завершению работы коммутатора
      %Error Opening Bootflash:Crashinfo (File Not Found)
Сбои, связанные с модулем MSFC
      Система получает исключение, связанное с ошибкой шины
      Система получает исключение, связанное с контролем четности кэш-памяти
      Прочие ошибки, связанные с контролем четности
      %MISTRAL-3-ERROR
Общий порядок диагностики для коммутаторов под управлением CatOS
      Санитарная проверка в коде CatOS
      Восстановление коммутаторов Catalyst при сбое во время первоначальной загрузки CatOS
      Извлечение информации из файла Crashinfo
Поиск и устранение неполадок на основе сообщений об ошибках
Связанные обсуждения сообщества поддержки Cisco
Дополнительные сведения

Введение

В этом документе поясняется диагностика аварийных завершений процессора коммутации (SP) модуля Supervisor Engine и платы функций многоуровневой коммутации (MSFC) процессора маршрутизации (RP) в коммутаторах Cisco Catalyst серий 6000/6500.

Предварительные условия

Требования

Для этого документа нет особых требований.

Используемые компоненты

Приводимая в настоящем документе информация относится к модулям управления и платам MSFC коммутаторов Cisco Catalyst серий 6000/6500.

Сведения, представленные в этом документе, были получены от устройств, работающих в специальной лабораторной среде. Все устройства, описанные в данном документе, были запущены с конфигурацией по умолчанию. При работе в действующей сети необходимо понимать последствия выполнения любой команды.

Условные обозначения

Подробные сведения об условных обозначениях см. в документе Условное обозначение технических терминов Cisco.

Сбои, связанные с модулем управления

Система возвращается в режим ROMmon при включении (прерывание процессора коммутации)

Коммутатор Catalyst 6500/6000 с регистром конфигурации SP, разрешающим прерывание, например 0 x 2, получая сигнал прерывания с консоли, входит в режим диагностики ROMmon. Происходит системный сбой.

Следующий пример выходных данных коммутатора показывает, что вошел в диагностический режим ROMmon по сигналу прерывания консоли процессора коммутации.

Примечание. Регистр конфигурации в процессоре маршрутизации имеет значение 0 x 2102.

6500_IOS#show version
Cisco Internetwork Operating System Software 
IOS (tm) c6sup2_rp Software (c6sup2_rp-PS-M), Version 12.1(13)E14, EARLY DEPLOYMENT 
RELEASE SOFTWARE (fc1)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2004 by Cisco Systems, Inc.
Compiled Tue 30-Mar-04 01:56 by pwade
Image text-base: 0x40008C00, data-base: 0x417A6000

ROM: System Bootstrap, Version 12.1(4r)E, RELEASE SOFTWARE (fc1)
BOOTLDR: c6sup2_rp Software (c6sup2_rp-PS-M), Version 12.1(13)E14, EARLY DEPLOYMENT 
RELEASE SOFTWARE (fc1)

6500_IOS uptime is 31 minutes
Time since 6500_IOS switched to active is 31 minutes
System returned to ROM by power-on (SP by abort at PC 0x601061A8)
System image file is "slot0:c6sup12-ps-mz.121-13.E14"

cisco Catalyst 6000 (R7000) processor with 227328K/34816K bytes of memory.
Processor board ID SAD053701CF
R7000 CPU at 300Mhz, Implementation 39, Rev 2.1, 256KB L2, 1024KB L3 Cache
Last reset from power-on
X.25 software, Version 3.0.0.
Bridging software.
1 Virtual Ethernet/IEEE 802.3 interface(s)
192 FastEthernet/IEEE 802.3 interface(s)
18 Gigabit Ethernet/IEEE 802.3 interface(s)
381K bytes of non-volatile configuration memory.

16384K bytes of Flash internal SIMM (Sector size 512K).
Configuration register is 0x2102

Решением является перенастройка регистра конфигурации и перезагрузка системы. Выполните следующие действия:

  1. В режиме глобальной конфигурации введите команду config-register 0x2102 и установите значение регистра конфигурации 0x2102 для RP и SP.

    6500_IOS#config terminal
    Enter configuration commands, one per line. End with CNTL/Z.
    6500_IOS(config)#config-register 0x2102
    
    6500_IOS(config)#end
    
  2. При следующей перезагрузке проверьте значение регистра конфигурации командой show bootvar.

    6500_IOS#show bootvar
    BOOT variable = slot0:c6sup12-ps-mz.121-13.E14,1
    CONFIG_FILE variable = 
    BOOTLDR variable = 
    Configuration register is 0x2102
  3. Введите команду remote command switch show bootvar, чтобы проверить, не изменился ли также регистр конфигурации на SP.

    6500_IOS#remote command switch show bootvar
    
    
    6500_IOS-sp#
    BOOT variable = slot0:c6sup12-ps-mz.121-13.E14,1
    CONFIG_FILE variable = 
    BOOTLDR variable = 
    Configuration register is 0x2 (will be 0x2102 at next reload)
    
  4. Перезагрузите коммутатор для того, чтобы новое значение регистра конфигурации SP вступило в силу.

    6500_IOS#reload
    

    Примечание. Для сохранения конфигурации в этот момент можно ввести команду copy running-config startup-config. Однако этот шаг необязателен, поскольку установка регистра конфигурации не является частью начальной или рабочей конфигурации.

Принудительный программный аварийный останов в системе

При выполнении процедуры восстановления пароля на модуле Supervisor Engine 720 может произойти сбой коммутатора при вводе последовательности прерывания для доступа к консоли процессора маршрутизации.

*** System received a Software forced crash *** 
 signal= 0x17, code= 0x24, context= 0x4269f6f4 
 PC = 0x401370d8, Cause = 0x3020, Status Reg = 0x34008002

Чтобы предотвратить сбой модуля при восстановлении пароля, используйте следующую альтернативную методику восстановления пароля:

  1. Нажмите клавишу Break на клавиатуре терминала, как только RP получит управление портом консоли.

    На Catalyst 6500 под управлением ПО Cisco IOS® сначала загружается SP. Затем он передает управление процессору маршрутизации (RP). После того, как RP получает контроль, необходимо инициировать последовательность прерывания. В момент появления следующего сообщения RP уже получил управление портом консоли. (Не инициируйте последовательность прерывания до появления следующего сообщения):

    00:00:03: %OIR-6-CONSOLE: Changing console ownership to route processor

    Совет. Сочетания клавиш описаны в документе Стандартные сочетания клавиш прерывания, используемые во время восстановления пароля.

  2. В течение 10 секунд введите команду confreg 0x2142 в приглашение rommon 1> для загрузки из флэш-памяти без загрузки конфигурации.

  3. Перезагрузите коммутатор и продолжайте настройку нового пароля.

  4. В режиме глобальной конфигурации выполните команду config-register 0x2102 или восстановите иное исходное значение.

    Эта проблема документирована в описании идентификатора ошибки Cisco CSCec36997 (только для зарегистрированных пользователей).

Система возвращается в режим ROMmon; причина перезагрузки неизвестна

Коммутаторы Cisco Catalyst 6000/6500 могут неожиданно перезагружаться по неизвестным причинам. В выходных данных команды show version присутствует сообщение об ошибке следующего вида:

System returned to ROM by unknown reload cause - suspect 
boot_data[BOOT_COUNT] 0x0, BOOT_COUNT 0, BOOTDATA 19 (SP by power-on)

Эта проблема документирована в описании идентификатора ошибки Cisco CSCef80423 (только для зарегистрированных пользователей). Для устранения этой проблемы обновите коммутатор до последнего выпуска программного обеспечения Cisco IOS, в котором данная ошибка отсутствует.

%PM_SCP-1-LCP_FW_ERR

Это сообщение указывает на то, что микропрограмма указанного модуля обнаружила ошибку контроля четности. Система автоматически перезапускает данный модуль для восстановления. В этом модуле также отображается файл crashinfo. Сообщение об ошибке может быть вызвано переходными явлениями или аппаратным сбоем. Если сообщение об ошибке возникло только однократно, причиной могут быть переходные явления. Такие ошибки автоматически устраняются системой. Признак ошибки контроля четности — CPO_ECC в кэш-памяти. Код исправления ошибок (ECC) указывает на исправление ошибки контроля четности самой системой.

Существует два вида ошибок контроля четности.

  • Программные ошибки четности

    Эти ошибки возникают при изменении логических уровней от разовых возмущений (Single Event Latch up, SEL) в микросхеме. Будучи связаны с центральным процессором, такие ошибки или приводят к сбоям системы (если они возникли на участке, не подлежащем восстановлению), или они вынуждают другие системы выполнять восстановление (например, система CyBus перезагружается, если ошибка произошла в пакетной памяти (MEMD)). В случае единичной ошибки четности нет необходимости заменять модуль или другие компоненты.

  • Аппаратные ошибки четности

    Эти ошибки происходят в случае сбоев микросхемы или платы, повреждающих данные. В этом случае следует переустановить или заменить соответствующий компонент (как правило, микросхему памяти или плату). Если по одному и тому же адресу происходит несколько ошибок четности, это аппаратная ошибка четности. Бывают более сложные случаи, которые трудно распознать. Как правило, если в отдельной области памяти за относительно короткий промежуток времени происходит несколько ошибок, это, скорее всего, аппаратная ошибка четности. Сообщение об ошибке будет иметь следующий вид:

    Mar 9 12:12:24.427 GMT: %PM_SCP-SP-1-LCP_FW_ERR: Module 6 is experiencing the 
    following error: Pinnacle #0 PB parity error. Tx path. Status=0x0042

    Как показывают исследования, случайные ошибки четности встречаются в 10-100 раз чаще, чем систематические ошибки четности. Исходя из этого, компания Cisco настоятельно рекомендует дождаться аппаратной ошибки четности, прежде чем что-либо заменять. Это существенным образом уменьшит воздействие на сеть.

%SYSTEM_CONTROLLER-3-FATAL

Сообщение указывает, что системный контроллер обнаружил ошибку. Следует перезагрузить устройство. Если это сообщение возникнет снова, замените неисправную память или плату MSFC.

%SYSTEM_CONTROLLER-3-FATAL: An unrecoverable error has been detected.
The system is being reset.

%Software-forced reload

Сбой модуля супервизора из-за неисправного вентилятора

При отказе вентиляторного блока или выключении источника питания коммутаторы Cisco Catalyst с выпуском программного обеспечения Cisco IOS 12.1(19)E1 могут вызвать сбой модулей супервизоров. Эта проблема документирована в описании идентификатора ошибки Cisco CSCeb51698 (только для зарегистрированных пользователей). Обновите коммутатор до выпуска ПО Cisco IOS, не затрагиваемого этим дефектом.

Самопроизвольный сброс или перезагрузка коммутатора

При подозрениях на самопроизвольную перезагрузку коммутатора выполните команду show version, чтобы проверить время работы коммутатора с момента последней перезагрузки. Выполните команду show log для просмотра журнала перезагрузок, как это показано в примере, приведенном ниже. Просмотрите выходные данные этой команды, чтобы узнать, имеются ли записанные исключения.

sup2a> (enable)show version
WS-C6506 Software, Version NmpSW: 6.3(10)


!--- Output is suppressed.


Uptime is 7 days, 4 hours, 27 minutes
sup2a> (enable)show log

Network Management Processor (ACTIVE NMP) Log:
  Reset count:   1
  Re-boot History:   Jan 06 2003 10:35:56 0

  Bootrom Checksum Failures:      0   UART Failures:                  0
  Flash Checksum Failures:        0   Flash Program Failures:         0
  Power Supply 1 Failures:        0   Power Supply 2 Failures:        0
  Swapped to CLKA:                0   Swapped to CLKB:                0
  Swapped to Processor 1:         0   Swapped to Processor 2:         0
  DRAM Failures:                  0

  Exceptions:                     0

  Loaded NMP version:            6.3(10)
  Software version:              slot0:cat6000-sup2.6-3-10.bin
  Reload same NMP version count: 1

  Last software reset by user: 1/6/2003,10:35:35

  EOBC Exceptions/Hang:            0

Heap Memory Log:
Corrupted Block = none

Выходные данные команды show log не содержат исключений программного обеспечения. Последняя перезагрузка коммутатора выполнена 6 января 2003 г. Время перезагрузки совпадает с полем Last software reset (Последний программный сброс).

Выходные данные команды show log содержат исключение, которое было записано во время последней перезагрузки.

esc-cat5500-b (enable)show log

Network Management Processor (STANDBY NMP) Log:
Reset count: 38
Re-boot History: Oct 14 2001 05:48:53 0, Jul 30 2001 06:51:38 0
Jul 28 2001 20:31:40 0, May 16 2001 21:15:39 0
May 02 2001 01:02:53 0, Apr 26 2001 21:42:24 0
Apr 07 2001 05:23:42 0, Mar 25 2001 02:48:03 0
Jan 05 2001 00:21:39 0, Jan 04 2001 4:54:52 0
Bootrom Checksum Failures: 0 UART Failures: 0
Flash Checksum Failures: 0 Flash Program Failures: 0
Power Supply 1 Failures: 4 Power Supply 2 Failures: 0
Swapped to CLKA: 0 Swapped to CLKB: 0
Swapped to Processor 1: 3 Swapped to Processor 2: 0
DRAM Failures: 0

Exceptions: 1

Loaded NMP version: 5.5(7)
Reload same NMP version count: 3

Last software reset by user: 7/28/2001,20:30:38
Last Exception occurred on Oct 14 2001 05:47:29 ...
Software version = 5.5(7)
Error Msg:
PID = 86 telnet87
EPC: 80269C44


!--- Output is suppressed.

Если коммутатор сообщает о таком программном исключении, выполните команду dir bootflash:, показывает устройство загрузочной флэш-памяти MSFC (процессора маршрутизации [RP]), и команду dir slavebootflash: для проверки сбоя программного обеспечения. Выходные данные в этом разделе показывают, что информация о сбое была записана в загрузочной флэш-памяти RP. Убедитесь, что просматриваемые сведения относятся к последнему по времени сбою.

cat6knative#dir bootflash:
Directory of bootflash:/

    1  -rw-     1693168   Jul 24 2002 15:48:22  c6msfc2-boot-mz.121-8a.EX
    2  -rw-      183086   Aug 29 2002 11:23:40  crashinfo_20020829-112340
    3  -rw-    20174748   Jan 30 2003 11:59:18  c6sup22-jsv-mz.121-8b.E9
    4  -rw-        7146   Feb 03 2003 06:50:39  test.cfg
    5  -rw-       31288   Feb 03 2003 07:36:36  01_config.txt
    6  -rw-       30963   Feb 03 2003 07:36:44  02_config.txt

31981568 bytes total (9860396 bytes free)

Команда dir sup-bootflash: отображает загрузочную флэш-память модуля супервизора. Можно также выполнить команду dir slavesup-bootflash: для просмотра загрузочной флэш-памяти резервного модуля супервизора. В выходных данных команды содержатся сведения о сбое, записанные в загрузочной флэш-памяти модуля супервизора.

cat6knative11#dir sup-bootflash:
Directory of sup-bootflash:/

    1  -rw-    14849280   May 23 2001 12:35:09  c6sup12-jsv-mz.121-5c.E10
    2  -rw-       20176   Aug 02 2001 18:42:05  crashinfo_20010802-234205


!--- Output is suppressed.

Если выходные данные команды указывают, что сбой программного обеспечения произошел в то время, когда коммутатор перегрузился, следует обратиться в службу технической поддержки Cisco. Предоставьте выходные данные команд show tech-support и show logging, а также выходные данные файла crashinfo.

Самопроизвольный сброс модуля с платой DFC

Если модуль, оснащенный платой распределенной пересылки (DFC), сам выполнил перегрузку без вмешательства пользователя, проверьте загрузочную флэш-память платы DFC. Если имеется файл сведений об аварийных отказах, можно найти причину сбоя. Выполните команду dir dfc#модуль#-bootflash: для проверки файла сведений об аварийных отказах и времени его создания. Если перегрузка DFC совпадает со временем создания файла crashinfo, выполните команду more dfc#модуль#-bootflash:имя-файла. Либо передайте файл по протоколу TFTP на TFTP-сервер при помощи команды copy dfc#модуль#-bootflash:имя-файла tftp.

cat6knative#dir dfc#6-bootflash:
Directory of dfc#6-bootflash:/
-#- ED ----type---- --crc--- -seek-- nlen -length- -----date/time------ name 
1   ..   crashinfo 2B745A9A   C24D0   25   271437 Jan 27 2003 20:39:43 crashinfo_
 20030127-203943

После получения файла crashinfo соберите выходные данные команд show logging и show tech и за дальнейшим содействием обратитесь в Центр технической поддержки Cisco.

Сбой, вызванный загрузкой с неверного устройства

При загрузке с устройства, не перечисленного в таблице устройств, возникает сбой в модуле управления. Обновите коммутатор до выпуска ПО Cisco IOS 12.2(18r)SX05 или выше.

CONST_DIAG-2-HM_SUP_CRSH

Сообщения об ошибках

%CONST_DIAG-2-HM_SUP_CRSH: Supervisor crashed due to unrecoverable errors, 
Reason: Failed TestSPRPInbandPing
%CONST_DIAG-2-HM_SUP_CRSH: Standby supervisor crashed due to unrecoverable errors, 
Reason: Failed TestSPRPInbandPing

Причины и способы устранения:

  • При повреждении записей таблицы TCAM может не проходить проверка SPRPInbandPing. Если проверка в составе обобщенной оперативной диагностики Cisco (GOLD) не пройдет в течение 10 раз подряд, то может произойти аварийное завершение работы модуля супервизора.

    Для устранения этой проблемы обновите ПО Cisco IOS до выпуска, не затронутого идентификатором ошибки Cisco CSCsc33990 (только для зарегистрированных пользователей).

  • Если на устройстве разрешен контроль состояния, и во время запуска настроена полная диагностика, то может произойти аварийное завершение работы модуля супервизора во время процесса загрузки.

    Для некоторых проверок контроль состояния и полная диагностика являются взаимоисключающими. В качестве временного решения можно отключить любой из этих механизмов, в зависимости от потребностей.

Драйвер EARL: сбой lyra_purge_search:process_push_event_list

Коммутаторы Cisco Catalyst 6500/6000 могут неожиданно перезагружаться в ходе начальной загрузки. В журнале сбоев могут присутствовать системные сообщения, подобные следующим:

От активного модуля супервизора:

%SYS-SP-2-MALLOCFAIL: Memory allocation of 320000 bytes 
failed from 0x40BCF26C, alignment 8 
Pool: Processor  Free: 75448  Cause: Not enough free memory 
Alternate Pool: None  Free: 0  Cause: No Alternate pool 
-Process= "CEF process", ipl= 0, pid= 240
-Traceback= 40280AB4 40288058 40BCF274 40BE5660 40BE5730 4029A764 4029A750

%L2-SP-4-NOMEM: Malloc failed: L2-API Purge/Search failed. size req. 512

SP: EARL Driver:lyra_purge_search:process_push_event_list failed

%SCHED-SP-2-SEMNOTLOCKED: L2 bad entry (7fff/0) purge proc
attempted to unlock an unlocked semaphore
-Traceback= 402C202C 4058775C 4058511C 40587CB8

От резервного модуля супервизора:

%SYS-SP-STDBY-2-MALLOCFAIL: Memory allocation of 2920 bytes 
failed from 0x40174088, alignment 8 
Pool: Processor  Free: 9544  Cause: Memory fragmentation 
Alternate Pool: None  Free: 0  Cause: No Alternate pool 
-Process= "DiagCard2/-1", ipl= 0, pid= 154
-Traceback= 4016F7CC 40172984 40174090 4063601C 40636584 4062D194 4062ABD8 4062A9EC
4017E0B0 4017E09C

%L2-SP-STDBY-4-NOMEM: Malloc failed: L2-API Purge/Search failed. size req. 512

%SCHED-SP-STDBY-2-SEMNOTLOCKED: L2 bad entry (7fff/0) purge proc
attempted to unlock an unlocked semaphore
-Traceback= 4018A300 403F0400 403EDD7C 403F0A48

SP-STDBY: EARL Driver:lyra_purge_search:process_push_event_list failed

%SYS-SP-STDBY-2-MALLOCFAIL: Memory allocation of 1400 bytes 
failed from 0x409928B4, alignment 8 
Pool: Processor  Free: 7544  Cause: Memory fragmentation 
Alternate Pool: None  Free: 0  Cause: No Alternate pool 
-Process= "CEF LC Stats", ipl= 0, pid= 138
-Traceback= 4016F7CC 40172984 409928BC 409C5EEC 4098A5EC

Начиная с выпуска ПО Cisco IOS 12.2(17d)SXB, модуль Supervisor Engine 2 требует не менее 256 мегабайт динамической оперативной памяти. Если объем памяти вашего модуля супервизора составляет 128 МБ, то для устранения этой проблемы обновите память, установив не менее 256 МБ. Дополнительные сведения см. в разделе Замечания к выпуску Cisco IOS 12.2SX на базе модулей управления Supervisor Engine 720, 32 и 2.

Запрос SNMP при обновлении ROMMon приводит к аварийному завершению работы коммутатора

Коммутаторы Cisco Catalyst 6000/6500 могут неожиданно перезагружаться по неизвестным причинам.

01:22:25: %SNMP-3-AUTHFAIL: Authentication failure for SNMP req from host 10.1.2.2
01:23:25: %SNMP-3-AUTHFAIL: Authentication failure for SNMP req from host 10.1.2.2
01:23:40: ROMMON image upgrade in progress
01:23:40: Erasing flash

Unexpected exception, CPU signal 5, PC = 0x402F3DC4

Если во время обновления ROMMon система получает запрос SNMP, это может вызвать перезагрузку коммутатора.

    Чтобы при обновлении ROMMon не происходила перезагрузка коммутатора, выполните следующую процедуру:

  1. Отключите агент SNMP в коммутаторе.

    no snmp-server
  2. Заблокируйте возможные запросы SNMP, адресованные устройству от станций управления сетью.

  3. Выполните обновление ROMMon только на резервном модуле. Для обновления активного модуля супервизора выполните форсированное переключение, затем произведите обновление ROMMon.

    redundancy force-switchover

%Error Opening Bootflash:Crashinfo (File Not Found)

Это сообщение появляется в составе выходных данных команды show stacks (а также команды show tech-support). Полное сообщение имеет следующий вид:

***************************************************
******* Information of Last System Crash **********
***************************************************
 

Using bootflash:crashinfo.
 
%Error opening bootflash:crashinfo (File not found)
 
***************************************************
****** Information of Last System Crash - SP ******
***************************************************
 

The last crashinfo failed to be written.
Please verify the exception crashinfo configuration
the filesytem devices, and the free space on the
filesystem devices.
Using crashinfo_FAILED.
 
%Error opening crashinfo_FAILED (File not found)

Такое сообщение может отображаться в двух случаях.

  • На устройстве bootflash: недостаточно свободного пространства для хранения файла crashinfo. Чтобы проверить, достаточно ли пространства на устройстве bootflash, введите команду dir bootflash: или команду dir all. Оставьте для файла crashinfo некоторый объем свободного пространства (на случай, если коммутатор в будущем по какой-либо причине перестанет работать).

  • Аварийного завершения работы системы никогда не возникало. Если выполнялся перезапуск коммутатора по подозрению на сбой, то выполните команду show version. В выходных данных отыщите строку, которая бы начиналась словами: System returned to ROM by. Если далее следует текст power-on, то аварийного завершения работы коммутатора не было. Некоторые другие фразы, которые могут указывать на сбой (список не является исчерпывающим): unknown reload cause - suspect (неизвестная причина перезагрузки — подозрительно), processor memory parity error at PC (ошибка контроля четности памяти процессора по месту в программе) и SP by abort at PC (прерывание SP по месту в программе).

Сбои, связанные с модулем MSFC

Система получает исключение, связанное с ошибкой шины

Может произойти сбой платы MSFC с исключением ошибки шины, которое может возникнуть по причине как программной, так и аппаратной проблемы. Могут присутствовать следующие сообщения об ошибках:

  • На консоли:

    *** System received a Bus Error exception ***
    signal= 0xa, code= 0x10, context= 0x60ef02f0
    PC = 0x601d22f8, Cause = 0x2420, Status Reg = 0x34008002
  • В выходных данных команды show version:

    
    !--- Output is suppressed.
    
    System was restarted by bus error at PC 0x0, address 0x0 at 15:31:54 EST Wed Mar 29 2000
    
    !--- Output is suppressed.
    
    

Если указанный адрес является недействительным и находится вне диапазона памяти, это означает наличие ошибки в программном обеспечении. Если адрес находится в допустимом диапазоне, причина возникновения проблемы может заключаться в аппаратном сбое памяти процессора.

За дополнительной информацией о сбоях, связанных с ошибками шины, обратитесь к документу Устранение сбоев из-за ошибок шины. Дополнительные сведения см. в описании идентификатора ошибки Cisco ID CSCdx92013 (только для зарегистрированных пользователей).

Система получает исключение, связанное с контролем четности кэш-памяти

Плата MSFC не предусматривает защиту памяти на основе кода исправления ошибок. Таким образом, обнаружение ошибки приводит к аварийному завершению работы платы MSFC. Ниже приведены некоторые из ошибок, возникающие в результате:

  • На консоли отображается:

    *** System received a Cache Parity Exception *** 
    signal= 0x14, code= 0xa405c428, context= 0x60dd1ee0 
    PC = 0x6025b2a8, Cause = 0x6420, Status Reg = 0x34008002
  • В выходных данных команды show version отображается:

    
    !--- Output is suppressed.
    
    System returned to ROM by processor memory parity error at PC 0x6020F4D0, 
    address 0x0 at 18:18:31 UTC Wed Aug 22 2001   
    
    !--- Output is suppressed.
    
    

Файл crashinfo, записанный в загрузочной флэш-памяти или на консоли, содержит следующее:

Error: primary data cache, fields:  data, SysAD 
virtual addr 0x4B288202, physical addr(21:3) 0x288200, vAddr(14:12) 0x0000 
virtual address corresponds to pcimem, cache word 0 
Address: 0x4B288200 not in L1 Cache      
Address: 0x4B288202 Can not be loaded into L1 Cache

При возникновении ошибки более одного раза плату MSFC необходимо заменить. Однократное возникновение ошибки можно рассматривать как следствие случайного возмущения. В этом случае необходимо установить наблюдение за платой MSFC. Дополнительную информацию об ошибках четности см. в документе Ошибки четности памяти процессора (PMPE).

Прочие ошибки, связанные с контролем четности

Плата MSFC2 предусматривает защиту памяти на основе кода ECC. Тем не менее, существуют области памяти, в которых проверить четность возможно, но исправить одноразрядные ошибки не удается. Ниже представлены некоторые сообщения об ошибках, отображаемые в файле crashinfo и указывающие на ошибку четности:

  • MISTRAL_TM_DATA_PAR_ERR_REG_MASK_HI: 42
  • Error condition detected: TM_NPP_PARITY_ERROR
  • Error condition detected: SYSAD_PARITY_ERROR
  • Error condition detected: SYSDRAM_PARITY

Однократное возникновение сообщений об ошибках следует рассматривать как следствие случайного возмущения. Необходимо установить наблюдение за платой MSFC2. При более частом возникновении ошибок плату MSFC2 необходимо заменить. Дополнительную информацию об ошибках четности см. в документе Ошибки четности памяти процессора (PMPE).

%MISTRAL-3-ERROR

При наличии файла crashinfo на загрузочном устройстве флэш-памяти после возникновения аварийного отказа необходимо выполнить команду more bootflash:crashinfo_filename. Команда отображает информацию файла crashinfo. Если в начале журнала crashinfo присутствует сообщение об ошибке MISTRAL-3-ERROR, то необходимо определить, имела ли место одна из наиболее распространенных причин. Для этого обратитесь к разделу Сбой MSFC2 с сообщениями Mistral-3-Error в файле Crashinfo.

Общий порядок диагностики для коммутаторов под управлением CatOS

Санитарная проверка в коде CatOS

Команда show system sanity запускает набор предопределенных проверок конфигурации с возможным сочетанием нескольких состояний системы для составления списка ситуаций, представляющих угрозу. Проверки предназначены для поиска всех вероятных несоответствий. Проверки также предназначены для поддержания системы необходимой корректной настройки системы и ее исправной работы. Эта команда поддерживается в CatOS версии 8.3x или выше.

Список выполняемых проверок и образец выходных данных команды приведены в разделе Санитарная проверка неполадок в настройках и общего состояния системы.

Восстановление коммутаторов Catalyst при сбое во время первоначальной загрузки CatOS

Восстановление коммутаторов Cisco Catalyst 6000/6500 с модулем управления Supervisor Engine 1 или 2 описано в разделе Восстановление Catalyst 6500/6000 с модулем управления Supervisor Engine I или II.

Восстановление коммутатора Cisco Catalyst 6000/6500 с модулем управления Supervisor Engine 720 или 32 описано в разделе Восстановление коммутатора Cisco Catalyst 6000/6500 с модулем управления Supervisor Engine 720 или 32.

Извлечение информации из файла Crashinfo

Файл crashinfo содержит коллекцию важных сведений о текущем сбое, сохраненных во флэш-памяти или загрузочной флэш-памяти. Если маршрутизатор дает сбой из-за повреждения данных или стека, для отладки этого типа сбоев нужно больше сведений о перезагрузке, чем просто выходные данные обычной команды show stacks.

В файле сведений об аварийном отказе содержатся следующие сведения:

  • ограниченное сообщение об ошибке (журнал) и история команд;

  • описание образа, работавшего в момент сбоя;

  • выходные данные команды show alignment;

  • трассировка операций выделения-освобождения памяти (malloc/free);

  • трассировка стека на уровне процессов;

  • контекст на уровне процесса;

  • дамп стека на уровне процесса;

  • дамп стека на уровне прерывания;

  • сведения об уровне процесса;

  • дамп памяти регистров на уровне процесса.

Порядок получения файла crashinfo и дополнительные сведения приведены в документе Извлечение информации из файла Crashinfo.

Поиск и устранение неполадок на основе сообщений об ошибках

Для коммутаторов Cisco Catalyst 6000/6500, работающих в основном режиме IOS, см. документ Общие сообщения об ошибках на коммутаторах Catalyst серии 6500/6000 под управлением ПО Cisco IOS. Если появилось сообщение об ошибке, отсутствующее в списках распространенных сообщений об ошибках, то обратитесь к следующим документам:

Для коммутаторов Cisco Catalyst 6000/6500, работающих с гибридной операционной системой, см. документ Общие сообщения об ошибках CatOS на коммутаторах Catalyst серии 6500/6000. Если появилось сообщение об ошибке, отсутствующее в списках распространенных сообщений об ошибках, то обратитесь к следующим документам:

Дополнительную информацию можно найти на следующих ресурсах:


Связанные обсуждения сообщества поддержки Cisco

В рамках сообщества поддержки Cisco можно задавать и отвечать на вопросы, обмениваться рекомендациями и совместно работать со своими коллегами.


Дополнительные сведения


Document ID: 71095