Программное обеспечение Cisco IOS и NX-OS : Программное обеспечение Cisco IOS версии 12.1 Mainline

Устранение неисправностей при аварийных отказах шины

5 апреля 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Перевод, выполненный профессиональным переводчиком (11 августа 2008) | Английский (31 декабря 2015) | Отзыв


Интерактивно этот документ предлагает анализ конкретного устройства Cisco.


Содержание


Введение

В данном документе описываются способы идентификации сбоев по причине ошибки шины, а также порядок устранения подобных неполадок в зависимости от типа процессора, установленного на маршрутизаторе Cisco.

Предварительные условия

Требования

Cisco рекомендует считать Отказы маршрутизатора Устранения проблем перед продолжением этого документа.

Используемые компоненты

Сведения, содержащиеся в данном документе, касаются следующих версий программного и аппаратного обеспечения:

  • Весь Cisco версии программного обеспечения IOS�

  • Все маршрутизаторы Cisco

Примечание: Этот документ неприменим к коммутаторам Cisco Catalyst или платформам MGX.

Сведения, представленные в этом документе, были получены от устройств, работающих в специальной лабораторной среде. Все устройства, описанные в этом документе, были запущены с чистой (стандартной) конфигурацией. В рабочей сети необходимо изучить потенциальное воздействие всех команд до их использования.

Условные обозначения

Более подробную информацию о применяемых в документе обозначениях см. в описании условных обозначений, используемых в технической документации Cisco.

Идентификация сбоев шины

Система обнаружила ошибку шины: процессор пытается обратиться к адресу памяти, который либо не существует (программная ошибка), либо не отвечает должным образом (аппаратная проблема). Ошибка шины может быть определена от выходных данных команды Show version, предоставленной маршрутизатором если не выключенный или вручную повторно загруженный.

Если у вас есть выходные данные show version или команды show technical-support (от режима включения) от устройства Сisco, вы можете использовать его для показа потенциальных проблем и исправляете. Для использования его необходимо быть зарегистрированным заказчиком, войтись и включить JavaScript.

Router uptime is 2 days, 21 hours, 30 minutes 

System restarted by bus error at PC 0x30EE546, address 0xBB4C4 

System image file is "flash:igs-j-l.111-24.bin", booted via flash 
.........

В приглашении консоли это сообщение об ошибках может также быть замечено во время ошибки шины:

*** System received a Bus Error exception *** 
signal= 0xa, code= 0x8, context= 0x608c3a50
PC = 0x60368518, Cause = 0x20, Status Reg = 0x34008002
.........

После этого перезагрузки маршрутизатора. Однако в некоторых случаях маршрутизатор входит в цикл сбоев и перезагрузок, который возможно прервать только ручным вмешательством.

Другая связанная проблема является катастрофическим отказом Многоцелевого интерфейсного процессора (VIP). Если эта проблема происходит, сообщения об ошибках, подобные им, зарегистрированы:

%VIP2 R5K-1-MSG: slot0 System reloaded by a Bus Error exception
%VIP2 R5K-1-MSG: slot0 caller=0x600BC974
%VIP2 R5K-1-MSG: slot0 System exception: sig=10, code=0x408,
context=0x605B51E0

Наконец, другой тип отказа из-за ошибки шины является отказом линейной платы на Интернет-маршрутизаторе Cisco 12000 серии. Если эта проблема происходит, сообщения об ошибках, подобные им, зарегистрированы в выходных данных show context:

Router#show context

... 

CRASH INFO: Slot 1, Index 1, Crash at 11:27:15 utc  Wed May 16 2001
 VERSION: 

 GS Software (GLC1-LC-M), Version 12.0(16.5)S, EARLY DEPLOYMENT MAINTENANCE 

 INTERIM SOFTWARE 

 TAC Support: http://www.cisco.com/pcgi-bin/ibld/view.pl?i=support    

 Compiled Thu 29-Mar-01 17:12 by ninahung 

 Card Type: 3 Port Gigabit Ethernet, S/N 

 System exception: SIG=10, code=0x2008, context=0x40D8DF44 

 System restarted by a Bus Error exception 

 STACK TRACE: 

 -Traceback= 40165800 4038D0FC 4025C7BC 4026287C 4029581C 402EECF8 400C0144    

 CONTEXT: 

 $0 : 00000000, AT : 00000000, v0 : 00000044, v1 : 0FE00020 

 a0 : 00000000, a1 : 0FE00000, a2 : 00000000, a3 : 39EC6AAB 

 t0 : 00000030, t1 : 34008D01, t2 : 34008100, t3 : FFFF00FF 

 t4 : 400C01E8, t5 : 00000001, t6 : 00000001, t7 : 00000001 

 s0 : 40DCDD20, s1 : 0FE00000, s2 : 00000000, s3 : 000005DC 

 s4 : 00000000, s5 : 0FE00020, s6 : 00000004, s7 : 414CF120 

 t8 : 41680768, t9 : 00000000, k0 : 00000000, k1 : FFFF8DFD 

 gp : 40CB9780, sp : 4105BFE8, s8 : 41652BA0, ra : 4038D0FC 

 EPC : 0x40165800, SREG : 0x34008D03, Cause : 0x00002008 

 ErrorEPC : 0xBFC22B94
 -Process Traceback= No Extra Traceback

Посмотрите Отказы линейной платы Устранения проблем на Интернет-маршрутизаторе Cisco 12000 серии для получения дополнительной информации.

Выходные данные команды show alignment от устройства Cisco можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для работы с необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Устранение неисправностей при аварийных отказах шины

Первым делом нужно выяснить, к какому месту памяти (также известному под именем "адрес" или "адресный операнд") маршрутизатор пытался получить доступ, когда произошла ошибка шины. Данные сведения указывают на причину отказа: ошибка ПО Cisco IOS либо сбой оборудования маршрутизатора. В примере, "Система, перезапущенная ошибкой шины в ПК 0x30EE546, 0xBB4C4 адреса", место в памяти, к которому маршрутизатор попытался обратиться, является 0xBB4C4. Не следует путать это с вышеупомянутым значением счетчика программы (PC).

Вторая вещь сделать, определяют тип процессора в маршрутизаторе. Расположения адреса блока памяти для маршрутизаторов отличаются в зависимости от типа процессора. Для маршрутизаторов Cisco существует два основных типа процессоров:

  • Процессоры 68000

    Это - часть выходных данных show version, которые указывают, что маршрутизатор имеет 68000 процессоров:

    cisco 2500 (68030) processor (revision D) with 8192K/2048K bytes of memory.
    

    Платформы маршрутизаторов, имеющих процессоры 68000, включают:

    • Cisco 1000 Series Routers

    • Cisco 1600 Series Routers

    • Маршрутизаторы Cisco серии 2500

    • Cisco 4000 Series Routers

    • Модули процессоров маршрутизации (RP) на Cisco 7000 (RP) Series Routers

  • Процессоры с архитектурой вычислений с сокращённым набором команд (RISC)

    Это - часть выходных данных show version, которые указывают, что маршрутизатор имеет процессор RISC:

    cisco 3640 (R4700) processor (revision 0x00) with 49152K/16384K bytes of memory.

    R в (R4700) указывает на процессор RISC.

    Платформы маршрутизатора с RISC-процессором включают в себя:

    • Маршрутизаторы Cisco серии 3600

    • Cisco 4500 Series Routers

    • Cisco 4700 Series Routers

    • Модули процессора коммутации маршрутов (RSP) для Cisco 7500 Series иCisco 7000 (RSP7000) Series Routers

    • Модули Network Processor Engine (NPE) на маршрутизаторах Cisco серии 7200

    • Функциональная карта многоуровневого коммутатора (MSFC) на маршрутизаторах Cisco серии 7600 или Коммутаторе Catalyst 6000

    • Модули высокопроизводительного механизма маршрутизации (PRE) на маршрутизаторах Cisco серии 10000

    • Модули гигабитного процессора маршрута (GRP) на Интернет-маршрутизаторах Cisco серии 12000

Как только вы определили адрес и тип процессора, можно запустить с более подробного устранения проблем.

Устранение неисправностей при сбоях из-за ошибки шины на платформах процессора 68000

Зная адрес, к которому обращался маршрутизатор при возникновении ошибки шины, используйте команду show region, чтобы определить область памяти, которой соответствует этот адрес. Если адрес, о котором сообщает ошибка шины, не находится в пределах диапазонов, отображенных в выходных данных show region, это означает, что маршрутизатор попытался обратиться к адресу, который не допустим. Отображается сообщение о том, что это проблема ПО Cisco IOS. Используйте Средство интерпретации выходных данных (только зарегистрированные клиенты), чтобы декодировать выходные данные команды show stacks и определить ошибку программного обеспечения Cisco IOS, которая вызывает ошибку шины.

С другой стороны, если адрес находится в пределах одного из диапазонов в выходных данных show region, это означает, что маршрутизатор обратился к действительному адресу памяти, но аппаратные средства, соответствующие тому адресу, не отвечают должным образом. Это указывает на аппаратную проблему.

Здесь приведен пример выходных данных команды show region:

Router#show region 

Region Manager: 

     Start         End     Size(b)  Class  Media  Name 

0x00000000  0x007FFFFF     8388608  Local  R/W    main 

0x00001000  0x0001922F       98864  IData  R/W    main:data 

0x00019230  0x000666B3      316548  IBss   R/W    main:bss 

0x000666B4  0x007FEFFF     7965004  Local  R/W    main:heap 

0x007FF000  0x007FFFFF        4096  Local  R/W    main:flhlog 

0x00800000  0x009FFFFF     2097152  Iomem  R/W    iomem 

0x03000000  0x037FFFFF     8388608  Flash  R/O    flash 

0x0304033C  0x037A7D3F     7764484  IText  R/O    flash:text

Примечание: В некоторых более ранних версиях программного обеспечения Cisco IOS эта команда не доступна. Выходные данные команды show region могут также быть частью выходных данных команды show tech-support ПО Cisco IOS версии 12.0(9).

Адреса отображены в шестнадцатеричном формате. Адреса, которые находятся в пределах "запуска" и "Конечных" диапазонов, являются действительными адресами памяти.

Main адрес соответствует основной памяти или динамическому ОЗУ (DRAM).

iomem соответствует памяти ввода-вывода, что означает различные области для различных платформ. Например, DRAM для Cisco 2500, общая память RAM (SRAM) для Cisco 4000.

Все еще с помощью предыдущего примера, System restarted by bus error at PC 0x30EE546, address 0xBB4C4, этот отказ из-за ошибки шины прибывает из Маршрутизатора Cisco 2500 с выходными данными show region. Адрес 0xBB4C4 эквивалентен 0x000BB4C4. Из выходных данных команды show region видно, что этот адрес попадает в диапазон адресов "main", а именно "main:heap" или адрес 0x000666B4-0x007FEFFF. Как было упомянуто ранее, "main" (основной) соответствует основной памяти или DRAM, поэтому модули DRAM следует проверить.

Если это новый маршрутизатор или маршрутизатор был перемещен с одного места на другое, то микросхемы памяти часто теряют контакт. Рекомендуется переставить или плотно установить микросхемы памяти в гнездо. Большую часть времени это достаточно для решения этого типа аварии.

В случае аварийных сбоев из-за ошибок шины по адресам, не совпадающим с диапазоном адресов в выходных данных команды show region, следует использовать Интерпретатор выходных данных для расшифровки выходных данных команды show stacks и определения ошибки ПО Cisco IOS, вызывающей ошибку шины. Если вы не уверены, какой идентификатор ошибки может соответствовать или какая версия программного обеспечения Cisco IOS содержит решение проблемы, то обновление вашего программного обеспечения Cisco IOS до последней версии – это один из вариантов решения проблемы, так как в ней обычно содержится решения большего числа проблем и ошибок.

Выходные данные команды show version или show technical-support (во включенном режиме), полученные от устройства Cisco, можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для работы с необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Устранение аварийных отказов, связанных с ошибкой шины на платформах RISC-процессора

Рекомендуется считать раздел по Устранению проблем Отказов из-за ошибки шины на 68000 Процессорных платформ перед переходом этот раздел.

На RISC-процессорах ПО Cisco IOS использует виртуальные адреса при использовании Translation Lookaside Buffer (TLB), который переводит виртуальные адреса в физические. Таким образом, адрес, упоминающийся в отчетах об ошибках шины на RISC-процессорах, является виртуальным, в отличие от физического адреса, который используется на процессорах серии 68000.

Выходные данные команды show region должны использоваться для проверки адреса, о котором сообщает ошибка шины. Для иллюстрации рассмотрим следующий пример:

System was restarted by bus error at PC 0x60104864, address 0xC

Используя результаты выполнения команды show region, можно убедиться в недействительности виртуального адреса 0xC и прийти к выводу, что ошибка шины была вызвана программной проблемой. Используйте Интерпретатор выходных данных (только для зарегистрированных клиентов) для декодирования выходных данных команд show stacks или show technical-support (в режиме включения) и для определения программных ошибок Cisco IOS, вызывающих сбой шины.

Другим преимуществом использования команды show region является то, что распределение памяти зависит от количества памяти, установленной в маршрутизаторе. Например, при наличии 64 МБ DRAM (64 x 1024 x 1024 = 67108864 байт = 0x4000000 байт), диапазон DRAM равен 0x60000000 - 0x63FFFFFF для 64 МБ. Это подтверждается командой show region:

Router#show version | i of memory 

cisco RSP2 (R4700) processor with 65536K/2072K bytes of memory. 


Router#show region 

Region Manager: 


     Start         End     Size(b)  Class  Media  Name 

0x40000000  0x40001FFF        8192  Iomem  REG    qa 

0x40002000  0x401FFFFF     2088960  Iomem  R/W    memd 

0x48000000  0x48001FFF        8192  Iomem  REG    QA:writethru 

0x50002000  0x501FFFFF     2088960  Iomem  R/W    memd:(memd_bitswap) 

0x58002000  0x581FFFFF     2088960  Iomem  R/W    memd:(memd_uncached) 

0x60000000  0x63FFFFFF    67108864  Local  R/W    main 

0x60010908  0x60C80B11    13042186  IText  R/O    main:text 

0x60C82000  0x60F5AF1F     2985760  IData  R/W    main:data 

0x60F5AF20  0x610E35FF     1607392  IBss   R/W    main:BSS 

0x610E3600  0x611035FF      131072  Local  R/W    main:fastheap 

0x61103600  0x63FFFFFF    49269248  Local  R/W    main:heap 

0x80000000  0x83FFFFFF    67108864  Local  R/W    main:(main_k0) 

0x88000000  0x88001FFF        8192  Iomem  REG    QA_k0 

0x88002000  0x881FFFFF     2088960  Iomem  R/W    memd:(memd_k0) 

0xA0000000  0xA3FFFFFF    67108864  Local  R/W    main:(main_k1) 

0xA8000000  0xA8001FFF        8192  Iomem  REG    QA_k1 

0xA8002000  0xA81FFFFF     2088960  Iomem  R/W    memd:(memd_k1)

Если имеет место ошибка шины по адресу 0x65FFFFFF, в выходных данных команды show region будет учтено количество памяти, а также сказано, что это недействительный адрес (программная ошибка).

Общее правило таково:

Особые типы сбоев «Ошибка шины»

Особый тип ошибок шины – когда сбой вызван поврежденным программным счетчиком (PC). Значение ПК - это расположение инструкции, которую применял процессор во время последней ошибки шины. Когда ошибка шины, вызванная поврежденным ПК, происходит, следующее сообщение появляется на консоли:

%ALIGN-1-FATAL: Corrupted program counter 

  pc=0x0, ra=0x601860BC, sp=0x60924540, at=0x60224854

В этом случае PC перешел на адрес 0x0 (вероятно, из-за пустого указателя), но в этом месте инструкция не располагается. Это программный сбой, поэтому нет необходимости выполнять проверку с помощью команды show region.

На других RISC-платформах (Cisco 3600, 4500 и т. д.) переход по недопустимому адресу PC вызывает исключение SegV, а не ошибку шины.

Другой тип отказа из-за ошибки шины, который происходит время от времени, - когда значение ПК равно значению адреса. Например:

System returned to ROM by bus error at PC 0x606B34F0, address 0x606B34F0

От файла crashinfo:

Unexpected exception, CPU signal 10, PC = 0x606B34F0
   
  $0 : 00000000, AT : A001A24A, v0 : 00000000, v1 : 00000000
  a0 : 00000000, a1 : 429CC394, a2 : 00000000, a3 : 62544344
  t0 : 6069F424, t1 : 3400FF00, t2 : FFFFFFFB, t3 : 00000000
  t4 : 606B8E68, t5 : 80000000, t6 : AA5C1022, t7 : 62FDE9D4
  s0 : 62300000, s1 : 6281A1B8, s2 : 80007E20, s3 : 00000001
  s4 : 00000001, s5 : 00000000, s6 : 62310000, s7 : 62544344
  t8 : 62FDEA1C, t9 : 0D0D0D0D, k0 : 623079C0, k1 : 00000014
  gp : 620B9E20, sp : 61E7E300, s8 : 00000000, ra : 606B8E68
  EPC : 606B34F0, ErrorEPC : 606B8E68, SREG : 3400FF02
  Cause 00004018 (Code 0x6): Instruction Bus Error exception
   
  -Traceback= 606B34F0 606B8E68

Заметьте, что значение регистра k1 является 0x14 (шестнадцатеричным), который равен 20 в десятичном числе. Это указывает к Нарушению четности для кэша. В данном случае ошибка контроля четности не обрабатывается должным образом и маскируется ошибкой шины. Аварийный сбой маршрутизатора произошел из-за программной ошибки шины, возникшей в функции обработки исключения четности кэша.

Этот сбой произошел в результате ошибки четности регулярной памяти процессора, поэтому нужно следовать рекомендациям, данным в разделе "Ошибки четности памяти процессора (PMPE)".

Следует также рассмотреть вопрос об обновлении Cisco IOS software release до версии с исправлением для ошибки CSCdv68388 - "Обработчик исключений ошибок при изменения кэша восстанавливается, без сбоя", которая была исправлена в Cisco IOS Software Release 12.2(10).

Методика поиска и устранения неисправностей для циклов загрузки с исключением из-за ошибки шины

Этот раздел фокусируется на способах общей информации по устранению проблем для циклов загрузки исключения ошибки шины:

  • Загруженное программное обеспечение Cisco IOS не поддерживает установленное оборудование

  • Отказ программного обеспечения

  • Неправильная установка оборудования

  • Отказ аппаратных средств

Загруженное программное обеспечение Cisco IOS не поддерживает установленное оборудование

Проверьте, что все сетевые карты поддерживаются программным обеспечением Cisco IOS. Software Advisor (только зарегистрированные клиенты) дает вам минимальные номера версии программного обеспечения Cisco IOS, необходимого для аппаратных средств. Проверьте также, поддерживает ли образ загрузочной флэш-памяти установленное оборудование, если используется маршрутизатор с поддержкой образов начальной загрузки, например Cisco 7200 или Cisco 7500 series router.

Отказ программного обеспечения

На 2600 и 3600 маршрутизаторах Память ввода/вывода маршрутизатора конфигурируема как процент от основной памяти. Если параметры настройки Памяти ввода/вывода являются несоответствующими для установленных сетевых модулей или интерфейсных карт WAN (WIC), 2600/3600 платформа может испытать затруднения при загрузке и может завершиться катастрофическим отказом с ошибками шины.

Если изменение конфигурации ПО было недавно сделано, и маршрутизатор находится в загрузочной петле, ошибка в программном обеспечении может вызывать эту проблему.

Если маршрутизатор не в состоянии загрузиться, можно обойти конфигурацию, чтобы определить, причиняет ли это проблему. Выполните следующее:

  1. Войдите в ROMMON путем передачи последовательности прерывания к маршрутизатору в течение первых 60 секунд, загружаются.

  2. В режиме ROM-монитора используйте команду confreg для изменения установки регистра конфигурации (например 0x2142), чтобы игнорировать настройки маршрутизатора:

    rommon 1 > confreg 0x2142
    
    You must reset or power cycle for new config to take effect
    
    rommon 2 > reset

Если загрузки маршрутизатора без каких-либо ошибок, существует проблема конфигурации, причиняющая проблему. Убедитесь, что ваша конфигурация поддерживается программами Cisco IOS и оборудованием. Если это поддерживается, используйте Bug Toolkit (только зарегистрированные клиенты) для определения любых ошибок в программном обеспечении, которые можно испытывать. Важно установить самый последний выпуск отладочной версии в используемой схеме программного обеспечения Cisco IOS.

Неправильная установка оборудования

При испытании загрузочной петли исключения ошибки шины она может быть вызвана неправильном установленным оборудование. Для низкопроизводительных платформ, таких как 3600 или 4000 маршрутизаторов, переустановите сетевые модули/сетевые процессоры.

Для более современных платформ, таких как 7200 или 7500 маршрутизаторов, переустановите процессор, VIP, адаптеры портов или линейную карту, которая перезагружается из-за исключения ошибки шины.

Отказ аппаратных средств

Информация, содержавшаяся в ошибке шины, не помогает изолировать аппаратные средства. Поэтому важно вынуть и заново вставить платы, чтобы найти неисправное оборудование. Вот некоторые рекомендуемые шаги для изоляции проблемы:

/image/gif/paws/7949/flow1.jpg

**Если после выполнения шагов по устранению проблем, изложенных выше, на маршрутизаторе не возникает непрерывная петля, то проблемы могли быть вызваны плохо установленным сетевым модулем. Рекомендуется отслеживать работу маршрутизатора в течение 24 часов, чтобы убедиться в его функционировании без возникновения проблемы.

Информация, обязательная для сбора в случае обращения в Центр технической поддержки

Если вы все еще требуете помощи после того, чтобы придерживаться действий по устранению проблем выше и хотите открыть случай с технической поддержкой Cisco, несомненно будут включать следующую информацию для устранения проблем ошибки шины или исключения ошибки шины:
  • Меры по устранению неполадок, предпринятые до оформления запроса
  • выходные данные команды show technical-support (по возможности во включенном режиме)
  • результаты выполнения команды show log или снимки консоли (если имеются)
  • файл crashinfo file (если он присутствует и не включен в выходные данные команды show technical-support)
  • выходные данные команды show region (в случае, если они не включены в выходные данные команды show technical-support)
Присоедините собранные данные к запросу в простом текстовом формате (.txt), не архивируя файл. Вы можете приложить информацию по вашей ситуации, загрузив ее с помощью средства Case Query Tool (только для зарегистрированных клиентов). Если не получен доступ к инструменту Case Query, относящиеся к примеру данные можно отправить на адрес attach@cisco.com с номером примера в строке "Тема" в отправляемом сообщении.

Примечание: Вручную не повторно загружайте или выключайте маршрутизатор прежде, чем собрать вышеупомянутую информацию, пока не требуется для устранения проблем исключения ошибки шины, поскольку это может заставить важную информацию быть потерянной, который необходим для определения основной причины проблемы.

Связанные обсуждения сообщества поддержки Cisco

В рамках сообщества поддержки Cisco можно задавать и отвечать на вопросы, обмениваться рекомендациями и совместно работать со своими коллегами.


Дополнительные сведения


Document ID: 7949