Маршрутизаторы : Маршрутизаторы Cisco серии 12000

Устранение неисправностей при сбоях линейной платы на Интернет-маршрутизаторе Cisco серии 12000

5 апреля 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Отзыв


Интерактивно этот документ предлагает анализ конкретного устройства Cisco.


Содержание


Введение

В этом документе приводятся сведения об устранении сбоев линейных плат на интернет-маршрутизаторе Cisco серии 12000.

Предварительные условия

Требования

Для этого документа отсутствуют особые требования.

Используемые компоненты

Сведения, содержащиеся в данном документе, касаются следующих версий программного и аппаратного обеспечения:

  • Все IP-маршрутизаторы серии Cisco 12000, включая 12008, 12012, 12016, 12404, 12406, 12410 и 12416.

  • Все Версии программного обеспечения IOS� Cisco, которые поддерживают Интернет-маршрутизатор Cisco 12000 серии.

Сведения, представленные в этом документе, были получены от устройств, работающих в специальной лабораторной среде. Все устройства, описанные в этом документе, были запущены с чистой (стандартной) конфигурацией. В рабочей сети необходимо изучить потенциальное воздействие всех команд до их использования.

Условные обозначения

Дополнительные сведения об условных обозначениях см. в документе Условные обозначения технических терминов Cisco.

Общие сведения

Этот раздел предоставляет общие сведения о том, как определить отказ линейной платы.

Определите отказ линейной платы

Для того, чтобы быстро для того чтобы определить сбой линейной карты, используйте команду show context summary:

   Router#show context summary 
       CRASH INFO SUMMARY 
         Slot 0 : 0 crashes 
         Slot 1 : 0 crashes 
         Slot 2 : 0 crashes 
         Slot 3 : 0 crashes 
         Slot 4 : 1 crashes 
           1 - crash at 04:28:56 EDT Tue Apr 20 1999 
         Slot 5 : 0 crashes 
         Slot 6 : 0 crashes 
         Slot 7 : 0 crashes 
         Slot 8 : 0 crashes 
         Slot 9 : 0 crashes 
         Slot 10: 0 crashes 
         Slot 11: 0 crashes

Если сбой затрагивает сам маршрутизатор (а не только строки карты), см. Устранение неполадок Маршрутизаторов.

Соберите информацию о катастрофическом отказе

Чтобы собрать важные данные об аварии, используйте команды, показанные в таблице 1.

Таблица 1 – дает команду для Использования для сбора данных о катастрофическом отказе

Команда Описание
show version Предоставляет общую информацию о конфигурациях программного и аппаратного обеспечения системы.
show logging Отображает общие журналы маршрутизатора.
show diag slot Предоставляет определенную информацию об определенном слоте: тип механизма, проверок оборудования, конфигурации памяти, и т.д.
show context slot slot Предоставляет данные контекста о недавнем катастрофическом отказе (ах). Зачастую это наиболее полезная для устранения неполадок линии карты.
дамп ядра Дамп основной памяти линейной карты является полным содержимым своей памяти во время катастрофического отказа. Эти данные не обычно необходимы для первоначального устранения проблем. Можно требовать позже, оказывается ли проблема, новая ошибка в программном обеспечении. В этом случае обратитесь к Настройке Дамп основной памяти на Линейной карте GSR.

Если у вас есть выходные данные техподдержки показа (от режима включения) команда от устройства Сisco, можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для ее использования необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Проанализируйте собранные данные

Проверьте значение поля "sig=" в выходных данных show context slot [slot#]:

       Router#show context slot 4 
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 

       VERSION: 
       GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE 
       SOFTWARE (fc1) 
       Compiled Mon 28-Dec-98 14:53 by tamb 
       Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL 
       System exception: SIG=20, code=0xA414EF5A, context=0x40337424 

       Traceback Using RA 
       STACK TRACE: 
         traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4 
       40149FD4 40080118 40080104 
       CONTEXT: 
       $0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038 
       a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001 
       t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF 
       t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C 
       s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00 
       s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000 
       t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68 
       gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC 
       EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000 
       ErrorEPC : 0x4015B7E4

Посмотрите Таблицу 2 для обнаружения то, с чем совпадает причина ошибки, SIG оценивают вас зарегистрированный.

Таблица 2 – находит ошибку, которая совпадает со значением SIG

Значение SIG Название SIG Причина ошибки
2 SIGINT Непредвиденное прерывание оборудования.
3 SIGQUIT Прекращение из-за ключа прерывания.
4 SIGILL Исключение по недопустимому коду операции.
5 SIGTRAP Прекращение из-за Точки Прерывания или Арифметическому исключения.
8 SIGFPE Исключение блока вычислений с плавающей точкой (FPU).
9 SIGKILL Исключение резервирования.
10 SIGBUS Исключение, связанное с ошибками шины.
11 SIGSEGV Исключение SegV.
20 SIGCACHE Нарушение четности для кэша.
21 SIGWBERR Прерывание по сигналу об ошибках шины записи.
22 SIGERROR Неустранимая аппаратная ошибка.
23 SIGRELOAD Отказ, вызванный программным обеспечением.

Примечание: Нарушение четности для кэша (SIG=20), Исключение ошибки шины (SIG=10) и Отказы, вызванные программным обеспечением (SIG=23) учетная запись больше чем на 95% отказов линейной платы.

Команда diag Exec

Серия Cisco 12000 поддерживает diag [slot#] команда для тестирования других компонентов платы. Эта команда полезна для исправления неполадок при аппаратных сбоях, и определить неисправной платы.

Параметр verbose вызывает показ маршрутизатором списка тестов, и того, как они выполняются. В противном случае это просто отображает сообщение "СБОЯ" или "ПЕРЕДАННЫЙ".

Примечание: Выполнение этого diagnostic stop все действия линейной карты на время тестов (обычно приблизительно пять минут).

Начиная с программного обеспечения Cisco IOS версии 12.0(22)S Cisco разъединил образ линейной карты эксплуатационной диагностики Интернет-маршрутизатора Cisco 12000 серии от Образа ПОCisco IOS. В более ранних версиях диагностика могла быть запущена от командной строки, и встроенный образ будет запущен. Для снабжения клиентов Картами флэш - памятью на 20 МБ, эксплуатационная диагностика линейной карты теперь сохранены и поддержаны как отдельный образ, который должен быть доступным на Карте флэш - памяти или сервере начальной загрузки Протокола TFTP, прежде чем смогут использоваться команды эксплуатационной диагностики. Процессор маршрутизатора и эксплуатационная диагностика коммутационной матрицы продолжают связываться и не должны быть запущены от отдельного образа. Можно найти дополнительные сведения при Эксплуатационной диагностике для Интернет-маршрутизатора Cisco 12000 серии.

Вот является пример diag [slot#] выходными данными command:

Router#diag 3 verbose 
Running DIAG config check 
Running Diags will halt ALL activity on the requested slot. 
[confirm] 
CR1.LND10# 
Launching a Field Diagnostic for slot 3 
Downloading diagnostic tests to slot 3 (timeout set to 400 sec.) 
Field Diag download COMPLETE for slot 3 
FD 3> ***************************************************** 
FD 3> GSR Field Diagnostics V3.0 
FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999 
FD 3> view: award-bfr_112.FieldDiagRelease 
FD 3> ***************************************************** 
FD 3> BFR_CARD_TYPE_OC48_1P_POS testing... 
FD 3> running in slot 3 (128 tests) 

Executing all diagnostic tests in slot 3 
(total/indiv. timeout set to 600/200 sec.) 
FD 3> Verbosity now (0x00000001) TESTSDISP 

FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache 
FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations 
FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering 
FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern 
FDIAG_STAT_DONE_FAIL test_num 4, error_code 6 
Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4, 
Dram Marching Pattern, error 6 
Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3 
last test failed was 4, error code 6 
Shutting down diags in slot 3 

slot 3 done, will not reload automatically

В зависимости от ошибки, с которой встречаются, слот мог бы или не мог бы быть автоматически повторно загружен. Если это не, это могло бы быть в прикрепленном, или неопределенное состояние (сверьтесь с show diag [слот #] команда), пока вручную не повторно загружено. Это стандартное поведение. Чтобы вручную повторно загрузить плату, используйте hw-module slot [slot#] команда повторной загрузки.

Исключения четности кэша

Можно определить нарушения четности для кэша SIG=20 в show context [слот #] выходные данные.

Если у вас есть выходные данные техподдержки показа (от режима включения) команда от устройства Сisco, можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для ее использования необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Существует два вида ошибок четности:

  • Когда энергетический уровень в микросхеме (например, та или ноль) изменяется, ошибки мягкого контроля четности — Они происходят. В случае единичной ошибки четности нет необходимости заменять модуль или другие компоненты.

  • Фатальные ошибки четности — Они происходят, когда существует микросхема или сбой платы, который заставляет данные быть поврежденными. В этом случае необходимо переустановить или заменить компонент, на который влияют, обычно замена микросхемы памяти или замена платы. Когда множественные ошибки четности замечены в том же адресе, существует фатальная ошибка четности. Существует больше сложных случаев, которые более трудно определить, но, в целом, если несколько ошибок контроля четности замечены в конкретной области памяти в относительно коротком периоде времени (несколько недель к месяцам), это можно считать фатальной ошибкой четности.

Как показывают исследования, случайные ошибки четности встречаются в 10-100 раз чаще, чем систематические ошибки четности.

Для устранения проблем этих ошибок найдите, что период технического обслуживания выполняет команду diag для того слота.

  • Если результаты диагностики в сбое, замените линейную карту.

  • Если не будет никакого сбоя, то это, вероятно, будет ошибка мягкого контроля четности, и линейная карта не должна быть заменена (пока это не завершается катастрофическим отказом во второй раз с ошибкой контроля четности после короткого периода времени).

Исключения для ошибок шины

Можно определить исключения ошибки шины SIG=10 в show context [слот #] выходные данные.

Если у вас есть выходные данные техподдержки показа (от режима включения) команда от устройства Сisco, можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для ее использования необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Этот тип аварии обычно является связанным c программным обеспечением, но если по некоторым причинам (например, это - совершенно новая карта, или сбои запускаются после перебоя в питании) вы думаете, что проблема могла быть связана с оборудованием, выполнить команду diag для того слота.

Примечание: Некоторые ошибки в программном обеспечении, как было известно, заставляли команду diag сообщать об ошибках, даже при том, что нет никакой проблемы с аппаратными средствами. Если карта была уже заменена, но все еще отказывает в том же тесте в диагностике, на вас могла бы влиять эта проблема. В этом случае обработайте катастрофический отказ как неполадки программного обеспечения.

Обновление к последней версии Cisco IOS Software Release Train устраняет все исправленные ошибки, причиняющие ошибки шины линейной карты. Если катастрофический отказ все еще присутствует после обновления, соберите связанную информацию (см., Собирают информацию о Катастрофическом отказе), вместе с покажите техническую поддержку и любой информацией, что вы думаете, могло бы быть полезным (такие как последнее изменение топологии или новая характеристика, недавно внедренная), и связаться с представителем службы поддержки Cisco.

Отказы, вызванные программным обеспечением

Можно определить отказы, вызванные программным обеспечением SIG=23 в show context [слот #] выходные данные. Несмотря на название, эти сбои являются не всегда связанным c программным обеспечением.

Если у вас есть выходные данные техподдержки показа (от режима включения) команда от устройства Сisco, можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для ее использования необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Наиболее распространенной причиной отказов, вызванных программным обеспечением является "Таймаут команды ping для коммутирующей матрицы". Во время обычной работы маршрутизатора Процессор маршрута (RP) непрерывно пропинговывает линейные карты. Если линейная карта не отвечает, процессор маршрута решает перезагрузить ее. Это приводит к отказу, вызванному программным обеспечением (SIG=23) линейной карты, на которую влияют, и необходимо видеть эти ошибки в журналах маршрутизатора:

Mar 12 00:42:48: %GRP-3-FABRIC_UNI: 
Unicast send timed out (4) 
Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure

Для устранения проблем таймаутов команды ping для коммутирующей матрицы необходимо узнать, почему линейная карта не отвечала на эхо-запрос. Могут быть множественные причины:

  • Линейная карта испытывает высокую загрузку ЦП — Это может быть проверено с помощью execute-on slot [слот #] команда show proc cpu. Если ЦПУ действительно высок (выше 95%), обратитесь к Устранению проблем Высокой загрузки ЦП на маршрутизаторах Cisco.

  • Существуют ошибки в программном обеспечении в Межпроцессном взаимодействии (IPC), или линейная карта исчерпывает буферы IPC. Большую часть времени эти перезагрузки вызванная программным обеспечением вызваны ошибками в программном обеспечении.

    Обновление к последней версии Cisco IOS Software Release Train устраняет все исправленные ошибки, причиняющие таймауты команды ping для коммутирующей матрицы. Если катастрофический отказ все еще присутствует после обновления, соберите связанную информацию (см. Получающую информацию о Катастрофическом отказе), вместе с покажите техническую поддержку статус show ipc и любая информация, что вы думаете, могут быть полезными (такие как последнее изменение топологии или новая характеристика, недавно внедренная), и связаться с представителем службы поддержки Cisco.

  • Отказ оборудования — Если карта хорошо работала в течение длительного времени и никакая новейшая топология, программное обеспечение или изменения функции, имел место, или если проблемы запустились после перемещения или перебоя в питании, неисправное оборудование может быть причиной. Выполните команду diag на линейной карте, на которую влияют. Замените линейную карту, если неисправный. Если на карты составной строки влияют, или diag прекрасен, замените матрицу.

%GSRSPA-6-ERRORRECOVER: Программная или аппаратная ошибка произошла на Подслоте 0. Чудо причины: TXECCERR Автоматическое Восстановление работоспособности после сбоя инициируют

Когда RxFIFO или TxFIFO неисправимое прерывание ошибки ECC происходят в MAC больше, чем пороговое значение во временном интервале, ошибка TXECCERR/RXECCERR происходит. Неисправимые ошибки ECC не могут быть исправлены логикой ECC. Когда непоправимая ошибка происходит во время чтения RxFIFO, пакет, которому принадлежат данные, отмечен с EOP/Прерыванием на SPI4, получают интерфейс, и сброшен верхними уровнями.

Это происходит из-за аппаратных средств и исправлено, как только мы повторно загружаем SIP/SPA. Постоянное решение должно заменить SIP/SPA во избежание ошибок.

Другие неисправности

Другие типы аварийного отказа, безусловно, менее распространены, чем эти упомянутые выше два. В большинстве случаев команда diag должна указать, должна ли карта быть заменена или нет. Если карта передает диагностический тест правильно, рассмотрите обновление программного обеспечения.

Информация, обязательная для сбора в случае обращения в центр технической поддержки

Если после выполнения описанных выше действий по устранению проблем вам по-прежнему нужна помощь и вы планируете обращение в Центр технической поддержки Cisco (только для зарегистрированных пользователей), убедитесь в том, что в запрос включена следующая информация:
  • Перед открытием запроса на обслуживание проведены поиск и устранение неисправностей.
  • выходные данные команды show technical-support (в активном режиме, если возможно).
  • результаты выполнения команды show log или снимки консоли (если имеются).
  • результаты выполнения команды execute-on slot [slot #] show tech для слота, в котором возникают сбои линейной карты.
Подключите собранные данные к запросу на обслуживание в неархивированном, открытый текстовый формат (.txt). Приложить информацию к запросу можно путем ее загрузки с помощью интерфейса TAC Service Request (только для зарегистрированных клиентов). При отсутствии доступа к средству Service Request можно отправить данные приложением электронной почты по адресу attach@cisco.com с номером сервисного запроса в строке "Тема" отправляемого сообщения.

Примечание: Вручную не повторно загружайте или выключайте маршрутизатор прежде, чем собрать вышеупомянутую информацию, пока не требуется для устранения проблем отказа линейной платы на Интернет-маршрутизаторе Cisco 12000 серии, поскольку это может заставить важную информацию быть потерянной, который необходим для определения основной причины проблемы.

Связанные обсуждения сообщества поддержки Cisco

В рамках сообщества поддержки Cisco можно задавать и отвечать на вопросы, обмениваться рекомендациями и совместно работать со своими коллегами.


Дополнительные сведения