Программное обеспечение Cisco IOS и NX-OS : Программное обеспечение Cisco IOS версии 12.2 Mainline

Устранение сбоев времени ожидания схемы обеспечения безопасности

5 апреля 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Перевод, выполненный профессиональным переводчиком (9 февраля 2011) | Английский (31 декабря 2015) | Отзыв


Содержание


Введение

В настоящем документе описаны причины срабатывания сторожевых таймеров на маршрутизаторах Cisco и пояснены способы устранения связанных с ними неполадок.

Предварительные условия

Требования

Для использования данного документа требуется знание следующих тем:

Используемые компоненты

Сведения, содержащиеся в данном документе, касаются следующих версий программного и аппаратного обеспечения:

  • Все маршрутизаторы Cisco

  • Весь Cisco версии программного обеспечения IOS�

Примечание: Этот документ неприменим к коммутаторам Cisco Catalyst или платформам MGX, а только к маршрутизаторам Cisco.

Сведения, представленные в этом документе, были получены от устройств, работающих в специальной лабораторной среде. Все устройства, описанные в этом документе, были запущены с чистой (стандартной) конфигурацией. В рабочей сети необходимо изучить потенциальное воздействие всех команд до их использования.

Условные обозначения

Дополнительные сведения об условных обозначениях см. в документе Технические рекомендации Cisco. Условные обозначения.

Выявление случаев истечения сторожевого таймера

На процессорах Cisco есть таймеры, защищающие систему от некоторых типов зависаний. Центральный процессор (ЦПУ) периодически сбрасывает сторожевой таймер. Сторожевой таймер просто контролирует время каждого процесса. Если таймер не сброшен, то возникает системное прерывание. Если процесс длится дольше отведенного ему времени, то таймер позволяет переключиться с этого процесса.

Это происходит только в определенных нештатных ситуациях. В зависимости от ситуации маршрутизатор может выполнить сброс или восстановиться после сбоя и оставить в журналах консоли сообщение следующего вида:

*** Watch Dog Timeout ***

PC = 0x6022536C, SP = 0x00000000

или

%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec 

*** System received a Software forced crash *** 

signal = 0x17, code = 0x24, context= 0x60ceca60

Если маршрутизатор не был выключен и включен, либо перезагружен вручную, то при выполнении команды show version отображаются выходные данные следующего вида:

Router#show version
...
Router uptime is 1 hour, 47 minutes 
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000 
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...

Если есть выходные данные команды show version от устройства Cisco, то их можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для работы с необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Устранение неполадок

Основная причина превышения времени ожидания контроля может быть связана с аппаратным или программным обеспечением. Ниже перечислены общие признаки, на основании которых возможно установить источники проблемы:

  • Если маршрутизатор работал правильно в течение месяцев и вдруг стал перезагружаться каждые 20 минут, или он стал постоянно перезагружаться и доступ к нему получить невозможно, проблема, скорее всего, связана с аппаратной частью. Также возможен вариант, когда был установлен новый модуль, и затем на маршрутизаторе произошел аварийный сбой времени ожидания сторожевого таймера.

  • Если в работе маршрутизатора происходят сбои после изменения конфигурации или изменения версии ПО Cisco IOS, вероятно, это связано с программным обеспечением.

{\f3 Первый этап устранения этой неполадки }–{\f3 определить вид срабатывания сторожевого таймера.} Различаются два вида срабатываний сторожевых таймеров:

Истечение программного сторожевого таймера

Истечение этого таймера вызвано бесконечным циклом на уровне процесса. Вот некоторые признаки истечения этого таймера:

  • Журналы консоли содержат следующие строки:

    *** Watch Dog Timeout ***

    PC = 0x6022536C, SP = 0x00000000

  • Команда show version сообщает причину перезагрузки watchdog timer expired (сторожевой таймер истек):

    Router#show version
    ...
    Router uptime is 1 hour, 47 minutes
    System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000 
    System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
  • Файл crashinfo не создается. Дополнительные сведения см. в документе Извлечение информации из файла Crashinfo.

В большинстве случаев эти сообщения указывают на аппаратный сбой материнской платы или одного из модулей.

{\f3 Следующий шаг после выявления истечения программного таймера }–{\f3 проверка наличия известных аппаратных проблем в }{\f3 сводке уведомлений о дефектах продуктов}{\f3 для вашей платформы и всех установленных в системе компонентов.} Например, для маршрутизаторов серии Cisco 3600 выпущено одно уведомление о дефекте: Истечение сторожевых таймеров PRI-модулей T1/E1 для маршрутизаторов Cisco 3600. Ознакомиться с уведомлениями о дефектах продуктов необходимо в первую очередь, перед принятием любых дальнейших мер для поиска и устранения неполадок.

Если недавно был установлен новый модуль, сначала следует удалить его, чтобы убедиться, что он не является причиной истечения таймера. Если таймер продолжает срабатывать, попробуйте извлечь и заново установить все сменные компоненты.

Если и после этого ситуацию с истечением таймера устранить не удается, уведомлений о дефектах для вашего оборудования нет, а новые модули в последнее время не устанавливались, то следует перейти к замене главной процессорной платы. {\f3 Процессорная плата на платформах верхнего сегмента }–{\f3 это отдельная плата (например, NPE-400 или RSP8).} На платформах нижнего сегмента (Cisco 1700, 2500, 4000, 2600, 3600 и так далее) системная плата отдельно не поставляется. В данном случае необходимо заменить само шасси.

Истечение сторожевого таймера процесса

Это ожидание вызвано бесконечной петлей на уровне процесса. Вот некоторые признаки истечения этого таймера:

  • Журналы консоли содержат следующие строки:

    %SYS-2-WATCHDOG: Process aborted on watchdog timeout,
    	 process = Exec 
    
    *** System received a Software forced crash ***
    	 
    signal = 0x17, code = 0x24, context= 0x60ceca60
  • Команда show version определяет данный сбой как software-forced crash (сбой, вызванный программно):

    Router#show version
    ...
    Router uptime is 2 days, 21 hours, 30 minutes 
    System restarted by error - Software-forced crash,
    PC 0x316EF90 at 20:22:37 edt 
    System image file is "flash:c2500-is-l.112-15a.bin",
    booted via flash
  • На платформах, поддерживающих такую возможность, создается файл crashinfo.

Это проблема с наибольшей вероятностью вызвана ошибкой программного обеспечения Cisco IOS.

Если есть выходные данные команды show stacks от устройства Cisco, то их можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для работы с необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Тем не менее, следует помнить, что до перезагрузки система пребывала в бесконечном цикле. Поэтому трассировка стека может оказаться неинформативной. Обновление до последней версии образа программного обеспечения Cisco IOS для используемой группы версий позволит устранить все ранее исправленные ошибки с истечением таймера процесса. Если сбои продолжают возникать и после обновления, то необходимо собрать как можно больше информации (см. документ Устранение неполадок при отказах маршрутизатора) и связаться с представителем службы технической поддержки.

Сообщения об ошибках, связанные с истечением сторожевых таймеров

На консоль могут выдаваться другие сообщения об ошибках, связанные со сторожевыми таймерами. Эти сообщения не следует путать со сбоями, вызванными сторожевым таймером. Следует определить значение этих сообщений об ошибках, используя средство расшифровки сообщений об ошибках (только для зарегистрированных пользователей). Данное средство объясняет многие сообщения об ошибках и дает рекомендации по устранению ошибок.

Рассмотрим следующее сообщение:

%SYS-2-WATCHDOG: Process aborted on watchdog timeout, 
process = [chars]

Это сообщение указывает, что определенный процесс выполняется чрезмерно долго, не высвобождая процессорное время. Система завершила указанный процесс. В зависимости от конфигурации, такая реакция может привести к сбою системы. При однократном появлении этого сообщения никаких действий не требуется. Если же сообщение появляется снова, то следует рассматривать ситуацию как истечение сторожевого таймера процесса и принять необходимые меры.

Информация, обязательная для сбора в случае обращения в центр технической поддержки

Если после выполнения описанных выше действий по устранению проблем вам по-прежнему нужна помощь и вы планируете обращение в Центр технической поддержки Cisco (только для зарегистрированных пользователей), убедитесь в том, что в запрос включена следующая информация:
  • Перед открытием запроса на обслуживание проведены поиск и устранение неисправностей.
  • выходные данные команды show technical-support (в активном режиме, если возможно).
  • результаты выполнения команды show log или снимки консоли (если имеются).
  • результаты выполнения команды execute-on slot [slot #] show tech для слота, в котором возникают сбои линейной карты.
  • Файл crashinfo (если доступен и еще не был включен в результаты выполнения команды show technical-support).
Приложите собранные данные к запросу на обслуживание в простом текстовом формате (.txt), не архивируя вложенный файл. Приложить информацию к запросу можно путем ее загрузки с помощью интерфейса TAC Service Request (только для зарегистрированных клиентов). При отсутствии доступа к средству Service Request можно отправить данные приложением электронной почты по адресу attach@cisco.com с номером сервисного запроса в строке "Тема" отправляемого сообщения.

Примечание: Вручную не повторно загружайте или выключайте маршрутизатор прежде, чем собрать вышеупомянутую информацию, пока не требуется для устранения проблем отказа линейной платы на Интернет-маршрутизаторе Cisco 12000 серии, поскольку это может заставить важную информацию быть потерянной, который необходим для определения основной причины проблемы.

Связанные обсуждения сообщества поддержки Cisco

В рамках сообщества поддержки Cisco можно задавать и отвечать на вопросы, обмениваться рекомендациями и совместно работать со своими коллегами.


Дополнительные сведения


Document ID: 7956