Программное обеспечение Cisco IOS и NX-OS : Программное обеспечение Cisco IOS версии 12.2 Mainline

Устранение неисправностей, связанных с с тайм-аутом Схемы обеспечения безопасности (Watchdog)

9 февраля 2011 - Перевод, выполненный профессиональным переводчиком
Другие версии: PDF-версия:pdf | Машинный перевод (28 июля 2013) | Английский (29 ноября 2006) | Отзыв

Содержание

Введение
Предварительные условия
      Требования
      Используемые компоненты
      Условные обозначения
Выявление случаев истечения сторожевого таймера
Поиск и устранение неполадок
Истечение программного сторожевого таймера
Истечение сторожевого таймера процесса
Сообщения об ошибках, связанные с истечением сторожевых таймеров
Сведения, необходимые при обращении в Центр технической поддержки
Связанные обсуждения сообщества поддержки Cisco
Дополнительные сведения

Введение

В настоящем документе описаны причины срабатывания сторожевых таймеров на маршрутизаторах Cisco и пояснены способы устранения связанных с ними неполадок.

Предварительные условия

Требования

Для использования данного документа требуется знание следующих тем:

Используемые компоненты

Сведения, содержащиеся в данном документе, касаются следующих версий программного обеспечения и оборудования:

  • Все маршрутизаторы Cisco

  • Все версии программного обеспечения Cisco IOS®

Примечание. Настоящий документ не относится к коммутаторам Cisco Catalyst или платформам MGX, а только к маршрутизаторам Cisco.

Сведения, представленные в этом документе, были получены от устройств, работающих в специальной лабораторной среде. Все устройства, описанные в данном документе, были запущены с конфигурацией по умолчанию. При работе в действующей сети необходимо понимать последствия выполнения любой команды.

Условные обозначения

Подробные сведения об условных обозначениях см. в документе Условное обозначение технических терминов Cisco.

Выявление случаев истечения сторожевого таймера

На процессорах Cisco есть таймеры, защищающие систему от некоторых типов зависаний. Центральный процессор (ЦПУ) периодически сбрасывает сторожевой таймер. Сторожевой таймер просто контролирует время каждого процесса. Если таймер не сброшен, то возникает системное прерывание. Если процесс длится дольше отведенного ему времени, то таймер позволяет переключиться с этого процесса.

Это происходит только в определенных нештатных ситуациях. В зависимости от ситуации маршрутизатор может выполнить сброс или восстановиться после сбоя и оставить в журналах консоли сообщение следующего вида:

*** Watch Dog Timeout ***

PC = 0x6022536C, SP = 0x00000000

или

%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec 

*** System received a Software forced crash *** 

signal = 0x17, code = 0x24, context= 0x60ceca60

Если маршрутизатор не был выключен и включен, либо перезагружен вручную, то при выполнении команды show version отображаются выходные данные следующего вида:

Router#show version
...
Router uptime is 1 hour, 47 minutes 
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000 
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...

Если есть выходные данные команды show version от устройства Cisco, то их можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для работы с необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Поиск и устранение неполадок

Основная причина превышения времени ожидания контроля может быть связана с аппаратным или программным обеспечением. Ниже перечислены общие признаки, на основании которых возможно установить источники проблемы.

  • Если маршрутизатор работал правильно в течение месяцев и вдруг стал перезагружаться каждые 20 минут, или он стал постоянно перезагружаться и доступ к нему получить невозможно, проблема, скорее всего, связана с аппаратной частью. Также возможен вариант, когда был установлен новый модуль, и затем на маршрутизаторе произошел аварийный сбой времени ожидания сторожевого таймера.

  • Если в работе маршрутизатора происходят сбои после изменения конфигурации или изменения версии ПО Cisco IOS, вероятно, это связано с программным обеспечением.

Первый этап устранения этой неполадки – определить вид срабатывания сторожевого таймера. Различаются два вида срабатываний сторожевых таймеров:

Истечение программного сторожевого таймера

Истечение этого таймера вызвано бесконечным циклом на уровне процесса. Вот некоторые признаки истечения этого таймера.

  • Журналы консоли содержат следующие строки:

    *** Watch Dog Timeout ***

    PC = 0x6022536C, SP = 0x00000000

  • Команда show version сообщает причину перезагрузки watchdog timer expired (сторожевой таймер истек):

    Router#show version
    ...
    Router uptime is 1 hour, 47 minutes
    System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000 
    System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
  • Файл crashinfo не создается. Дополнительные сведения см. в документе Извлечение информации из файла Crashinfo.

В большинстве случаев эти сообщения указывают на аппаратный сбой материнской платы или одного из модулей.

Следующий шаг после выявления истечения программного таймера – проверка наличия известных аппаратных проблем в сводке уведомлений о дефектах продуктов для вашей платформы и всех установленных в системе компонентов. Например, для маршрутизаторов серии Cisco 3600 выпущено одно уведомление о дефекте: истечение сторожевых таймеров PRI-модулей T1/E1 для маршрутизаторов Cisco 3600. Ознакомиться с уведомлениями о дефектах продуктов необходимо в первую очередь, перед принятием любых дальнейших мер для поиска и устранения неполадок.

Если недавно был установлен новый модуль, сначала следует удалить его, чтобы убедиться, что он не является причиной истечения таймера. Если таймер продолжает срабатывать, попробуйте извлечь и заново установить все сменные компоненты.

Если и после этого ситуацию с истечением таймера устранить не удается, уведомлений о дефектах для вашего оборудования нет, а новые модули в последнее время не устанавливались, то следует перейти к замене главной процессорной платы. Процессорная плата на платформах верхнего сегмента – это отдельная плата (например, NPE-400 или RSP8). На платформах нижнего сегмента (Cisco 1700, 2500, 4000, 2600, 3600 и так далее) системная плата отдельно не поставляется. В данном случае необходимо заменить само шасси.

Истечение сторожевого таймера процесса

Это ожидание вызвано бесконечной петлей на уровне процесса. Вот некоторые признаки истечения этого таймера.

  • Журналы консоли содержат следующие строки:

    %SYS-2-WATCHDOG: Process aborted on watchdog timeout,
    	 process = Exec 
    
    *** System received a Software forced crash ***
    	 
    signal = 0x17, code = 0x24, context= 0x60ceca60
  • Команда show version определяет данный сбой как software-forced crash (сбой, вызванный программно):

    Router#show version
    ...
    Router uptime is 2 days, 21 hours, 30 minutes 
    System restarted by error - Software-forced crash,
    PC 0x316EF90 at 20:22:37 edt 
    System image file is "flash:c2500-is-l.112-15a.bin",
    booted via flash
  • На платформах, поддерживающих такую возможность, создается файл crashinfo.

Это проблема с наибольшей вероятностью вызвана ошибкой программного обеспечения Cisco IOS.

Если есть выходные данные команды show stacks от устройства Cisco, то их можно использовать для получения наглядной информации о возможных проблемах и способах их устранения. Для работы с необходимо быть зарегистрированным пользователем, войти в систему и включить поддержку JavaScript.

Тем не менее, следует помнить, что до перезагрузки система пребывала в бесконечном цикле, поэтому трассировка стека может оказаться неинформативной. Обновление до последней версии образа программного обеспечения Cisco IOS для используемой группы версий позволит устранить все ранее исправленные ошибки с истечением таймера процесса. Если сбои продолжают возникать и после обновления, то необходимо собрать как можно больше информации (см. документ Устранение неполадок при отказах маршрутизатора) и связаться с представителем службы технической поддержки.

Сообщения об ошибках, связанные с истечением сторожевых таймеров

На консоль могут выдаваться другие сообщения об ошибках, связанные со сторожевыми таймерами. Эти сообщения не следует путать со сбоями, вызванными сторожевым таймером. Следует определить значение этих сообщений об ошибках, используя средство расшифровки сообщений об ошибках (только для зарегистрированных пользователей). Данное средство объясняет многие сообщения об ошибках и дает рекомендации по устранению ошибок.

Рассмотрим следующее сообщение:

%SYS-2-WATCHDOG: Process aborted on watchdog timeout, 
process = [chars]

Это сообщение указывает, что определенный процесс выполняется чрезмерно долго, не высвобождая процессорное время. Система завершила указанный процесс. В зависимости от конфигурации, такая реакция может привести к сбою системы. При однократном появлении этого сообщения никаких действий не требуется. Если же сообщение появляется снова, то следует рассматривать ситуацию как истечение сторожевого таймера процесса и принять необходимые меры.

Сведения, необходимые при обращении в Центр технической поддержки

Если после выполнения описанных выше действий по устранению неполадок вам по-прежнему нужна помощь и вы планируете обращение в Центр технической поддержки Cisco (только для зарегистрированных пользователей), убедитесь в том, что в запрос включена следующая информация.
  • Перед открытием запроса на обслуживание проведены поиск и устранение неисправностей.
  • Результаты выполнения команды show technical-support (по возможности в режиме «включено»).
  • Результаты выполнения команды show log или снимки консоли (если имеются).
  • Результаты выполнения команды execute-on slot [slot #] show tech для слота, в котором возникают сбои линейной платы.
  • Файл crashinfo (если доступен и еще не был включен в результаты выполнения команды show technical-support).
Присоедините собранные данные к запросу на обслуживание в простом текстовом формате (.txt), не архивируя вложенный файл. Приложить информацию к запросу можно путем ее загрузки с помощью программы подготовки запросов в Центр технической поддержки (только для зарегистрированных пользователей). При отсутствии доступа к средству Service Request можно отправить данные приложением электронной почты по адресу attach@cisco.com с номером сервисного запроса в строке «Тема» отправляемого сообщения.

Примечание. Не выключайте питание и не перезагружайте маршрутизатор до сбора вышеуказанной информации, если это не требуется для устранения неполадки, вызванной сбоем линейной платы на интернет-маршрутизаторе серии Cisco 12000, так как при этом может быть утеряна важная информация, необходимая для определения причины проблемы.


Связанные обсуждения сообщества поддержки Cisco

В рамках сообщества поддержки Cisco можно задавать и отвечать на вопросы, обмениваться рекомендациями и совместно работать со своими коллегами.


Дополнительные сведения


Document ID: 7956