Маршрутизаторы : Маршрутизаторы Cisco серии 12000

Устранение неполадок при истечении времени ожидания и возникновении сбоев выполнения команды "Fabric Ping" на Интернет-маршрутизаторах Cisco серии 12000

5 апреля 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Отзыв


Содержание


Введение

Этот документ объясняет, как устранить неполадки таймаутов команды ping для коммутирующей матрицы и сбоев на Интернет-маршрутизаторе Cisco 12000 серии. Такие сбои обозначены следующими сообщениями об ошибке:

%GRP-3-FABRIC_UNI: Unicast send timed out (3)

и

%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

Перед началом работы

Условные обозначения

Дополнительные сведения об условных обозначениях см. в документе Технические рекомендации Cisco. Условные обозначения.

Предварительные условия

Для данного документа отсутствуют предварительные условия.

Используемые компоненты

Информация в этом документе основана на следующей версии оборудования.

  • IP-маршрутизаторы серии Cisco 12000

Сведения, представленные в этом документе, были получены от устройств в специфической лабораторной среде. Все устройства, используемые в этом документе, были запущены с чистой конфигурацией (конфигурацией по умолчанию). При работе с реальной сетью необходимо полностью осознавать возможные результаты использования всех команд.

Общие сведения

GRP и линейные карты (LC) в IP-маршрутизаторе Cisco серии 12000 подключаются через перекрестную коммутационную матрицу, которая предоставляет высокоскоростной физический путь для большинства взаимодействий между картами. В число сообщений, передаваемых между GRP и линейными картами по коммутационной матрице, входят пакеты, которые фактически маршрутизируются и получаются, данные пересылки и статистические данные о трафике, а также большая часть данных управления и контроля. Поэтому для GRP важно, чтобы этот путь был правильным.

Fabric ping – одно из четырех приложений, выполняемых между GRP и коммутационной матрицей. Межпроцессорное взаимодействие (IPC), сетевые пакеты и загрузки кода – это другие. Оптоволоконные эхо-запросы внедрены для обеспечения части алгоритма обнаружения ошибок и механизма поддержания активности, внедренного с помощью буферов на Шине обслуживания (MBUS) и эхо-запросах через интерфейсы коммутационной матрицы линейной карты.

Драйверы интерфейса матрицы CSAR на GRP обрабатывают сообщения, которыми должны обмениваться коммутационная матрица и GRP. Сюда входят команды ping для коммутационной матрицы. Команды ping для коммутируемой матрицы создаются программой и отсылаются от основного GRP каждой линейной плате каждые шесть секунд. Каждый раз, когда линейная карта получает запрос проверки доступности (ping request) от GRP, LC передает ответ обратно на GRP. Если GRP не получает ответа в течение 5 последовательных команд ping матрицы (всего 30 с), линейная карта объявляется отключенной и перезапускается с использованием сервера обслуживания BUS (MBUS).

Большую часть времени линейная карта просто слишком загружена, чтобы отвечать на запросы проверки связи матрицы, приходящие от GRP. Это неудачное завершение команды ping для коммутирующей матрицы могло бы также быть вызвано неисправной матрицей или дефектом в Cisco программное обеспечение IOS�. Все возможные причины ошибок выполнения команды ping для инфраструктуры подробно приведены ниже.

Превышения интервалов ожидания команды ping для коммутирующей матрицы возникают, когда процессор гигабитного маршрутизатора (GRP) обнаруживает, что запрос эхо-теста зависает в очереди ToFab (по отношению к коммутационной матрице) специализированной интегральной схемы (ASIC) фрагментации и сборки ячеек Cisco (CSAR). Этот ASIC ответственен за разрезание пакетов в ячейки Cisco прежде, чем передать им через коммутационную матрицу в карту выходной линии (LC).

Неудачные завершения команды ping для коммутационной матрицы могут появиться, когда либо линейная карта, либо дополнительный GRP не отвечает на запрос команды ping для коммутационной матрицы от основного GRP через коммутационную матрицу. Возникновение подобных ошибок является признаком проблемы и требует изучения.

Признаки

Как объяснено в фоновом режиме раздел, GRP передает команду ping для коммутирующей матрицы к линейным картам каждые шесть секунд, и линейные карты должны ответить. Когда GRP не в состоянии получать ответ на пять последовательных оптоволоконных эхо-запросов, он перезагружает линейную карту путем передачи сообщения запроса по шине обслуживания (MBUS) и сообщает об отказе, вызванном программным обеспечением, как замечено в выходных данных show context slot {#} команда.

C помощью журнала консоли или команды show log можно получить такие сообщения об ошибках перед получением сообщения об ошибках проверки ping для матрицы коммутации:

%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3) 
%GRP-3-FABRIC_UNI: Unicast send timed out (3)

где номер (3) обозначает слот линейной платы, на которую основной GRP попытался отправить проверку доступности адресата матрицы.

Это сообщение означает, что пакет застрял в очереди ToFab CSAR ASIC на основном GRP. Если какие-либо данные остановились в любом из двух буферов CSAR на время, превышающее 100 мс, буфер будет сброшен и появится сообщение простоя.

Если GRP передаст свое сообщение запроса эхо-теста (ping) матрицы, но или линейная карта не отвечает, или ответы линейной карты, но коммутационная матрица неисправны, таким образом, это теряет сообщение, то вы не будете видеть это сообщение до сообщения об ошибках проверки ping для матрицы коммутации. Таким образом, сообщение об ошибках "%GRP-3-FABRIC_UNI" означает, что что-то не может быть передано в область через матрицу в течение 100 или 200 микросекунд. Это возможно из-за значения %GRP-3-FABRIC_UNI, так как невозможно выполнить передачу пакетов проверки активности для LC и, в данном случае по истечении 30 секунд, происходит сбой эхо-теста матрицы. Однако можно получить ошибок матрицы эхо-тестирования без "%GRP-3-FABRIC_UNI" и наоборот.

Основной GRP может определить, что линейная карта или вторичный GRP были повреждены и необходим диагностический дамп основной памяти. В это время GRP отправляет сообщение через MBUS на линейную плату и вызывает сбой CPU линейной платы, после чего можно получить дамп основной памяти.

%LCINFO-3-CRASH: Line card in slot 3 crashed
%GRP-3-COREDUMP: Core dump incident on slot 3, error: Fabric ping failure (seq:29192)

Линейная карта создаёт выгрузку ядра, если это сконфигурировано, с исключением crashinfo и связанной командой (смотрите Конфигурирование a Core Dump на GSR Line Card для GSR-специфической информации при конфигурировании дампов ядра. Строка квалификации в выходных данных show context slot {#} команда указывает на причину перезагрузки. В случае неудачного завершения команды ping для коммутирующей матрицы причиной всегда является "Отказ, вызванный программным обеспечением".

CRASH INFO: Slot 1, Index 1, Crash at 00:42:45 KST Mon Mar 12 2001
VERSION: 
GS Software (GLC1-LC-M), Version 12.0(18)ST, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) 
TAC Support: http://www.cisco.com/tac 
Compiled Thu 09-Aug-01 22:06 by nmasa 
Card Type: 2 Ports OC3 Channelized to DS1/E1 , S/N CAT00400500 
System exception: sig=23, code=0x24, 

! --- SIG=23 indicates a software-forced crash.
 
context=0x41303B04 
System restarted by a Software forced crash 
STACK TRACE: 
-Traceback= 400C3970 400C1F90 40815D5C 407D3144 400C7488

После отказов линейной платы это передает начальное сообщение для уведомления основного GRP После этого GRP будет ожидать передачи линейной картой дальнейшей информации об отказе через MBUS. GRP получает информацию в течение нескольких миллисекунд после прихода первого сообщения от линейной платы. В случае маловероятного события, когда последующие сообщения об аварийных отказах не принимаются GRP в течение разумного периода времени (10 секунд), GRP печатает сообщение об ошибках и оповещает остальные программы о сбое линейной платы.

Устранение неисправностей

Во время стандартной операции маршрутизации основной GRP постоянно тестирует линейные платы, а линейные платы дают ответ. Любые сбои проверки ping являются признаком другой проблемы, которая должна быть исследована. Эти проблемы содержат:

Примечание: Если сбой может быть воспроизведен, настройте автосброс no service на GRP. Эта команда позволяет предотвратить перегрузку линейной платы при следующем неудачном эхо-запросе к матрице, а также подключить линейную плату для захвата данных команды show с помощью команды attach <slot#>.

Проблема с линейной платой

  • Наиболее вероятной причиной может быть ошибка ПО Cisco IOS, в которой процесс деактивизирует прерывания, достаточно длинные для пропуска пяти последовательных команд ping матрицы. Попробуйте выполнить обновление программы Cisco IOS, чтобы избежать ошибок, устраненных в последних версиях. Для помощи обновления посмотрите Область загрузки ПО Cisco.

  • Линейная карта может оказывать противодействие довольно долго, поэтому планировщик не разрешает прием трафика с коммутирующей матрицы. Этот признак говорит о проблеме, вызванной перегрузкой интерфейса. Используйте следующие команды для подтверждения этих симптомов:

    • команда show controller frfab queue на линейной плате. Поищите произвольную очередь без IPC с небольшими или отсутствующими буферами.

    • команда show controllers csar queue на GRP. Найдите ненулевые значения параметра "Max Length", а также значения этого параметра, равные значению параметру "Length", как это показано в приведенном ниже примере выходных данных:

      router#show controllers csar queue
           1190 Free Q
      
      Slot Length Max Length
        0     0      7
        1     0      2
        2    70     70 
      
      ! -- CSAR queue for slot 2 is building and reaching max length.
      
        3     0      2
        4     0      3
        5     0      0
         ...
      

      CSAR ставит в очередь до 50 пакетов, передаваемых на линейную плату назначения. Когда будут отправлены 50 пакетов, в очередь помещаются только пакеты проверки связи матрицы. Если предельный размер очереди тогда увеличивается до 70, CSAR прекращает помещать все пакеты в очередь - включая оптоволоконные эхо-запросы - к линейной карте. И GRP и все линейные карты имеют 64k буферы сегментации CSAR, в которых можно хранить сообщения. В случае загруженности этих буферов маршрутизатор использует программную очередь задержки для хранения сообщений. Также устанавливается таймер, чтобы гарантировать, что сообщения проверки доступности адресата матрицы не останутся в этой очереди надолго.

  • Высокая загрузка CPU на линейной плате обычно наблюдается во время пересчитывания большой таблицы экспресс-пересылки Cisco после изменения крупной таблицы маршрутизации или после неполадок канала и сброса сеанса протокола BGP. Загрузка CPU может быть высокой также в случае программной коммутации трафика. Это происходит в основном на Механизме 0 линейных карт, где большинство опций реализовано в программном обеспечении. В этом случае, можно проверить конфигурацию линейной платы и отключить функции, которые могут воздействовать на CPU линейных плат типа Engine 0. Высокая загрузка CPU может быть вызвана и ошибкой. Определите загрузку ЦПУ с execute-on slot <slot#> команда show proc cpu или execute-on slot <slot#> команда show tech, если предыдущая команда не поддерживается в версии программного обеспечения Cisco IOS, которая работает на маршрутизаторе. Рекомендуется обновить Cisco IOS software release до последнего выпуска данной серии, чтобы устранить известные проблемы.

  • Линейная карта исчерпывает буферы Межпроцессного взаимодействия (IPC), которые используются к сообщениям управления обменом между линейными картами и GRP Шаги по устранению неполадок см. в документе "Устранение неполадок, вызванных применением функции CEF". Если в процессе устранения неполадок выясняется, что произошел сбой IPC, следует убедиться, что маршрутизатор Cisco серии 12000 работает под управлением по крайней мере Cisco IOS Software Release 12.0(18)S. Этот выпуск представил больший размер по умолчанию 5000 для кэша IPC для улучшения его устойчивости и масштабируемости.

  • Аппаратная проблема на линейной плате. Принимайте во внимание, что аппаратными проблемами вызвано менее 10% ошибок матрицы. Перед тем как обращаться в Cisco TAC с просьбой о замене оборудования, попробуйте выполнить следующие действия:

    1. Ищите сообщения о времени ожидания IPC, распечатанные перед неудачным завершением команды ping для коммутирующей матрицы. Также посмотрите раздел IPC ниже.

    2. Переустановите линейную плату.

    3. Цикл питания маршрутизатора.

    4. При отсутствии физического доступа к маршрутизатору выполните команду hw-module slot <slot #> reload, чтобы выполнить перезагрузку вручную линейной платы.

Проблема с коммутационной матрицей

Основа Интернет-маршрутизатора Cisco 12000 серии является схематикой коммутационной матрицы, которая предоставляет синхронизируемые гигабитные соединения скорости для линейных карт и GRP. Схематика коммутационной матрицы содержит два типа карт:

  • Платы синхронизации и планировщика (CSC)

  • Платы коммутационной матрицы (SFC)

Если одна из этих плат выходит из строя сообщения ping больше не могут проходить через структуру. В этом случае следует также просмотреть другие сообщения, указывающие на неисправность матрицы, например:

%FABRIC-3-CRC: Switch card 18

Команда show controllers fia служит для обнаружения неисправных CSC или SFC. Используйте команду execute-on all show controllers fia для сбора выходных данных со всех линейных плат. Чтобы определить, следует ли заменить неисправную карту коммутационной матрицы, сравните результаты, полученные в GRP, с результатами, полученными на линейных картах.

Следующий пример выходных данных указывает на неполадку в sfc0 в слоте 18. Сначала попытайтесь переустановить эту плату, а если значение счетчика ошибок crc16 продолжит расти, следует ее заменить.

  Router#show controllers fia 
      Fabric configuration: Full bandwidth redundant 
      Master Scheduler: Slot 17
      From Fabric FIA Errors 
      ----------------------- 
      redund FIFO parity 0   redund overflow 0     cell drops 1 
      crc32 lkup parity  0   cell parity     0     crc32      0 
      Switch cards present    0x001F  Slots  16 17 18 19 20
      Switch cards monitered  0x001F  Slots  16 17 18 19 20 
      Slot:     16         17         18         19         20 
      Name:    csc0       csc1       sfc0       sfc1       sfc2 
             --------   --------   --------   --------   -------- 
      Los    0          0          0          0          0 
      state  Off        Off        Off        Off        Off 
      crc16  0          0          4334       0          0 

! --- Check the CRCs under SFC0 (slot 18)

      To Fabric FIA Errors 
      ----------------------- 
      sca not pres 0          req error     0          uni FIFO overflow 0 
      grant parity 0          multi req     0          uni FIFO undrflow 0 
      cntrl parity 0          uni req       0          crc32 lkup parity 0 
      multi FIFO   0          empty DST req 0          handshake error   0 
      cell parity  0

Проблема GRP

В некоторых отчётах неудачного завершения команды ping для коммутирующей матрицы маршрутизатор сообщил о сообщениях об ошибках Cyclic Redundancy Checks (CRC) перед сбоем. Проверьте для CRC на картах коммутационной матрицы при помощи команды show controllers fia на GRP и выполните для всех show controllers fia на линейных картах. Ошибки CRC только на GRP (а не на линейной плате) указывают на сбой GRP. Сначала попытайтесь переустановить GRP и затем запросить замену, если ошибки CRC продолжают инкрементно увеличиваться.

Известные проблемы, связанные с IPC

Проблемы с программным обеспечением Межпроцессного взаимодействия (IPC), работающим между GRP и линейными картами, были решены в различных версиях Cisco IOS Software Release 12.0S. В этом случае необходимо видеть некоторые связанные с IPC сообщения об ошибках в журнале, вместе с сообщениями таймаута команды ping для коммутирующей матрицы. Попытайтесь выполнить последний Cisco IOS Software Release для обхождения известных неполадок с IPC. Также посмотрите Область загрузки ПО Cisco для помощи выбрать выпуск.

Известные проблемы в Cisco Express Forwarding (CEF)

См. раздел "Устранение неполадок, вызванных применением функции CEF", если выходные данные команды show log отображают сообщение, связанное с базой данных переадресации функции CEF (FIB), подобно показанной ниже:

%FIB-3-FIBDISABLE: Fatal error, slot 2: IPC failure

Полезные команды debug и show

Для устранения неполадок, связанных с истечением времени ожидания проверки доступности матрицы или ошибками проверки на IP-маршрутизаторах серии Cisco 12000, используются следующие команды debug и show:

  • команда debug fabric events печатает любые ошибки, обнаруженные GRP. Это средство отладки генерирует сообщения только при наличии ошибки.

  • debug fabric ping - Распечатывает любые ошибки, обнаруженные в процессе проверки доступности адресата матрицы GRP. Это средство отладки генерирует сообщения только при наличии ошибки.

Скопируйте следующие команды для каждой сброшенной линейной платы. Замените X соответствующим номером слота.

  • execute-on slot X debug fabric events – печатает сообщения об ошибках, выявленных линейными картами в ответах на проверку доступности адресата. Эта команда производит очень немного сообщений и только в состоянии ошибки.

  • команда exec slot X debug fabric ping распечатывает сообщение, когда линейная карта получает запрос проверки доступности от коммутационной матрицы. Отладка создает один канал выходных данных каждую секунду для каждой линейной карты, по которой он включается.

После отказа линейной платы введите следующие команды из консоли GRP:

  • show context вся подробность

  • show fabric

  • show controllers fia

  • команда show controllers csar queue

  • execute-on all show controllers fia

  • show tech

  • show log

Перехватите также следующие команды о статусе линейной карты:

  • execute-on slot <slot#> ЦПУ show proc

  • execute-on slot <slot#> show controller tofab queue

  • execute-on slot <slot#> show controller tofab stat

  • execute-on slot <slot#> show controller frfab queue

  • execute-on slot <slot#> show controller frfab stat

  • execute-on slot <slot#> show ipc stat

  • execute-on slot <slot#> show ipc queue

  • execute-on slot <slot#> show stack

  • execute-on slot <slot#> show tech

Если после выполнения действий по устранению неполадок ошибки не исчезают, соберите все необходимые данные и обратитесь за помощью к представителю центра технической поддержки Cisco TAC.

Вот выходные данные от некоторых полезных команд show:

router#show controllers csar 
From Fabric Error Stats 
------------------------ 
0 out of order, 0 unexpected first 
0 unexpected last, 0 unknown rx type, 0 corrupted pak, 0 parity 
0 first/last, 0 sequence, 0 cell avail, 0 reassembly,

To Fabric Stats 
------------------------ 
Slot  Tx Pkts      TX Th Pkts      Rx Pkts      Rx Th Pkts   To Fab timeout 
0     580278       490214          281061       1336470      0 
1     18854        66592           18390        945419       0 
2     6            50824           0            896290       0 
3     0            0               0            0            0 
4     0            51909           0            895430       0 
5     0            0               0            0            0 
6     0            35113           0            880247       0 
7     0            52690           0            52690        0 
8     0            0               0            0            0 
9     0            0               0            0            0 
10    0            0               0            0            0 
11    0            0               0            0            0 
12    0            0               0            0            0 
13    0            0               0            0            0 
14    0            0               0            0            0 
15    0            0               0            0            0 
0 too big, 1 Buf0 free, 1 Buf1 free 
0 Copy fail

Fabric access Error Stats 
-------------------------- 
0 parity errors,  0 bad access size, 0 invalid address 
0 queue full parity, 0 flushed buffer

router#show controllers fia 
Fabric configuration: Full bandwidth, nonredundant fabric 
Master Scheduler: Slot 16

From Fabric FIA Errors 
----------------------- 
redund fifo parity 0          redund overflow 0          cell drops 0 
crc32 lkup parity  0          cell parity     0          crc32      0 
Switch cards present    0x001D    Slots  16 18 19 20 
Switch cards monitored  0x001D    Slots  16 18 19 20 
Slot:     16         17         18         19         20 
Name:    csc0       csc1       sfc0       sfc1       sfc2 
       --------   --------   --------   --------   -------- 
los    0          0          0          0          0 
state  Off        Off        Off        Off        Off 
crc16  0          254        0          0          0  

! --- Check the CRC error here. In this case CSC1 in slot 17.


To Fabric FIA Errors 
----------------------- 
sca not pres 0          req error     0          uni FIFO overflow 0 
grant parity 0          multi req     0          uni FIFO undrflow 0 
cntrl parity 0          uni req       0          crc32 lkup parity 0 
multi FIFO   0          empty dst req 0          handshake error   0 
cell parity  0

Можно найти больше подробных данных о команде show controllers fia в том, Как Считать Выходные данные Команды Show Controller fia.

router#show fabric 
Dest    ToFab       FrFab     Bad Seq     Unexpected 
Slot    Pkts        Pkts                  Pkts 
---------------------------------------------------- 
Slot0   26327       26327     0           0 
Slot1   26325       26325     0           0 
Slot2   26321       26321     0           0 
Slot4   26315       26315     0           0 
Slot6   26311       26311     0           0 
Slot7   26334       26334     0           0

multicast timeout 0 
failed pak        0 

Current fabric timeout is 6000

fabric send fails 58

Сведения, необходимые при обращении в Центр технической поддержки

Если вы все еще требуете помощи после того, чтобы придерживаться действий по устранению проблем выше и хотите создать запрос на обслуживание с Центром технической поддержки Cisco, подключите следующую информацию к случаю для устренения проблем команды ping для коммутирующей матрицы на Интернет-маршрутизаторе Cisco 12000 серии:
  • меры по устранению неполадок, предпринятые до оформления запроса
  • выходные данные команды show technical-support (в активном режиме, если возможно)
  • результаты выполнения команды show log или снимки консоли (если имеются)
  • execute-on slot [слот #] показывает техническую поддержку для слота, который испытал отказ линейной платы
Приложите собранные сведения по вашей ситуации в простом незаархивированном текстовом файле (.txt). Можно приложить эти сведения, загрузив их с помощью средства Case Query Tool (только для зарегистрированных клиентов). Если не получен доступ к инструменту Case Query, относящиеся к примеру данные можно отправить на адрес attach@cisco.com с номером примера в строке "Тема" в отправляемом сообщении.

Примечание: Не выполняйте ручную перезагрузку или выключение/включение маршрутизатора до сбора указанной информации, поскольку это может вызвать потерю важной информации, необходимой для определения источника проблемы.

Связанные обсуждения сообщества поддержки Cisco

В рамках сообщества поддержки Cisco можно задавать и отвечать на вопросы, обмениваться рекомендациями и совместно работать со своими коллегами.


Дополнительные сведения