Интерфейсы и модули Cisco : Cisco Nexus 7000 M2-Series 6-Port 40 Gigabit Ethernet Module

Устранение неполадок ошибок CRC матрицы Nexus 7000

20 октября 2016 - Машинный перевод
Другие версии: PDF-версия:pdf | Английский (7 ноября 2015) | Отзыв

Введение 

Этот документ описывает, как решить, что ошибки матрицы сообщили в платформе Cisco Nexus 7000. Устранение неполадок оптоволоконных Cyclic Redundancy Checksum (CRC) включает набор данных, анализ данных и процесс устранения для изоляции проблемного компонента. Этот документ покрывает наиболее распространенные типы оптоволоконных ошибок CRC.

Внесенный Yogesh Ramdoss, специалистом службы технической поддержки Cisco.

Оптоволоконный обзор обнаружения CRC

Вот высокоуровневая схема структурного модуля Nexus 7018 с линейными платами M1:

 

 

Когда пакет пересекает структурный модуль, предыдущий образ дает обзор компонентов, включенных. Организуйте 1 (S1), Этап 2 (S2), и Этап 3 (S3) является тремя этапами матрицы Nexus 7000, Разветвитель является обработчиком очереди, Санта-Круз (SC) является специализированной интегральной схемой с коммутационной матрицей, и Экземпляр 1 и 2 является двумя экземплярами SC на XBAR. Этот документ рассматривает только один XBAR. Помните, что большинство Коммутаторов Cisco Nexus серии 7000 имеет три или больше установленные XBARs.

Учитывая, что однонаправленный поток от Модуля 1 (M1) до Модуля 2 (M2) присутствует, входной Разветвитель 1 на M1 выполняет проверки ошибок на пакетах, которые это получает с юга и выходного Разветвителя 1 на M2 с севера. Если CRC обнаружен в S3, проблема, возможно, произошла в S1 или S2 также, так как никакая проверка CRC не выполнена на тех этапах. Так, устройствами, вовлеченными в путь, является входной Разветвитель, шасси, перекрестная матрица и выходной Разветвитель.

В архитектуре M1/Fab1 CRC обнаружены только на выходной линейной плате (S3).

Вот пример сообщения об ошибках:

%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
 CRC error from MOD 15 through XBAR slot 1/inst 1

Об этом сообщает M1, который указывает что это полученные пакеты с неправильным CRC от Модуля 15 (M15) через слот 1/instance 1 XBAR.

Поймите другие оптоволоконные ошибки CRC

В этом разделе описываются четыре из наиболее распространенных типов оптоволоконных ошибок CRC.

  • Ошибка CRC с модулем отдельного источника, получите модуль и экземпляр XBAR:
    %OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
     CRC error from MOD 15 through XBAR slot 1/inst 1
    Это означает, что модуль в слоте 1 обнаружил ошибку CRC от M15 до слота 1/instance 1 XBAR. Модуль, где ошибки CRC происходят, упоминается как модуль входа (M15 в этом случае), и модуль, который сообщил о проблеме, является выходным модулем (M1). XBAR 1 является перемычкой, в которой был получен пакет. Существует два экземпляра на XBAR. В этом случае M1 обнаружил ошибки CRC от M15 до экземпляра слота 1 XBAR 1.

  • Ошибка CRC с модулем отдельного источника, получите модуль, но никакой экземпляр XBAR:
    %OC_USD-SLOT4-2-RF_CRC: OC2 received packets with
     CRC error from MOD 1
    В этом сообщении Модуль 4 (M4) сообщил об ошибке CRC от M1. Заметьте, что отсутствует информация XBAR. Система неспособна установить XBAR, который пересек пакет. Существует много причин, но наиболее распространенные: информация в оптоволоконном заголовке пакета могла бы быть повреждена, таким образом, не может быть определен исходный модуль; XBAR, который был пересечен, удален из системы, так как инкрементно увеличилась ошибка. Таким образом об этом не сообщили в почасовом сообщении системного журнала.

  • Ошибка CRC без получает модуль:
    %OC_USD-2-RF_CRC: OC1 received packets with
     CRC error from MOD 16 through XBAR slot 1/inst 1
    В этом случае устройство обнаружило CRC от Модуля 16 (M16) до XBAR 1. Нет, однако, никакого модуля приемника. То, когда Супервизор (SUP), обнаруживает CRC, который прибывает из структурного модуля, информация о слоте не зарегистрирована. Когда вы не видите информации о слоте, тогда SUP обнаружило проблему. Это не означает, что SUP плохо. Так же, как, когда модуль сообщает о проблеме, существуют множественные компоненты, которые, возможно, вызвали проблему: M16, шасси (не как, вероятно), XBAR 1 или SUP.

  • Ошибка CRC со множественными модулями возможного источника:
    %OC_USD-SLOT6-2-RF_CRC: OC2 received packets with
     CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
    Исходный модуль подбирается от входного Разветвителя, который получил недопустимый пакет. Драйвер, который повышает прерывание для регистрации этого сообщения об ошибках не всегда знает входного Разветвителя, из которого произошел недопустимый пакет. Это вызвано тем, что некоторые биты, используемые для представления входного Разветвителя, не используются. Если система решает, что несколькам номеров модулей включили эти неиспользованные биты, система должна предположить, что любой из них мог бы быть источником, который заставляет сообщение об ошибках включать все те модули. Система нашла, что Модуль 13 (M13) не может иметь этого конфликта из-за тех битов, не используясь; таким образом это не зарегистрировано как потенциальный источник.

Оптоволоконный подход устранения неполадок CRC

Новые линейные карты (M2) и структурный модуль 2 (FAB2) обнаруживают CRC в S1, S2 или S3. Когда вы занимаетесь расследованиями подробно и находите образцы в сбое и сообщениях журнала, он помогает изолировать неисправный компонент.

Вот некоторые вопросы спросить:

  • Действительно ли сообщение об ошибках было одноразовым событием, или множественные сообщения ошибки CRC были зарегистрированы?
  • Как часто зарегистрированы сообщения ошибки CRC? (Каждый час, один раз в день, один раз в месяц?)
  • Ошибки CRC ALL прибывает из того же модуля входа?
  • Является ошибками CRC ALL, сообщил относительно того же выходного модуля?
  • Является ошибками CRC от множественных модулей входа AND, сообщил относительно множественных выходных модулей?
  • Если несколька номеров модулей сообщают об ошибках CRC, есть ли модуль общего источника или модуль XBAR?

Ответы на эти вопросы позволяют вам приближаться к процедуре устранения неполадок от угла, который, более вероятно, приведет к более быстрому разрешению.

Общее устранение неполадок CRC Рекомендации

Этот раздел устанавливает общие рамки, используемые для решения этих проблем.

  1. Найдите общие модули (включая XBARs), о которых сообщают в оптоволоконных сообщениях ошибки CRC.
  2. После обнаружения общих модулей выберите наиболее вероятную причину проблемы, завершите работу (в случае XBAR), переместите его в известный слот, который работает, переустановите и замените его, в то время как вы контролируете, чтобы проверить, уходит ли проблема. Завершение работы, переустановите и замените модули по одному. Это упрощает изолировать неисправную часть.
  3. Когда вы завершаете работу, перемещаете, переустанавливаете, или заменяете часть, ищете любые изменения в симптомах проблемы. Вам, возможно, придется пересмотреть ваш план действий после того, как вы узнаете больше от каждого сделанного шага.
  4. Если множественные части заменены, и проблема все еще сохраняется, то:

    • Новые части могли бы быть плохими.
    • Множественный XBARs мог бы быть плохим.
    • Плохой слот шасси мог бы быть причиной.

Наглядные примеры

Этот раздел предоставляет примеры того, как устранять подобные проблемы.

Модуль входа повреждает пакеты

Журналы

%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7

Проблема

В течение нескольких часов ошибки CRC замечены на M1 и Модуле 3 (M3), которые прибывают из Модуля 7 (M7) только. 

Вероятная причина проблемы

Существует плохое или неверно расположенное XBAR, который повреждает пакеты, возглавляемые к M7, или M7 плох или неверно расположенное.

Процесс изоляции неисправного компонента

  1. Завершите работу XBARs один за другим, в то время как вы контролируете, чтобы к verfiy, если решена проблема.
  2. Переустановите входной M7, в то время как вы контролируете.
  3. Замените M7, в то время как вы контролируете.

Если у вас есть три установленные XBARs, это дает вам резервирование N+1. Поэтому вы в состоянии завершить работу их по одному (никогда не завершает работу нескольких в любое заданное время) с только минимальным воздействием, чтобы видеть, решена ли проблема. Введите эти команды для завершения этого процесса:

N7K(config)# poweroff xbar 1

<monitor>

N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2

<monitor>

N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3

Когда XBARs были закрыты, в данном случае исследование, проблема не была решена.

Как существует два модуля, которые сообщают об ошибках CRC, маловероятно, что те два модуля (M1 и M3) являются причиной. Следующий шаг должен переустановить M7 (модуль входа), потому что это наиболее вероятно неисправный компонент. Линейные платы неверна расположенного могли бы вызвать эту проблему, и рекомендуется переустановить модуль перед заменой.

В этом примере практического применения ошибки CRC продолжили инкрементно увеличиваться на структурном модуле после переустанавливания M7. Свяжитесь с Центром технической поддержки Cisco (TAC) на этом этапе (или перед этой точкой) для замены M7, так как переустанавливание не решает проблему.

В этом примере практического применения замена M7 остановила оптоволоконные сообщения ошибки CRC и решила потерю пакета.

Неверно расположенное XBAR вводит поврежденные пакеты

Журналы

%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1

Проблема

Несколька номеров модулей сообщают об ошибках CRC от Модуля 12 (M12), которые проходят XBAR 3.

Вероятная причина проблемы

XBAR 3 плох или неверно расположенное, или M12 является неверном расположенным или неисправный.  

Процесс изоляции неисправного компонента

  1. XBAR 3 завершения, в то время как вы контролируете.
  2. Переустановите входной M12, в то время как вы контролируете.
  3. Замените M12, в то время как вы контролируете.

В этом случае XBAR 3 закрыт с процедурой, ранее описанной (в первом случае исследование), и проверен для дальнейших ошибок. Было найдено, что ошибки прекратились, когда был закрыт XBAR 3. На этом этапе XBAR 3 переустановлен, и меры приняты, чтобы гарантировать, что никакие контакты не изогнуты на среднем и что должным образом вставлен модуль. После того, как XBAR 3 реактивируют, проблема никогда не повторно происходит. Эта проблема приписана неверну расположенному модуль XBAR.

Неисправный выходной модуль повреждает пакеты от матрицы

Журналы

%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
 MOD 1 or 2 or 7 or 13 or 17 through XBAR 
 slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1

%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
 MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
 slot 2/inst 1 and slot 3/inst 1

%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
 MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
 slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1

Проблема

Модуль 6 (M6) сообщает о пакетах с ошибками CRC, полученными от множественных линейных плат и XBARs.

Вероятная причина проблемы

M6 является неверном расположенным или плохо.

Процесс изоляции неисправного компонента

  1. Переустановите M6, в то время как вы контролируете.
  2. Замените M6, в то время как вы контролируете.

M6 является наиболее вероятной причиной этой проблемы, потому что это - общие модули во всех сообщениях об ошибках. Из всех модулей, перечисленных в сообщениях об ошибках, то, которое наиболее последовательно появляется, является M6. Поэтому попытка переустановить M6, чтобы видеть, решен ли вопрос перед заменой его.

В этом случае M6 переустановлен, но все еще сохраняются ошибки. Так, необходимо открыть Обращение в Центр технической поддержки Cisco (TAC) для имения замененного M6. После того, как M6 заменен, об ошибках не сообщают.

Команды устранения неполадок

Вот список команд, используемых для устранения проблем:

  • show clock
  • покажите mod xbar
  • подробность show hardware fabric-utilization 
  • show hardware fabric-utilization детализирует метку времени
  • покажите аппаратным средствам внутренний xbar-драйвер все ошибки истории события
  • покажите аппаратным средствам внутренний xbar-драйвер все сообщения истории события
  • show system внутренние xbar-клиентские внутренние сообщения истории события
  • show system внутренний xbar все
  • команда "show module" внутренняя история события xbar 1
  • команда "show module" внутреннее действие xbar 1
  • команда "show module" внутренняя история события xbar 2
  • команда "show module" внутреннее действие xbar 2
  • команда "show module" внутренняя история события xbar 3
  • команда "show module" внутреннее действие xbar 3
  • команда "show module" внутренняя история события xbar 4
  • команда "show module" внутреннее действие xbar 4
  • команда "show module" внутренняя история события xbar 5
  • команда "show module" внутреннее действие xbar 5
  • show logging onboard внутренний xbar
  • show logging onboard внутренний разветвитель
  • покажите техническую подробность


Document ID: 116458