이 문서에서는 Cisco Nexus 7000 플랫폼에 보고된 패브릭 오류를 해결하는 방법에 대해 설명합니다. 패브릭 CRC(Cyclic Redundancy Checksum)의 문제 해결에는 데이터 수집, 데이터 분석, 제거 프로세스가 포함되므로 문제 구성 요소를 격리합니다. 이 문서에서는 가장 일반적인 유형의 패브릭 CRC 오류를 다룹니다.
다음은 M1 라인 카드가 장착된 Nexus 7018 패브릭 모듈의 개략적인 다이어그램입니다.
이전 이미지는 패킷이 패브릭 모듈을 통과할 때 관련된 구성 요소에 대한 개요를 제공합니다. 1단계(S1), 2단계(S2) 및 3단계(S3)는 Nexus 7000 패브릭의 3단계, Octopus는 대기열 엔진이고, SC(Santa Cruz)는 패브릭 ASIC이고, Instance 1과 2는 XBAR에서 두 개의 SC 인스턴스입니다. 이 문서에서는 하나의 XBAR만 고려합니다. 대부분의 Nexus 7000 Series 스위치에는 3개 이상의 XBAR가 설치되어 있습니다.
모듈 1(M1)에서 모듈 2(M2)로의 단방향 흐름이 있다고 가정하면 M1의 인그레스 옥토퍼스-1은 남쪽에서 수신하는 패킷에 대해 오류 검사를 수행하고 북쪽에서 M2의 이그레스 옥토어-1을 수행합니다. S3에서 CRC가 탐지된 경우 해당 단계에서 CRC 확인이 수행되지 않으므로 S1 또는 S2에서도 문제가 발생할 수 있습니다. 이 경로에 포함된 장치는 인그레스 옥토퍼스, 섀시, 크로스바 패브릭, 이그레스 옥토퍼스입니다.
M1/Fab1 아키텍처에서는 CRC가 이그레스 라인 카드(S3)에서만 탐지됩니다.
다음은 샘플 오류 메시지입니다.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with
CRC error from MOD 15 through XBAR slot 1/inst 1
이는 M1에서 보고하며, 이는 XBAR 슬롯 1/인스턴스 1을 통해 모듈 15(M15)에서 잘못된 CRC로 패킷을 받았음을 나타냅니다.
이 섹션에서는 가장 일반적인 패브릭 CRC 오류 유형 중 네 가지에 대해 설명합니다.
%OC_USD-SLOT1-2-RF_CRC: OC1 received packets with즉, 슬롯 1의 모듈이 M15에서 XBAR 슬롯 1/인스턴스 1을 통해 CRC 오류를 감지했습니다. CRC 오류가 발생한 모듈을 인그레스 모듈(이 경우 M15)이라고 하며 문제를 보고한 모듈은 이그레스 모듈(M1)입니다. XBAR 1은 패킷이 수신된 크로스바입니다. XBAR당 두 개의 인스턴스가 있습니다. 이 경우 M1은 M15에서 XBAR 슬롯 1 인스턴스 1까지 CRC 오류를 감지했습니다.
CRC error from MOD 15 through XBAR slot 1/inst 1
%OC_USD-SLOT4-2-RF_CRC: OC2 received packets with이 메시지에서 모듈 4(M4)는 M1에서 CRC 오류를 보고했습니다. XBAR 정보가 누락되어 있습니다. 패킷이 통과한 XBAR를 확인할 수 없습니다. 여러 가지 이유가 있지만 가장 일반적인 이유는 다음과 같습니다. 패킷의 패브릭 헤더에 있는 정보가 손상되어 소스 모듈을 확인할 수 없습니다. 오류가 증가하므로 트래버스된 XBAR가 시스템에서 제거됩니다. 따라서 매시간 syslog 메시지에 보고되지 않았습니다.
CRC error from MOD 1
%OC_USD-2-RF_CRC: OC1 received packets with이 경우 디바이스는 모듈 16(M16)에서 XBAR 1을 통해 CRC를 탐지했지만 수신기 모듈이 없습니다. 수퍼바이저(SUP)가 패브릭 모듈에서 오는 CRC를 탐지하면 슬롯 정보가 기록되지 않습니다. 슬롯 정보가 표시되지 않으면 SUP에서 문제를 감지했습니다. 슈퍼바이저가 나쁘다는 의미는 아니다. 모듈에서 문제를 보고할 때와 마찬가지로, 문제를 일으킨 여러 구성 요소가 있습니다. M16, 섀시(그럴 것 같지 않음), XBAR 1 또는 SUP입니다.
CRC error from MOD 16 through XBAR slot 1/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with소스 모듈은 잘못된 패킷을 소스가 하는 인그레스 Octopus에서 취합됩니다. 이 오류 메시지를 기록하기 위해 인터럽트를 발생시키는 드라이버가 잘못된 패킷이 시작된 인그레스 Octopus를 항상 아는 것은 아닙니다. 인그레스 문어를 나타내기 위해 사용되는 일부 비트가 사용되지 않기 때문입니다. 시스템이 여러 모듈에 이러한 사용되지 않은 비트가 설정되어 있다고 판단하면, 시스템은 해당 비트가 모두 소스일 수 있다고 간주해야 합니다. 이로 인해 오류 메시지에 해당 모듈이 모두 포함됩니다. 시스템에서 모듈 13(M13)이 사용되지 않는 비트로 인해 이러한 충돌이 발생하지 않음을 발견했습니다. 따라서 잠재적 소스로 기록되지 않습니다.
CRC error from MOD 11 or 12 or 14 or 15 or 16 or 17 or 18
새 라인 카드(M2) 및 패브릭 모듈 2(FAB2)는 S1, S2 또는 S3에서 CRC를 탐지합니다. 자세히 조사하고 실패 및 로그 메시지에서 패턴을 찾으면 결함이 있는 구성 요소를 격리하는 데 도움이 됩니다.
다음과 같은 질문을 하십시오.
이러한 질문에 대한 답변을 통해 문제 해결 절차를 보다 신속하게 해결할 수 있는 각도에서 접근할 수 있습니다.
이 섹션에서는 이러한 문제를 해결하는 데 사용되는 일반적인 프레임워크를 설정합니다.
이 섹션에서는 유사한 문제를 해결하는 방법의 예를 제공합니다.
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT1-2-RF_CRC: OC2 received packets with CRC error from MOD 7
%OC_USD-SLOT3-2-RF_CRC: OC2 received packets with CRC error from MOD 7
몇 시간 동안 M1 및 모듈 3(M3)에 모듈 7(M7)에서만 CRC 오류가 표시됩니다.
M7로 향하는 패킷을 손상시키거나 M7이 잘못되었거나 잘못 장착된 XBAR가 있습니다.
3개의 XBAR가 설치된 경우 N+1 이중화를 제공합니다. 따라서 문제가 해결되었는지 확인하기 위해 최소한의 영향만 가지고 한 번에 하나씩 종료할 수 있습니다(특정 시간에 두 번 이상 종료하지 않음). 이 프로세스를 완료하려면 다음 명령을 입력합니다.
N7K(config)# poweroff xbar 1
<monitor>
N7K(config)# no poweroff xbar 1
N7K(config)# poweroff xbar 2
<monitor>
N7K(config)# no poweroff xbar 2
N7K(config)# poweroff xbar 3
N7K(config)# no poweroff xbar 3
이 특정 사례 연구에서는 XBAR가 종료되었을 때 문제가 해결되지 않았습니다.
CRC 오류를 보고하는 두 개의 모듈이 있으므로 이러한 두 모듈(M1 및 M3)이 원인일 가능성이 낮습니다. 다음 단계는 M7(인그레스 모듈)을 재장착하는 것입니다. 결함이 있는 구성 요소일 가능성이 높습니다. 라인 카드가 잘못 장착되면 이 문제가 발생할 수 있으므로 교체하기 전에 모듈을 다시 장착하는 것이 좋습니다.
이 사례 연구에서는 M7을 재장착한 후 패브릭 모듈에서 CRC 오류가 계속 증가했습니다. 재장착해도 문제가 해결되지 않으므로 M7을 교체하려면 이 시점(또는 이 시점 이전)에 Cisco TAC(Technical Assistance Center)에 문의하십시오.
이 사례 연구에서 M7을 교체하면 패브릭 CRC 오류 메시지가 중단되고 패킷 손실이 해결되었습니다.
%OC_USD-SLOT11-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT12-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT13-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT15-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT2-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT4-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT5-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT7-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
%OC_USD-SLOT8-2-RF_CRC: CRC error from MOD 12 through XBAR slot 3/inst 1
여러 모듈에서 XBAR 3을 통과하는 모듈 12(M12)의 CRC 오류를 보고합니다.
XBAR 3이 잘못되었거나 잘못 장착되었거나 M12가 잘못 장착되었거나 결함이 있습니다.
이 경우 XBAR 3은 이전에 설명한 절차를 사용하여 종료되며(첫 번째 사례 연구에서) 추가 오류가 있는지 모니터링됩니다. XBAR 3이 종료되었을 때 오류가 중단된 것으로 확인되었습니다. 이때 XBAR 3을 재장착하고 미드플레인에 핀이 구부러지지 않고 모듈이 올바르게 삽입되도록 주의합니다. XBAR 3을 다시 활성화한 후에는 문제가 다시 발생하지 않습니다. 이 문제는 잘못 장착된 XBAR 모듈 때문입니다.
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 7 or 13 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC2 received packets with CRC error from
MOD 1 or 2 or 3 or 7 or 15 or 17 through XBAR
slot 2/inst 1 and slot 3/inst 1
%OC_USD-SLOT6-2-RF_CRC: OC1 received packets with CRC error from
MOD 1 or 2 or 5 or 7 or 16 or 17 through XBAR
slot 1/inst 1 and slot 2/inst 1 and slot 3/inst 1
모듈 6(M6)은 여러 라인 카드 및 XBAR에서 수신된 CRC 오류가 있는 패킷을 보고합니다.
M6이 잘못 장착되었거나 잘못되었습니다.
M6은 모든 오류 메시지에 있는 하나의 공통 모듈이므로 이 문제의 가장 가능성이 높습니다. 오류 메시지에 나열된 모든 모듈 중 가장 일관성 있게 나타나는 모듈은 M6입니다. 따라서 M6을 재장착하여 문제가 해결되었는지 확인한 후 교체하십시오.
이 경우 M6을 재장착하지만 오류가 계속 발생합니다. 따라서 M6을 교체하려면 Cisco TAC 케이스를 열어야 합니다. M6을 교체한 후에는 오류가 보고되지 않습니다.
다음은 문제 해결/디버깅에 사용되는 명령 목록입니다.
개정 | 게시 날짜 | 의견 |
---|---|---|
1.0 |
11-Sep-2013 |
최초 릴리스 |