소개
이 문서에서는 "ThreshFabricEGQDiscards" SNMP 트랩이 있을 때 FSC(Fabric and Storage Card) 카드의 문제를 해결하는 방법을 설명합니다.
사전 요구 사항
요구 사항
다음 주제에 대한 지식을 보유하고 있으면 유용합니다.
사용되는 구성 요소
이 문서는 특정 소프트웨어 및 하드웨어 버전으로 한정되지 않습니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 미리 숙지하시기 바랍니다.
문제
"ThreshFabricEGQDiscards" 오류는 ASR5500 섀시의 FSC 카드 하나에 있는 패브릭 에지(FE) 칩셋의 SEU(Single Event Upset)에서 발생합니다. FE 테이블의 이 비트 플립으로 인해 FE 칩은 패브릭에서 손상된 패킷(셀)을 시작하며 이로 인해 이그레스 대기열 폐기(Egress Queue Discards)가 발생하여 카드 간 하트비트 장애가 발생합니다.
CLI(Command Line Interface) 명령 show snmp trap history verbose를 사용하여 이 문제의 예를 확인할 수 있습니다.
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
이 라인은 여러 카드 cpu 콘솔에서 볼 수 있습니다.
참고: command debug 콘솔 카드는 hidden/test 명령입니다. 이 명령은 또한 StarOs 노드에서 show support details 명령을 실행할 때 ASR5500의 모든 카드에 대해 항상 수집됩니다.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
문제 해결
이그레스 드랍이 증가하고 있는지 확인합니다.
참고: 패브릭 오류가 증가하고 있고 버전 릴리스 19.0 이상에서 StarOs 노드를 실행 중인 경우 이 문서의 솔루션 섹션으로 진행합니다.
참고: 패브릭 오류가 증가하고 있고 StarOs 노드 버전이 릴리스.19.0보다 낮은 경우 TAC에 서비스 요청을 제출하십시오.
1단계. 테스트 모드를 시작합니다. StarOs 노드에서 이 모드를 활성화하는 방법은 다음과 같습니다.
cli test-commands [encrypted] password password
2단계. 패브릭 상태를 확인합니다.
show fabric health | grep -i -E "^Petra-B|EGQ"
문제가 없는 경우의 출력 예:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
EGQ Discard Packets에서 증가되는 출력의 예:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
솔루션
자동 복구 메커니즘
동작 변경 유형:
과도한 패브릭 이그레스(egress) 폐기물이 탐지될 때 FSC 자동 복구/재설정 절차를 활성화하는 새로운 CLI 명령
릴리스 도입:
19.0
이전 동작:
FSC를 재설정하기 위한 수동 복구 프로세스
새 동작:
새 CLI 컨피그레이션 명령입니다. 설명서를 확인하십시오.
fabric fsc auto-recovery는 max-attempts <X>를 활성화하여 이 기능을 활성화합니다.
max-attempts는 각 FSC를 재설정하는 횟수입니다. 기본적으로 max-attempts는 무제한입니다.
패브릭 fsc 자동 복구를 비활성화하여 이 기능을 비활성화합니다.
show afctrl fsc-auto-recovery는 아직 재설정되어야 하는 디바이스, 재설정 횟수, 최대 시도 횟수, 이그레스 삭제 임계값 상태 및 FSC 자동 복구 기록을 포함하여 FSC 자동 복구에 대한 세부 정보를 표시합니다.
주의: 고객에 미치는 영향: FSC FE 장치가 재설정되고 전송 중인 패킷이 손실됩니다.
참고: 기록을 제외한 모든 값은 MIO가 장애 조치될 때 복제됩니다.