소개
이 문서에서는 소프트 및 하드 패리티 오류에 대해 설명하고, 일반적인 오류 메시지에 대해 설명하며, 패리티 오류를 방지하거나 최소화하는 방법을 권장합니다.
배경 정보
최근 하드웨어 및 소프트웨어 설계가 개선되면서 패리티 문제도 줄어들었습니다.
프로세서 또는 메모리 패리티 오류란 무엇입니까?
패리티 검사는 데이터가 메모리에 저장되는 동안 소량의 컴퓨터 데이터(일반적으로 1바이트)의 패리티(홀수 또는 짝수)를 나타내기 위해 여분의 이진수(비트)를 저장하는 것입니다. 저장된 데이터로부터 계산된 패리티 값은 최종 패리티 값과 비교된다. 이 두 값이 다르면 데이터 오류를 나타내며, 데이터 손상으로 인해 적어도 하나의 비트가 변경되었을 것입니다.
컴퓨터 시스템 내에서 내부 또는 외부 원인에 의한 전기적 또는 자기적 간섭은 한 비트의 메모리가 반대쪽 상태로 자발적으로 뒤집히게 할 수 있다. 이 이벤트는 원래 데이터 비트를 유효하지 않게 하며 패리티 오류라고 합니다.
이러한 메모리 오류는 탐지되지 않은 경우 탐지할 수 없는 결과이거나 저장된 데이터의 영구적인 손상 또는 시스템 충돌을 일으킬 수 있습니다.
메모리 패리티 오류의 원인은 여러 가지가 있으며, 소프트 패리티 오류나 하드 패리티 오류로 분류됩니다.
소프트 오류
대부분의 패리티 오류는 정전기 또는 자기 관련 환경 조건에 의해 발생합니다.
메모리 칩의 단일 이벤트 오류의 대부분은 배경 방사선(예: 우주선의 중성자), 전자기 간섭(EMI) 또는 정전기 방전(ESD)에 의해 발생합니다. 이러한 이벤트들은 하나 이상의 메모리 셀들의 전기적 상태를 무작위로 변경할 수 있거나, 메모리 셀들을 판독 및 기록하는데 사용되는 회로를 간섭할 수 있다.
소프트 패리티 오류라고 하는 이러한 이벤트는 일반적으로 일시적이거나 무작위적이며 대개 한 번 발생합니다. 소프트 오류는 사소한 오류이거나 심각한 오류일 수 있습니다.
- 구성 요소를 재설정하지 않고 수정할 수 있는 사소한 소프트 오류는 SEU(Single Event Upset)입니다.
- 구성 요소 또는 시스템 재설정이 필요한 심각한 소프트 오류는 SEL(단일 이벤트 래치업)입니다.
소프트 오류는 하드웨어 오작동으로 인한 것이 아닙니다. 이러한 디바이스는 일시적이고 자주 발생하지 않으며, 대부분 SEU일 가능성이 높으며, 메모리 데이터의 환경 파괴로 인해 발생합니다.
소프트 패리티 오류가 발생하면 해당 시스템의 위치에서 발생한 최근 환경 변경 사항을 분석합니다. 소프트 패리티 오류를 일으킬 수 있는 ESD 및 EMI의 일반적인 소스는 다음과 같습니다.
- 전원 케이블 및 공급 장치
- 전원 분배 장치
- 범용 전원 공급 장치
- 조명 시스템
- 발전기
- 핵시설(방사선)
- 태양플레어(복사)
하드 오류
다른 패리티 에러들은 메모리 하드웨어의 물리적 오작동 또는 메모리 셀들을 읽고 쓰기 위해 사용되는 회로에 의해 야기된다.
하드웨어 제조업체에서는 하드웨어 결함을 방지하고 테스트하기 위해 광범위한 조치를 취합니다. 그러나, 결함은 여전히 가능하다. 예를 들어, 데이터 비트를 저장하는 데 사용되는 메모리 셀 중 하나라도 형식이 잘못된 경우, 이들은 전하를 보유할 수 없거나 환경 조건에 더 취약할 수 있습니다.
마찬가지로, 메모리 자체는 정상적으로 작동할 수 있지만 메모리 셀을 읽고 쓰기 위해 사용되는 회로에 대한 물리적 또는 전기적 손상은 전송 중에 데이터 비트가 변경되어 패리티 오류가 발생할 수 있습니다.
하드 패리티 오류라고 하는 이러한 이벤트는 일반적으로 매우 빈번하고 반복되며, 영향을 받는 메모리 또는 회로가 사용될 때마다 발생합니다. 정확한 주파수는 오작동의 정도와 손상된 장비의 사용 빈도에 따라 다릅니다.
하드 패리티 오류는 하드웨어 오작동으로 인해 발생하며 영향을 받는 구성 요소가 사용될 때마다 다시 발생합니다.
하드 패리티 오류가 발생하면 해당 시스템의 위치에서 발생한 물리적 변경 사항을 분석합니다. 하드웨어 오작동이 하드 패리티 오류로 이어질 수 있는 일반적인 원인은 다음과 같습니다.
- 전원 서지(접지 없음)
- ESD
- 과열 또는 냉각
- 잘못된 설치 또는 부분 설치
- 구성 요소 비호환성
- 제조상의 결함
일반적인 오류 메시지
Cisco IOS® 소프트웨어는 영향을 받는 구성 요소 및 시스템에 미치는 상대적인 영향에 따라 달라지는 다양한 패리티 오류 메시지를 제공합니다.
프로세서
|
캐시 오류가 검색되었습니다. CP0_CAUSE(reg 13/0): 0x00000400 CPO_ECC(reg 26/0): 0x000000B3 CPO_BUSERRDPA(등록 26/1): 0x000000B3 CPO_CACHERI(정규 27/0): 0x20000000
실제 캐시 오류가 검색되었습니다. 시스템을 중지할 수 있습니다.
오류: 기본 인스턴스 캐시, 필드: 데이터, 실제 물리적 주소 0x00000000, 가상 주소는 정확하지 않습니다.
부정확한 데이터 패리티 오류
|
|
설명
|
이는 RP(Route Processor) 또는 MSFC3(Multilayer Switch Feature Card 3)의 SP(Switch Processor) CPU에서 사용되는 Level 2(L2) 캐시(SRAM 또는 Static Random Access Memory) 내의 패리티 오류 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 Supervisor Engine을 교체하기 위해 RMA(Return Material Authorization)를 요청하고 모듈에 EFA(Equipment Failure Analysis)를 표시합니다.
|
|
%SYSTEM_CONTROLLER-3-오류: 오류 상태 감지: SYSAD_PARITY_ERROR
|
|
설명
|
이는 MSFC3의 IBC(In-Band Controller)에서 사용하는 시스템 주소(데이터 버스)에서 패리티 오류가 발생한 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 Supervisor Engine을 교체하기 위해 RMA를 요청하고 모듈에 EFA를 표시합니다.
|
|
%SYSTEM_CONTROLLER-3-오류: 오류 상태 감지: TM_데이터_패리티_오류
|
|
설명
|
이는 MSFC3의 IBC에서 사용하는 테이블 관리자 데이터에 패리티 오류가 발생한 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 Supervisor Engine을 교체하기 위해 RMA를 요청하고 모듈에 EFA를 표시합니다.
|
|
%SYSTEM_CONTROLLER-3-오류: 오류 상태 감지: TM_NPP_PARITY_ERROR
|
|
설명
|
이는 MSFC3의 IBC에서 사용하는 테이블 관리자 '다음 페이지 포인터'에서 패리티 오류가 발생한 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 수퍼바이저 엔진을 교체하기 위해 RMA를 요청하고 모듈을 EFA에 표시하십시오.Cisco IOS 소프트웨어 버전 12.1(8)E와 12.2(33)SXI3 사이에서 SYSTEM_CONTROLLER-3-ERROR 이벤트에 대한 기본 동작은 IBC를 재설정하고 오류 메시지를 기록하는 것이었습니다.그러나 이러한 수정 조치는 IBC(및 CPU)에서 데이터를 더 이상 전송하거나 수신할 수 없는 문서화된 사례를 초래했습니다. 따라서 Cisco IOS 소프트웨어 버전 12.2(33)SXI4 이상에서 동작이 변경되어 오류 메시지를 기록하고 시스템을 재설정했습니다. cisco 버그 ID CSCtf51541을 참조하십시오.
|
|
인터럽트 예외, CPU 신호 20, PC = 0x[dec]
|
|
설명
|
이는 Cisco Catalyst 6700 Series 모듈에서 사용하는 CPU L2 캐시(SRAM)에서 단일 비트 패리티 오류가 발생한 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 6700 모듈을 교체하기 위해 RMA를 요청하고 모듈에 EFA를 표시하십시오.
12.2(33)SXI5 이전 Cisco IOS 소프트웨어 버전에서는 소프트웨어 버그(Cisco 버그 ID CSCtj06411)로 인해 6700 모듈을 재설정하는 단일 비트 패리티 오류가 발생할 수 있습니다. 이 문제는 Supervisor Engine 720의 경우 버전 12.2(33)SXI6 및 12.2(33)SXJ에서, Supervisor Engine 2T의 경우 버전 15.0SY에서 해결되었습니다.
|
램
|
%SYSTEM_CONTROLLER-3-오류: 오류 상태 감지: SYSDRAM_PARITY_ERROR
|
|
설명
|
이는 MSFC3에서 사용하는 동기식 DRAM(SDRAM) 메모리 모듈(DIMM)에서 수정 불가능한 패리티 오류가 발생한 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 DIMM을 청소하고 재장착한 다음 계속 모니터링합니다. 오류가 계속되면 DIMM을 교체하거나 업그레이드하기 위해 RMA를 요청하십시오.
|
|
%SYSTEM_CONTROLLER-3-COR_MEM_ERR: 수정 가능한 DRAM 메모리 오류입니다. 개수 [dec], 로그 [hex]
|
|
설명
|
이는 MSFC3에서 사용하는 SDRAM(DIMM)에서 수정 가능한 패리티 오류가 발생한 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 DIMM을 청소하고 재장착한 다음 계속 모니터링합니다. 오류가 계속되면 DIMM을 교체하거나 업그레이드하기 위해 RMA를 요청하십시오.
|
|
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: 수정 가능한 ECC 오류가 발생했습니다. A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMIO_ERRORS: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000
|
|
설명
|
이는 6700 Series 모듈에서 사용하는 DRAM에서 단일 비트 패리티 오류가 발생한 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 DIMM을 청소하고 재장착한 다음 계속 모니터링합니다. 오류가 계속되면 DIMM을 교체하거나 업그레이드하기 위해 RMA를 요청하십시오.
|
|
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: 모듈 [dec]에 다음 오류가 있습니다. 코일 #[dec]에서 LTL 패리티 오류가 검색되었습니다.
|
|
설명
|
이는 Cisco Catalyst 6100 및 Cisco Catalyst 6300 Series 모듈에서 사용된 SRAM의 패리티 오류 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 6100 또는 6300 모듈을 교체하기 위해 RMA를 요청하고 모듈에 EFA를 표시합니다.
|
|
%SYS-4-SYS_LCPERR4: 모듈 [dec]: 코일 #[dec]에서 LTL 패리티 오류가 검색되었습니다.
|
|
설명
|
이는 6100 및 6300 Series 모듈에서 사용된 SRAM에서 패리티 오류가 발생한 결과입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 6100 또는 6300 모듈을 교체하기 위해 RMA를 요청하고 모듈에 EFA를 표시합니다.
|
ASIC
|
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: 모듈 [dec]에 다음 오류가 있습니다. 포트 [dec]에서 포트 ASIC([name]) 패킷 버퍼 오류가 탐지됨
|
|
설명
|
이는 Cisco Catalyst 6148A Series Ethernet 모듈에서 사용하는 포트 ASIC SRAM(Packet Buffer)의 패리티 오류 때문입니다.
|
|
권장 사항
|
재가동 시 시스템을 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 6148A 모듈을 교체하기 위해 RMA를 요청하고 모듈에 EFA를 표시합니다.
|
|
%LTL-SP-2-LTL_PARITY_CHECK: 0x[hex]에 대한 LTL 패리티 검사 요청
|
|
설명
|
이는 Catalyst 6100-6500 및 6700 Series 모듈에서 사용된 포트 ASIC SRAM(port index table)의 패리티 오류 결과입니다.
|
|
권장 사항
|
시스템이 재발생하는지 정기적으로 모니터링합니다. 추가 이벤트가 관찰되지 않으면 소프트 오류입니다. 오류가 자주 발생하는 경우 모듈을 교체하기 위해 RMA를 요청하고 모듈에 EFA를 표시합니다.
|
종합적인 오류 메시지 목록은 다음 Cisco IOS 소프트웨어 문서를 참조하십시오.
아웃풋 인터프리터 툴(등록 고객 전용)은 특정 show 명령을 지원합니다. show 명령 출력의 분석을 보려면 아웃풋 인터프리터 툴을 사용합니다.
최신 개선 사항
패리티 오류 분야에 대한 연구는 계속되고 있으며 모든 시나리오를 해결할 수 있는 것은 아니지만 Cisco Catalyst 6500 하드웨어 및 소프트웨어 개발 조직에서는 패리티 오류의 발생을 최소화하고 완화할 수 있도록 ECC(error-correcting code) 보호와 같은 새로운 방법을 계속 도입하고 있습니다.
이 문서는 Catalyst 6500 제품의 3세대(WS-XSUP720 및 6700 Series 초기)에 대한 설명으로 시작했지만, 이 섹션에서는 4세대(VS-S720-10G 및 이후 6700 Series) 및 5세대(VS-SUP2T-10G 및 6900 Series)와 함께 도입된 개선 사항을 요약합니다.
프로세서
VS-S720-10G 모듈은 새로운 MSFC3 도터보드를 탑재하고 있으며, 새로운 IBC 및 업데이트된 SR7010A RISC(reduced instruction set computing) RP 및 SP CPU가 각각 600Mhz에서 작동합니다. 레벨 1(L1), L2 및 레벨 3(L3) 캐시는 패리티 탐지 기능을 제공합니다. 최신 IBC는 이전 세대의 모든 기능을 갖추고 있으며, 연결된 SRAM에 ECC 보호(단일 비트 보정, 다중 비트 감지)를 추가합니다.
6700 Series 모듈은 ECC로 보호되는 L2 캐시(L1 캐시는 패리티 감지 가능)가 있는 CPU를 지원하므로 재설정할 필요 없이 단일 비트 패리티 오류를 수정할 수 있습니다. 그러나 Cisco 버그 ID CSCsz39222로 인해 단일 비트 CPU 캐시 패리티 오류가 발생할 경우 Cisco IOS 소프트웨어(Supervisor Engine 720)의 버전 12.2SXI가 모듈을 재설정합니다. 이 문제는 Cisco IOS 소프트웨어의 버전 12.2SXJ(Supervisor Engine 720) 및 15.0SY(Supervisor Engine 2T)에서 해결되었습니다.
VS-SUP2T-10G는 IBC가 통합된 새로운 MSFC5 도터보드와 코어당 1.5Ghz에서 작동하는 새로운 단일 듀얼 코어 MPC8572 PPC RP CPU(ECC 보호 L2 및 L3 캐시가 있고 L1 캐시가 패리티 감지 기능이 있음)를 특징으로 합니다. 또한 별도의 CMP(Out-of-Band Connectivity Management Processor) CPU와 ECC로 보호되는 DRAM도 있습니다. RP CPU를 현재 사용할 수 없는 경우에도 사용할 수 있습니다.
새로운 IBC는 이전 세대의 모든 기능을 갖추고 있으며, 연결된 SRAM에 대한 ECC 보호 및 패리티 오류 처리 개선을 지원합니다. 새로운 MSFC5에는 모든 모듈 초기화 및 진단 이벤트를 저장하는 OBFL(Onboard Failure Logging) ROM도 포함되어 있습니다. 새로운 단일 CPU 설계는 또한 패리티 오류 이벤트의 통계적 가능성을 줄입니다.
6900 Series 모듈은 ECC로 보호되는 L1 및 L2 캐시가 포함된 최신 CPU를 지원하므로, 재설정할 필요 없이 단일 비트 패리티 오류를 수정할 수 있습니다. 새로운 세대는 동일한 IBC를 지원하며 단일 비트 패리티 오류 수정을 위한 소프트웨어 처리가 통합되어 있습니다.
램
MSFC3가 포함된 VS-S720-10G는 266Mhz에서 작동하는 ECC 보호 기능이 있는 DDR(double-data-rate) SDRAM을 제공합니다.
6700 Series 모듈은 266Mhz에서 작동하는 ECC 보호 기능이 있는 DDR SDRAM을 지원합니다.
DDR SDRAM 인터페이스는 SDR(Single-Data-Rate) SDRAM에 비해 전기 데이터와 클록 신호의 타이밍을 더욱 엄격하게 제어함으로써 전송 속도를 높입니다. DDR 인터페이스는 클록 주파수를 낮추기 위해 더블 펌핑(클록 신호의 상승 및 하강 에지 모두에서 데이터 전송)을 사용한다. 클록 주파수가 낮아지면 메모리를 컨트롤러에 연결하는 회로 보드의 신호 무결성 요구 사항이 감소합니다.
MSFC5가 포함된 VS-SUP2T-10G에는 667Mhz에서 작동하는 ECC 보호 기능이 있는 DDR3 SDRAM이 포함되어 있습니다.
6900 Series 모듈은 667Mhz에서 작동하는 ECC 보호 기능이 있는 DDR3 SDRAM을 지원합니다.
DDR3 SDRAM이 직접 선행된 DDR2 및 DDR(Direct Preferences)에 비해 가장 큰 이점은 데이터 전송 속도를 2배(내부 메모리 어레이의 8배) 높일 수 있다는 것입니다. 또한 DDR3 메모리는 DDR 및 DDR2와 동일한 전기 신호 표준을 사용하더라도 전력 소비량을 30% 줄입니다.
ASIC
PFC3C가 포함된 VS-S720-10G에는 ECC 보호 기능이 있는 SRAM 패킷 버퍼가 있습니다. 이를 통해 모듈 재설정 없이 단일 비트 패리티 오류 정정 및 다중 비트 패리티 오류 탐지가 가능합니다.
DFC3C가 포함된 6700 Series는 ECC 보호 기능이 있는 SRAM 패킷 버퍼를 제공합니다. 이를 통해 모듈 재설정 없이 단일 비트 패리티 오류 정정 및 다중 비트 패리티 오류 탐지가 가능합니다.
PFC4가 포함된 VS-SUP2T-10G는 ECC 보호 기능이 있는 SRAM 패킷 버퍼를 제공합니다. 이를 통해 모듈 재설정 없이 단일 비트 패리티 오류 정정 및 다중 비트 패리티 오류 탐지가 가능합니다.
DFC4가 포함된 6900 Series는 ECC 보호 기능이 있는 SRAM 패킷 버퍼를 제공합니다. 이를 통해 모듈 재설정 없이 단일 비트 패리티 오류 정정 및 다중 비트 패리티 오류 탐지가 가능합니다.
소프트웨어
Cisco IOS 소프트웨어는 ECC 보호를 지원하도록 설계되었습니다. ECC 보호를 지원하는 하드웨어 구성 요소에 SEU가 있는 경우, 코드는 손상된 데이터를 수정하거나 영향을 받는 구성 요소를 재설정할 수 있으며 영향을 받는 모듈의 전체 하드웨어 재설정이 필요하지 않습니다.
그러나 이전 버전의 Cisco IOS Software에서는 소프트웨어 버그로 인해 동작이 의도적으로 변경되었거나 오작동하는 몇 가지 예외가 있습니다. 여기 두 가지 주목할 만한 예외가 있다.
MSFC IBC 재설정
12.1(8)E와 12.2(33)SXI3 사이의 Cisco IOS 소프트웨어 버전에서 SEU SYSTEM_CONTROLLER-3-ERROR 이벤트에 대한 기본 동작은 IBC를 재설정하고 오류 메시지를 기록하는 것이었습니다. 그러나 이러한 수정 조치로 인해 IBC(즉, CPU)에서 더 이상 데이터를 전송하거나 수신할 수 없는 문서화된 사례도 있었습니다.
따라서 버전 12.2(33)SXI4(Cisco 버그 ID CSCtf51541) 이후에 동작이 변경되어 오류 메시지를 기록하고 시스템을 재설정했습니다. 이러한 반응이 더 심해 보일 수 있지만 응답하지 않는 시스템보다는 시스템을 재설정하고 메모리 구조를 수정하는 것이 좋습니다.
현재 개발 중인 기능(Cisco 버그 ID CSCtr89859)에는 기본 동작을 전환할 수 있는 새로운 CLI(command-line interface) 명령이 추가되었습니다. 이러한 개선 사항은 단일 수퍼바이저를 사용하므로 수퍼바이저 이중화가 없는 시스템에 가장 적합합니다.
6700 Series "단일 비트 패리티 오류" 재설정
12.2(33)SXI5 이전 Cisco IOS 소프트웨어 버전에서는 소프트웨어 버그(Cisco 버그 ID CSCtj06411)로 인해 6700 모듈을 재설정하는 단일 비트 패리티 오류가 발생할 수 있습니다. 이는 일반적으로 수정 가능한 패리티 오류이며 모듈을 재설정하지 않아도 됩니다.
이 버그는 Supervisor Engine 720의 버전 12.2(33)SXI6+ 및 12.2SXJ와 Supervisor Engine 2T의 버전 15.0SY에서 해결되었습니다. 적절한 버전으로 업그레이드한 후 6700 모듈은 단순히 오류 메시지를 기록하고 계속 작동합니다.
권장 사항
이 시점에서는 소프트 패리티 오류가 발생했는지 하드 패리티 오류가 발생했는지 여부를 확인할 수 있습니다. 이 경우 단일 인시던트를 해결할 수 있지만, 다른 패리티 오류 취약성은 여전히 존재할 수 있으므로 전체 네트워크에 대해 보다 포괄적인 접근 방식을 취할 수 있습니다.
따라서 Cisco와 Catalyst 6500 사업부는 향후 패리티 오류를 없애거나 줄이기 위해 이러한 완화 절차를 검토하고 적절한 수정 조치를 취할 것을 권장합니다.
소프트 오류(SEU)
단일 이벤트(소프트) 패리티 오류는 환경 조건으로 인해 발생하며 SEU(Only Once Event)가 발생하거나 월별이나 연도별과 같이 매우 드물게 발생할 수 있습니다. 하드웨어를 교체할 필요는 없지만, 향후 발생할 수 있는 문제를 완화할 수 있습니다.
이러한 모범 사례는 소프트 패리티 오류의 가능성을 크게 줄입니다.
환경 감사
영향을 받는 네트워크 위치에 대한 환경 감사를 수행하는 것이 좋습니다. 이 감사는 직접 수행하거나 Cisco 담당자, Cisco 팀(예: Cisco Advanced Services) 또는 타사 컨설턴트를 통해 수행할 수 있습니다.
환경 감사의 정확한 범위와 복잡성은 지리적 위치, 건물 및 공간 크기와 설계, 전기 설계 및 레이아웃, 기타 관련 요인과 같은 다양한 변수에 따라 달라집니다.
ESD 및 EMI의 환경 소스가 네트워크 내부 또는 주변에 존재할 수 있는지 고려하십시오. 소프트 패리티 오류를 일으킬 수 있는 간섭의 일반적인 소스입니다.
- 전원 케이블 및 공급 장치
- 전원 분배 장치
- 범용 전원 공급 장치
- 조명 시스템
- 발전기
- 핵시설(방사선)
- 태양플레어(복사)
섀시 배치
SEU는 배전 장치, 발전기 또는 조명 시스템이 섀시에 너무 가까이 있거나 여러 전원 케이블이 섀시에 있거나 옆에 있는 경우 발생할 수 있습니다.
Catalyst 6500 섀시와 이러한 전기 및 자기 소스 간에 적절한 거리를 제공하는 것이 중요합니다. 권장 거리는 구성 요소에 따라 다르며 구성 요소 데이터 시트에서 사용할 수 있습니다.
일반적으로 Cisco에서는 일반적인 전기 및 자기 간섭의 근원에서 최소 3인치에서 6인치 떨어진 곳에 시스템을 배치하는 것을 권장합니다. 전원 케이블은 가능한 한 섀시에서 아래로 또는 멀리 떨어져 라우팅될 수 있으며, 긴밀하게 포장된 번들로 또는 섀시 전체 또는 옆에 대량으로 배치할 수 없습니다.
접지
전력 변동과 전력 서지는 비교적 흔하며 Catalyst 6500 전원 공급 장치는 전압 전류의 작은 변화를 수용하도록 설계되었습니다.
그러나 섀시 및 랙에 적절한 전기 접지를 제공하여 과도한 전기 전압이 시스템에서 빠져나가도록 하는 것이 중요합니다. 적절한 접지가 없으면 전원 서지로 인해 다양한 ASIC 및 메모리 구성 요소가 손상되거나 오작동할 수 있습니다. 자세한 내용은 Catalyst 6500 Series Switch Installation Guide, Installing the Switch, Establishing the System Ground를 참조하십시오.
ESD
ESD는 눈에 보이는 손상 없이 중요한 구성 요소를 쉽게 손상시킬 수 있습니다. 적절한 예방 조치는 실험실 운영 정책에 통합될 수 있지만 이러한 조치는 편법과 제한된 감독으로 인해 종종 그리고 안타깝게도 무시된다.
Cisco는 Cisco Systems와 함께 랩 운영 관리에서 모든 네트워크 영역 또는 최소한 하드웨어 장애가 발생했거나 미션 크리티컬로 지정된 모든 영역에 대한 환경 감사를 수행할 것을 권장합니다. 감사가 완료되면 Cisco는 향후 SEU 패리티 이벤트를 방지하기 위해 새로 설치된 모든 시스템에 대해 표준화된 환경 체크리스트를 구현하는 것을 권장합니다.
최신 펌웨어(Rommon)
Catalyst 하드웨어 구성 요소는 펌웨어(Rommon이라고도 함) 코드를 사용하여 진단 기능을 초기화, 통신 및 실행합니다. 이러한 기능이 완료되면 시스템 작업은 Cisco IOS 소프트웨어로 전환됩니다. 펌웨어에 문제가 발생하는 경우는 드물지만 수퍼바이저 및 모듈에 대해 서로 다른 버전의 펌웨어 코드를 사용하는 경우 문제가 발생할 수 있습니다.
따라서 올바른 모듈 초기화 및 통신을 보장하기 위해 모든 구성 요소에서 최신 펌웨어 코드를 사용하도록 하는 것이 모범 사례입니다. 운영 관리에서 네트워크 감사를 수행하고 모든 하드웨어 구성 요소를 최신 펌웨어 버전으로 업그레이드하는 것이 좋습니다.
알려진 펌웨어 문제 및 업그레이드 절차에 대한 설명은에 나와 있습니다.
Cisco 웹 사이트에서 최신 펌웨어 버전을 다운로드합니다.
엄지 나사
모든 모듈형 네트워킹 시스템은 물리적 인터페이스 핀 세트를 사용하여 섀시 백플레인에 삽입하도록 설계되었습니다. 섀시 백플레인 자체는 기본적으로 일련의 상호 연결된 와이어입니다. 각 섀시 슬롯의 핀은 수퍼바이저와 이더넷 모듈 간의 물리적 데이터 연결을 형성합니다. 따라서 이러한 핀의 적절한 삽입 및 정렬이 중요합니다.
Catalyst 6500은 섀시에 설치하는 데 도움이 되는 가이드 레일 및 정렬 핀을 제공합니다. 슬롯 핀(소켓) 및 모듈 커넥터는 고대역폭 지원 전기 연결을 쉽게 연결하고 제공하도록 설계되었습니다. 섀시에 삽입되면 모듈 양쪽에 엄지 나사가 있어 백플레인 핀과 완전히 맞물리게 됩니다. Catalyst 6500 Series 스위치 모듈 설치 정보를 참조하십시오.
모듈을 슬롯에 제대로 삽입하고 엄지 나사를 올바르게 조이면 통신 문제가 발생하지 않습니다. 그러나 모듈의 일상적인 삽입에서 부적절한 또는 불완전한 핀 삽입으로 이어질 수 있는 몇 가지 조건이 발생할 수 있습니다.
- 삽입력이 부족합니다. 모듈을 썸 나사를 사용하지 않고 부분적으로 끼우면 버스 정지가 발생할 수 있으며 모듈이 다른 모듈과 통신할 수 없습니다. 삽입 레벨에 따라(예: 물리적 접촉이 제한된 경우) 모듈은 데이터를 송수신할 수 있지만, 비트 오류가 발생하여 패킷이 손상될 수 있습니다.
- 수직 오정렬 - 모듈의 한 면만 가이드 레일에 있을 때 발생합니다. 모듈이 대각선 방향으로 나타나며 일반적으로 백플레인 핀에 연결되지 않으므로 쉽게 식별할 수 있습니다.
- 수평 오정렬 - 엄지 나사가 한쪽 면에만 사용되는 경우 일부 핀이 제대로 맞물리지 않습니다. 모듈을 올바르게 삽입할 수 있는 것처럼 보일 수 있기 때문에 이는 일반적인 문제입니다. 수평 오정렬은 실제로 불충분한 삽입력의 한 형태이다.
운영 환경의 모든 Catalyst 6500 모듈에 엄지 나사(thumb screw)를 사용하도록 하는 운영 관리 프로세스를 구현하는 것이 좋습니다. 이를 통해 백플레인 핀의 올바른 완전 삽입 및 정렬을 보장하고 비트 오류 및 관련 통신 실패로 인한 향후 실패를 방지합니다.
하드 오류(오작동)
빈번하거나 반복 가능한(하드) 패리티 오류는 메모리 또는 읽기 및 쓰기에 사용되는 회로의 물리적 오작동으로 인해 발생합니다. 그러한 경우 하드웨어를 교체하고 Cisco TAC(Technical Assistance Center) 또는 Cisco 시스템 엔지니어에게 반환된 하드웨어에 대해 EFA를 수행하도록 요청하십시오.
이러한 모범 사례는 하드 패리티 오류의 가능성을 크게 줄입니다.
하드웨어(MTBF 및 EOL) 감사
영향을 받는 네트워크 위치에 대한 네트워크 감사를 수행하는 것이 좋습니다. 이 감사는 직접 수행하거나 Cisco 담당자, Cisco 팀(예: Cisco Advanced Services) 또는 타사 컨설턴트를 통해 수행할 수 있습니다.
(모든 공급업체의) 모든 하드웨어는 결국 물리적 무결성이 저하될 수 있습니다. 따라서 시간이 지남에 따라 구성 요소 오류의 가능성을 완전히 파악하려면 네트워크에 있는 모든 하드웨어 구성 요소의 수명 주기를 추적하는 것이 중요합니다.
하드웨어 신뢰성은 MTBF(mean time between failure) 프레임워크로 측정할 수 있습니다. MTBF는 통계 평균에 불과하므로 MTBF 기간이 끝날 때 장애가 발생할 수 있다는 의미는 아닙니다. 그러나 구성 요소 오류의 가능성과 취약성이 증가하므로 이러한 하드웨어는 새로 고침에 대해 플래그될 수 있습니다. 각 Catalyst 6500 제품의 특정 MTBF 값은 Cisco Catalyst 6500 Series 스위치 데이터 시트를 참조하십시오.
집계된 Catalyst 6500 시스템 수준 MTBF 값은 7년 이상입니다.
Cisco는 MTBF 프레임워크 외에도 EOL(End-of-Life) 프레임워크를 제공합니다. 이 프레임워크는 특정 제품의 예상 수명 주기를 정의하고 레거시 장비를 리프레시할 수 있도록 관련 공지 사항을 제공합니다. 다양한 레거시 Catalyst 6500 제품에 대해서는 End-of-Life 및 End-of-Sale 알림을 참조하십시오.
이 하드웨어 감사의 결과, Cisco에서는 잠재적인 업그레이드 대상 하드웨어를 식별하고 추적하는 자체 MTBF 및 EOL 프로세스를 구현하는 것이 좋습니다. 이렇게 하면 최신 하드웨어가 실행 중이고 하드웨어 오작동 가능성을 최소화할 수 있습니다.
하드웨어 진단
Catalyst 6500 Series 및 Cisco IOS Software는 시스템에서 사용되는 모든 하드웨어 구성 요소에 대한 GOLD(Generic Online Diagnostics) 및 HM(Health Monitoring) 진단을 제공합니다. 활성화할 수 있는 두 가지 기본 진단 유형은 온디맨드 및 부트업입니다. 자세한 내용은 Cisco Catalyst 6500 Series 스위치에 대한 일반 온라인 진단을 참조하십시오.
Cisco에서는 모든 진단 테스트가 실행되고 부팅 시 모든 하드웨어 구성 요소가 정상적으로 작동하는지 확인하기 위해 모든 하드웨어 구성 요소에 대해 전체 부팅 진단을 사용하도록 설정하는 것이 좋습니다.
또한 중요한 인프라 구성 요소에 대한 정기적인 온디맨드 진단을 매일 또는 매주 예약하는 것이 좋습니다. 초기화 도중에만 발생하는 부팅 진단 외에, 온디맨드 진단 기능을 통해 하드웨어가 예상대로 계속 작동하도록 할 수 있습니다. 자세한 내용은 Catalyst 6500 릴리스 12.2SX 소프트웨어 컨피그레이션 가이드, 인터페이스 및 하드웨어 구성 요소, 온라인 진단을 참조하십시오.
기본 온디맨드 진단 테스트 외에도, 오작동 가능성이 있는 메모리 구성 요소를 사전에 식별하기 위해 이러한 온디맨드 진단 테스트를 활성화하는 것이 좋습니다.
- 테스트 라인 카드 메모리
- 테스트 Asic 메모리
관련 정보