소개
이 문서에서는 하드웨어 문제로 인해 장애가 발생한 Nexus 9500 스파인 스위치의 섀시를 ACI(Application Centric Infrastructure) 모드에서 교체하는 프로세스에 대해 설명합니다.
문제
현재 작동 중인 ACI 패브릭이 있으며 Nexus 9500 스파인에 장애가 발생했습니다.하드웨어 장애로 확인되었으며 섀시만 교체해야 합니다.수퍼바이저, 라인 카드, 패브릭 모듈 등 모든 작업 구성 요소를 교체로 전송해야 합니다.
솔루션
스파인을 교체하려면 다음 단계를 완료합니다.
- 장애가 발생한 스파인의 전원이 꺼져 있는지 확인하려면 모든 전원 케이블을 분리합니다.
- APIC(Application Policy Infrastructure Controller) GUI에서 Fabric(패브릭) > Inventory(인벤토리) > Unreachable Nodes(연결할 수 없는 노드)를 선택합니다.몇 분 동안 전원이 꺼진 후 스파인이 여기에 나열됩니다.'Name' 및 'Node ID'를 기록해 둡니다.
- 장애가 발생한 스파인을 해제하고 컨트롤러에서 제거합니다.
- 작업 창에서 스파인을 선택합니다.Actions(작업) 드롭다운 목록에서 Decommission(해제)을 선택합니다.
- 컨트롤러에서 제거 라디오 버튼을 클릭하고 확인을 클릭합니다.
팁:'컨트롤러에서 제거' 옵션은 ACI 패브릭에서 노드를 완전히 제거하고 일련 번호가 노드 ID에서 연결되지 않습니다.'Regular' 옵션은 ACI 패브릭에서 노드를 일시적으로 제거하기 위해 사용되며, 동일한 노드가 동일한 노드 ID를 가진 패브릭에 다시 합류할 것으로 예상됩니다.예를 들어 유지 관리를 위해 노드의 전원을 일시적으로 꺼야 하는 경우
참고:노드가 서비스 해제된 후 제거되고 APIC GUI에서 사라지기까지 5~10분이 걸릴 수 있습니다.
- 랙에서 장애가 발생한 스파인을 제거하고 교체 섀시를 설치합니다.모든 작동 중인 구성 요소를 장애가 발생한 섀시와 동일한 배열로 새 섀시에 전송합니다.전송할 구성 요소에는 패브릭 모듈, 수퍼바이저, 시스템 컨트롤러, 전원 공급 장치, 팬 트레이 및 라인 카드가 포함됩니다.
- 컨피그레이션을 지우기 위해 새 섀시의 활성 수퍼바이저로 콘솔을 연결합니다.
- cat /proc/cmdline 명령을 입력하여 수퍼바이저에서 현재 실행 중인 ACI 이미지를 확인합니다.'ksimg' 섹션을 찾아보세요.
팁:ACI 스위치 이미지 이름은 항상 'aci-n9000'으로 시작합니다.
- ACI 스위치 이미지 이름을 사용하고 다음 명령을 입력합니다.
spine# /bin/prepare-mfg.sh
spine# reload
참고:<aci_image.bin>은 APIC에 있는 ACI 스위치 이미지의 파일 이름입니다.
- 다시 로드 창이 누락되어 디바이스를 다시 로드할 수 없는 경우 vsh -c reload 명령을 입력합니다.
그러면 활성 수퍼바이저의 컨피그레이션이 지워집니다.대기 수퍼바이저의 컨피그레이션을 지우려면 5단계를 반복합니다.스파인이 패브릭에 조인된 후 컨피그레이션이 APIC에서 자동으로 푸시됩니다.
- APIC GUI에서 Fabric(패브릭) > Inventory(인벤토리) > Fabric Membership(패브릭 멤버십)을 선택합니다.스파인은 노드 ID, 노드 이름 및 IP 주소 없이 작업 창에 행으로 나열됩니다.행을 두 번 클릭하고 이전과 동일한 '노드 ID' 및 '노드 이름'을 할당합니다.
스파인은 몇 분 내에 IP 주소를 수신하며, 이는 APIC GUI에 반영됩니다.
스파인은 ACI 패브릭에 완전히 다시 연결되었고 APIC는 모든 관련 정책을 자동으로 푸시합니다.이 경우 노드 ID 201의 스파인 섀시가 실패했습니다.섀시가 교체되었으며 해당 일련 번호가 동일한 노드 ID에 매핑되었습니다.그런 다음 APIC는 추가 컨피그레이션 없이 Node 201과 관련된 모든 정책을 Spine으로 푸시합니다.