소개
이 문서에서는 릴리스 8.0의 Cisco nfnic 드라이버 동작 및 Broadcom의 새로운 FPIN(Fabric Performance Impact Notifications) 아키텍처와 관련하여 Cisco와 Broadcom에서 모두 로깅되는 늘어난 케이스 수를 다루며, 이 문서는 문제를 해결하기 위해 작성되었습니다.
문제
FPIN(Fabric Performance Impact Notifications) 기능이 ESXi 8.0 U2에 추가되어 패브릭 관련 문제를 더 정확하게 파악할 수 있습니다. StorageFPIN 코드의 버그로 인해 FPIN이 메모리를 할당하려고 시도하지만 할당할 수 없는 경우 경로의 참조 카운트를 유지할 수 있습니다. 그러면 Cisco NFNIC 드라이버가 새 경로를 할당하거나 기존 경로를 다시 설정할 수 없습니다.
참조:
Broadcom KB 참조
FPIN(Fabric Performance Impact Notifications) 기능이 ESXi 8.0에 추가되어 패브릭 관련 문제를 더 정확하게 파악할 수 있습니다. StorageFPIN 코드의 버그로 인해 FPIN이 메모리를 할당하려고 시도하지만 할당할 수 없는 경우 경로의 참조 카운트를 유지할 수 있습니다. 그러면 Cisco NFNIC 드라이버가 새 경로를 할당하거나 기존 경로를 다시 설정할 수 없습니다.
이는 두 FPIN의 알려진 문제이자 경로 손실이 있을 때 Cisco NFNIC 드라이버가 작동하도록 코딩되는 방법입니다. NFNIC 드라이버는 스토리지 포트 바인딩을 저장하지 않으므로, 운영 중단 또는 경로 손실 후 스토리지 경로가 재설정되면 새 경로를 만들고 대상 번호를 증가시킵니다. FPIN이 해당 경로에 대한 참조 카운트를 유지하는 버그로 인해 Cisco NFNIC 드라이버가 결국 새 경로를 설정할 수 없습니다.
FPIN 열기 참조 카운트 동작을 변경하는 코드 수정은 향후 ESXi 8.x 릴리스에서 제공될 예정입니다.
솔루션
해결 방법에 대해서는 Broadcom KB 문서를 참조하십시오. 그리고 ESXi 패치가 사용 가능한 경우 장기 수정을 위해 해당 패치를 솔루션으로 적용합니다.
해결 방법
이 문제를 해결하려면 ESXi 8.0 호스트에서 FPIN을 비활성화하는 것이 좋습니다. 특히 Cisco UCS 및 NFNIC를 사용할 경우,
esxcli 스토리지 핀 정보 세트 -e false
설정을 확인하려면 다음을 수행합니다.
esxcli 스토리지 핀 정보 가져오기
Broadcom에서 권장하는 이 변경 사항 외에, 스토리지가 올바르게 작동하는 경우 호스트를 재부팅하여 모든 스토리지 경로를 복구합니다.
참고: 이 변경은 자체적으로 재부팅할 필요가 없습니다. 그러나 ESXi 호스트가 이미 storageFPINHeap에 대한 메모리 힙 소모 상태인 경우 이 설정을 변경한 후 호스트를 재부팅해야 합니다.
Cisco의 대응
nfnic 드라이버는 모든 대상 연결 해제/연결에서 항상 대상 ID 번호를 증가시킵니다. 현재 및 이전 NFNIC 드라이버 버전에서 이와 같이 증가하는 대상 ID 번호는 새로운 ESXi FPIN 기능의 메모리 누수 조건을 노출한 것입니다.
또한 기사에서 언급한 문제는 ESXi OS 버그이며, 이는 향후 ESXI 릴리스에서 수정될 예정입니다. 이 기사에서는 Cisco 버그 ID CSCwn00553에 대해서도 언급하며, 다른 문제를 추적하고 nfnic 드라이버가 Cisco 버그 ID CSCwn00553에 대한 수정은 Broadcom KB 문서에서 언급한 ESXi 문제를 해결하는 데 권장되지 않습니다.
VMware KB 문서는 Cisco 버그 픽스와 FPIN 픽스가 필요하다는 것을 나타냅니다. 이는 부정확하며 이 추가 설명을 제공할 수 있습니다.
Broadcom은 8.0.U3 패치의 향후 릴리스에서 제공될 FPIN 문제에 대한 수정 사항을 제공합니다. Broadcom에서 FPIN 수정을 해제하면 현재 VIC 드라이버가 FPIN을 위해 작동합니다.
참고: NFNIC 드라이버 및 target-ID 생성 관련 동작 target-ID와 관련하여 NFNIC에서 구현된 이 작업은 VIC 1일 작업이었으며, VMware 픽스를 사용할 수 있게 되면 FPIN 기능에서 이 동작을 변경할 필요가 없습니다.
참조 Cisco 버그 ID CSCwm28823