Introducción
En este documento se aborda el número creciente de casos registrados tanto en Cisco como en Broadcom relacionados con el comportamiento de los controladores de Cisco Nfnic y la nueva arquitectura Broadcom FPIN (Fabric Performance Impact Notifications) en la versión 8.0. En este artículo se tratan los problemas.
Problema
La función FPIN (Fabric Performance Impact Notifications) se añadió a ESXi 8.0 U2 para comprender mejor los problemas relacionados con el fabric. Debido a un error en el código StorageFPIN, cuando FPIN intenta asignar memoria y no puede, puede mantener un recuento de referencia en las trayectorias que impide que el controlador NFNIC de Cisco pueda asignar nuevas trayectorias o restablecer las existentes.
Referencia:
Consulte Broadcom KB
La función FPIN (Fabric Performance Impact Notifications) se añadió a ESXi 8.0 para comprender mejor los problemas relacionados con el fabric. Debido a un error en el código StorageFPIN, cuando FPIN intenta asignar memoria y no puede, puede mantener un recuento de referencia en las trayectorias que impide que el controlador NFNIC de Cisco pueda asignar nuevas trayectorias o restablecer las existentes.
Este es un problema conocido tanto con FPIN como con la forma en que se codifica el controlador NFNIC de Cisco para que se comporte cuando hay pérdidas de trayectoria. El controlador NFNIC no guarda las vinculaciones de puertos de almacenamiento, por lo que cuando se restablece una ruta de almacenamiento después de una interrupción o pérdida de ruta, simplemente crea rutas completamente nuevas e incrementa los números de destino. Debido al bug con FPIN que mantiene un conteo de referencia en esas trayectorias, el driver NFNIC de Cisco finalmente no puede establecer nuevas trayectorias.
En una próxima versión de ESXi 8.x se dispondrá de una corrección de código para modificar el comportamiento del recuento de referencias abiertas de FPIN.
Solución
Refiérase al artículo Broadcom KB para obtener una solución alternativa. Y cuando el parche de ESXi esté disponible, aplíquelo como la solución a largo plazo.
Solución Aternativa
Para solucionar este problema, se recomienda desactivar FPIN en los hosts de ESXi 8.0, especialmente cuando se usa Cisco UCS y NFNIC:
esxcli storage fpin info set -e false
Para confirmar la configuración:
esxcli storage fpin info get
Aparte de este cambio recomendado por Broadcom, reinicie el host y recupere todas las rutas de almacenamiento si el almacenamiento se comporta correctamente.
Nota: Este cambio no requiere un reinicio por sí solo. Sin embargo, si un host de ESXi ya se encuentra en un estado de agotamiento del montón de memoria para storageFPINHeap, es necesario reiniciar el host después de este cambio de configuración.
Respuesta de Cisco
Nuestro controlador nfnic siempre ha incrementado el número de ID de destino en cada desconexión/conexión de destino. Este número de ID de destino en aumento en las versiones actuales y anteriores del controlador NFNIC es lo que expuso la condición de pérdida de memoria en la nueva función FPIN de ESXi.
Además, el problema mencionado en el artículo es un error de funcionamiento del sistema operativo ESXi que se solucionará en una próxima versión de ESXI. El artículo también menciona Cisco bug ID CSCwn00553, el cual realiza un seguimiento de un problema diferente y el controlador nfnic fijo al Cisco bug ID CSCwn0553 no se recomienda para resolver el problema de ESXi mencionado en el artículo de Broadcom KB.
El artículo de VMware KB indica que se requiere una corrección de errores de Cisco, así como su corrección FPIN. Esto es incorrecto y se puede proporcionar esta declaración adicional.
Broadcom va a ofrecer una solución para el problema FPIN que estará disponible en la próxima versión de un parche 8.0.U3. Una vez que Broadcom libera la corrección FPIN, los controladores VIC actuales funcionan para FPIN.
Nota: Mientras tanto, el driver NFNIC, y su comportamiento en torno a la creación de target-ID. Esta implementación en NFNIC con respecto a target-ID ha sido un comportamiento VIC desde el primer día y no se requiere un cambio en este comportamiento para la funcionalidad FPIN una vez que VMware fix esté disponible.
Referencia ID de bug de Cisco CSCwn00553