Introduzione
Questo documento affronta il numero di richieste più numerose registrate sia su Cisco che su Broadcom in relazione al comportamento dei driver nfnic Cisco e alla nuova architettura Broadcom FPIN (Fabric Performance Impact Notifications) nella versione 8.0. Questo articolo è stato scritto per risolvere alcune problematiche.
Problema
La funzionalità FPIN (Fabric Performance Impact Notifications) è stata aggiunta a ESXi 8.0 U2 per consentire una migliore comprensione dei problemi relativi al fabric. A causa di un bug nel codice StorageFPIN, quando FPIN tenta di allocare memoria e non è in grado di farlo, può mantenere un conteggio di riferimento sui percorsi che impedisce al driver Cisco NFNIC di allocare nuovi percorsi o ristabilire quelli esistenti.
Riferimento:
Vedere KB Broadcom
La funzionalità FPIN (Fabric Performance Impact Notifications) è stata aggiunta a ESXi 8.0 per consentire una migliore comprensione dei problemi relativi all'infrastruttura. A causa di un bug nel codice StorageFPIN, quando FPIN tenta di allocare memoria e non è in grado di farlo, può mantenere un conteggio di riferimento sui percorsi che impedisce al driver Cisco NFNIC di allocare nuovi percorsi o ristabilire quelli esistenti.
Questo è un problema noto sia con FPIN che con come il driver NFNIC Cisco è codificato in modo da comportarsi in caso di perdite di percorso. Il driver NFNIC non salva i binding delle porte di archiviazione, quindi quando un percorso di archiviazione viene ristabilito dopo un'interruzione o una perdita di percorso, è sufficiente creare nuovi percorsi e incrementare i numeri di destinazione. A causa del bug causato dal fatto che la funzionalità FPIN conserva un conteggio dei riferimenti in questi percorsi, il driver NFNIC Cisco alla fine non è in grado di stabilire nuovi percorsi.
Una correzione del codice per modificare il comportamento del conteggio dei riferimenti aperti FPIN sarà disponibile in una prossima versione di ESXi 8.x.
Soluzione
Per la soluzione alternativa, consultare l'articolo della Knowledge Base di Broadcom. Quando la patch ESXi sarà disponibile, applicarla come soluzione per la correzione a lungo termine.
Soluzione alternativa
Per risolvere questo problema, si consiglia di disabilitare il FPIN sugli host ESXi 8.0, in particolare quando si usano Cisco UCS e NFNIC:
esxcli storage fpin info set -e false
Per confermare l'impostazione:
acquisizione info fpin di archiviazione esxcli
Oltre a questa modifica consigliata da Broadcom, riavviare l'host per ripristinare tutti i percorsi di storage se lo storage funziona correttamente.
Nota: Questa modifica non richiede il riavvio. Tuttavia, se un host ESXi si trova già in uno stato di esaurimento dell'heap di memoria per storageFPINHeap, dopo la modifica di questa impostazione sarà necessario riavviare l'host.
La risposta di Cisco
Il driver nfnic ha sempre incrementato il numero ID di destinazione a ogni disconnessione/connessione di destinazione. Questo numero di ID di destinazione incrementale sulle versioni correnti e precedenti dei driver NFNIC è ciò che ha esposto la condizione di perdita di memoria nella nuova funzione ESXi FPIN.
Inoltre, il problema menzionato nell'articolo è un bug del sistema operativo ESXi che verrà risolto in una prossima versione di ESXI. L'articolo menziona anche l'ID bug Cisco CSCwn00553 che tiene traccia di un problema diverso e la correzione del driver nfnic con l'ID bug Cisco CSCwn00553 non è consigliata per risolvere il problema ESXi menzionato nell'articolo della Knowledge Base di Broadcom.
L'articolo della Knowledge Base di VMware indica che è necessario correggere un bug di Cisco e il relativo FPIN. Non è corretto ed è possibile fornire questa istruzione aggiuntiva.
Broadcom fornirà una soluzione per il problema FPIN che sarà disponibile nella prossima release di una patch 8.0.U3. Una volta che Broadcom ha rilasciato la correzione FPIN, i driver VIC attuali funzionano per FPIN.
Nota: Nel frattempo, il driver NFNIC e il relativo comportamento in relazione alla creazione di target-ID. Questa implementazione su NFNIC rispetto a target-ID è stata un comportamento VIC giorno uno e una modifica di questo comportamento non è necessaria per la funzionalità FPIN una volta che VMware fix è disponibile.
Fare riferimento all'ID bug Cisco CSCwm28823