Inleiding
In dit document wordt beschreven hoe u problemen met upgradeproblemen kunt oplossen als gevolg van een vMotion-fout voor VM's met vGPU.
Voorwaarden
Hyperflex/Esxi-cluster met inconsistente ECC-configuratie voor Nvidia-GPU's.
Opmerking: Bevestig dat CSCvp47724 geen invloed heeft op het systeem
Vereisten
vCenter-cluster met Nvidia GPU ingeschakeld voor VM's.
Gebruikte componenten
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u zorgen dat u de potentiële impact van elke opdracht begrijpt.
- Intersight (in dit geval SaaS)
- HyperFlex 5.0(2a)
- Nvidia GPU (Tesla T4)
Achtergrondinformatie
In dit specifieke scenario faalde vMotion vanwege problemen met de inconsistente ECC-configuratie voor Nvidia-GPU's, die fouten veroorzaakten tijdens het upgraden van HyperFlex.
Opmerking: NVIDIA GPU-kaarten die gebruikmaken van de Pascal-architectuur, zoals Tesla V100, P100, P40, evenals de Tesla M6 en M60 GPU's, ondersteunen ECC-geheugen voor verbeterde gegevensintegriteit. De NVIDIA vGPU-software biedt echter geen ondersteuning voor ECC. U moet er daarom voor zorgen dat het ECC-geheugen op alle GPU's is uitgeschakeld wanneer u NVIDIA vGPU gebruikt.
Probleem
vMotion-fout geïdentificeerd als gevolg van inconsistente ECC-configuratie op de Nvidia GPU.
Mislukte taak: 'Verifieer HXDP-validaties vóór de upgrade'.

Oplossing
Schakel de ECC-modus op de getroffen node uit.
Hoe werd het getroffen knooppunt geïdentificeerd?
Handmatige vMotion geeft een fout weer voor de node "Fout bij het migreren van VM's naar deze node: "Een of meer apparaten (pciPassthru0) die vereist zijn door VM XXXX zijn niet beschikbaar op host XXXX"
Stappen:
- De VIB weergeven die in de ESXi Hypervisor is geïnstalleerd
# esxcli software vib list |grep –i NVIDIA
- Controleer de werking van het NVIDIA-stuurprogramma
[root@hxesxi:~] nvidia-smi
Sat Jul 22 01:31:42 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.02 Driver Version: 470.182.02 CUDA Version: N/A |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 Tesla T4 On | 00000000:AF:00.0 Off | 0 |
| N/A 35C P8 16W / 70W | 1971MiB / 15359MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
- Gevonden ECC-modus (Error Correcting Code) ingeschakeld op de getroffen node.
# nvidia-smi –q
ECC Mode
Current : Enabled
Pending : Enabled
- Error Correcting Code (ECC) uitschakelen
# nvidia-smi –e 0
Disabled ECC support for GPU 0000….
All done.
- Controleer of de ECC-modus is uitgeschakeld:
# nvidia-smi –q
ECC Mode
Current : Disabled
Pending : Disabled
Nadat u de ECC-modus hebt uitgeschakeld en de node opnieuw hebt opgestart, slaagt vMotion en wordt de upgrade uitgevoerd.
Gerelateerde informatie
Nvidia - Onvoldoende middelen. Een of meer apparaten
VMware - GPU's gebruiken met virtuele machines op vSphere