Bug trava GPUs NVIDIA RTX 5090 e RTX PRO 6000 em virtualização e exige reboot do sistema

NVIDIA GeForce RTX 5090

Parece que as novas placas de vídeo topo de linha da NVIDIA, a GeForce RTX 5090 e a RTX PRO 6000, estão tendo um problema sério quando usadas em ambientes de virtualização.

Em situações específicas, elas ficam totalmente inativas e só voltam a funcionar após um reboot completo do sistema – algo nada prático, principalmente para quem depende dessas GPUs em servidores com várias máquinas virtuais.

De acordo com relatos do CloudRift, uma plataforma de GPU em nuvem voltada para desenvolvedores, os travamentos aparecem depois de alguns dias de uso intenso em máquinas virtuais (VMs).

O curioso é que o defeito atinge apenas os modelos RTX 5090 e RTX PRO 6000. Placas como a RTX 4090, a linha Hopper H100 e até os novos chips Blackwell B200 não apresentaram o mesmo comportamento.

O problema surge quando a GPU é usada em VMs através do driver VFIO. Após um Function Level Reset (FLR), a placa simplesmente não responde mais. Isso gera um soft lock no kernel, travando tanto o host (máquina principal) quanto as VMs clientes.

A única forma de recuperar o sistema é reiniciando o servidor — um processo trabalhoso, principalmente em nuvens como a do CloudRift, que roda muitas instâncias simultaneamente.

Bug que está travando GPUs da NVIDIA em ambientes virtuais
Créditos da imagem: CloudRift

Não foi só o CloudRift que percebeu a falha. Em um fórum do Proxmox, um usuário relatou que o host inteiro travou depois de desligar uma VM com Windows.

Segundo ele, a NVIDIA reconheceu o problema e já conseguiu reproduzir o erro internamente. A empresa está trabalhando em uma correção, mas ainda não liberou detalhes oficiais.

Isso reforça a ideia de que o bug é realmente específico das GPUs Blackwell mais recentes, afetando principalmente quem usa esses modelos em ambientes de virtualização para IA, renderização ou workloads críticos.

Enquanto a NVIDIA não soluciona a questão, o CloudRift lançou uma recompensa de US$ 1.000 para quem conseguir propor um ajuste ou forma de contornar o problema.

Esse tipo de bug é particularmente delicado porque atinge diretamente workloads de inteligência artificial e pode comprometer projetos inteiros.

Por se tratar de GPUs muito novas e com foco em alto desempenho, a expectativa é de que a NVIDIA disponibilize uma atualização de firmware ou driver o quanto antes. Até lá, quem usa essas placas em servidores precisa ficar atento para evitar dores de cabeça com travamentos inesperados.