Google Gemma 4 agora pode ser executado em GPUs NVIDIA RTX com suporte a IA

Google e NVIDIA lançam modelo de IA aberto Gemma 4, otimizado para execução local em GPUs NVIDIA, permitindo IA agentic e automação em dispositivos de consumo.

Romário Leite

07/04/2026, às 12:21

O modelo open-source mais recente do Google, o Gemma 4, agora pode ser executado em hardware de consumo da NVIDIA, com desempenho otimizado para cargas de trabalho de IA agentic e execução local.

Em comunicado a imprensa divulgado pelo WccfTech, a empresa disse que os modelos abertos estão impulsionando uma nova fase da IA executada diretamente nos dispositivos, ampliando o uso além da nuvem para computadores e equipamentos do dia a dia.

Com a evolução desses modelos, o valor passa a depender cada vez mais do acesso ao contexto local em tempo real, possibilitando transformar dados em ações automatizadas.

Pensando nesse cenário, as novas versões da família Gemma 4 do Google incluem modelos pequenos, rápidos e multimodais, desenvolvidos para execução local eficiente em diferentes tipos de dispositivos.

Leia tambem: NVIDIA envia benchmarks MLPerf v6.0 e registra até 2,77x mais desempenho

Para atingir esse objetivo, Google e NVIDIA trabalharam juntas para otimizar o Gemma 4 para GPUs NVIDIA, possibilitando desempenho eficiente em vários sistemas — desde data centers até PCs e workstations com NVIDIA RTX, além do supercomputador pessoal NVIDIA DGX Spark e dos módulos de IA de borda NVIDIA Jetson Orin Nano.

Gemma 4: modelos compactos otimizados para GPUs NVIDIA

As novas versões da família Gemma 4 — incluindo as variantes E2B, E4B, 26B e 31B — foram desenvolvidas para execução eficiente desde dispositivos de borda até GPUs de alto desempenho.

Essa nova geração de modelos compactos suporta diversas tarefas, como:

Raciocínio: desempenho em resolução de problemas complexos
Programação: geração e depuração de código para fluxos de desenvolvimento
Agentes: suporte nativo ao uso estruturado de ferramentas (function calling)
Visão, vídeo e áudio: interações multimodais com reconhecimento de objetos, voz e análise de documentos ou vídeos
Entrada multimodal intercalada: mistura de texto e imagens em qualquer ordem dentro de um único prompt
Multilíngue: suporte para mais de 35 idiomas, com pré-treinamento em mais de 140 idiomas

Os modelos E2B e E4B foram desenvolvidos para inferência com baixo consumo e baixa latência em dispositivos de borda, funcionando totalmente offline com latência próxima de zero em vários dispositivos, incluindo módulos Jetson Nano.

Já os modelos 26B e 31B são voltados para raciocínio mais avançado e fluxos de trabalho focados em desenvolvedores, com foco em IA agentic.

Leia tambem: NVIDIA muda GPU Rubin Ultra e abandona design com quatro dies

Esses modelos funcionam de forma eficiente em GPUs NVIDIA RTX e no DGX Spark, atendendo ambientes de desenvolvimento, assistentes de código e automação com agentes.

IA agentic local ganha espaço em PCs RTX

Com o avanço da IA agentic local, aplicações como o OpenClaw possibilitam assistentes de IA sempre ativos em PCs RTX, workstations e no DGX Spark.

Os modelos Gemma 4 são compatíveis com o OpenClaw, possibilitando a criação de agentes locais que usam arquivos pessoais, aplicativos e fluxos de trabalho como contexto para automatizar tarefas.

Como começar com Gemma 4 em GPUs RTX

A NVIDIA trabalhou com Ollama e llama.cpp para melhorar a execução local dos modelos Gemma 4. Para usar o Gemma 4 localmente, os usuários podem baixar o Ollama para executar os modelos ou instalar o llama.cpp e utilizar o checkpoint GGUF do Gemma 4 disponível no Hugging Face.

Além disso, o Unsloth possui suporte desde o primeiro dia com modelos otimizados e quantizados para ajuste fino local por meio do Unsloth Studio.

Executar modelos abertos como o Gemma 4 em GPUs NVIDIA possibilita desempenho otimizado, já que os Tensor Cores aceleram a inferência de IA, aumentando a taxa de processamento e reduzindo a latência na execução local.

A pilha de software CUDA também amplia a compatibilidade com frameworks e ferramentas, possibilitando que novos modelos funcionem de forma eficiente desde o lançamento.

Essa combinação possibilita que modelos como o Gemma 4 sejam executados em vários sistemas — desde o Jetson Orin Nano até PCs RTX, workstations e o DGX Spark — sem necessidade de ajustes complexos.

Leia tambem: NVIDIA quase entrou em crise após levar CUDA às GPUs GeForce, diz Jensen Huang

O Gemma 4 amplia a execução local de IA ao chegar com otimizações para GPUs NVIDIA RTX, com suporte a diferentes dispositivos e foco em agentes inteligentes executados diretamente no computador do usuário.