Inteligência Artificial

DeepSeek V4 reduz uso de memória em IA, mas pode afetar precisão

Laboratório chinês DeepSeek lança modelo V4 de inteligência artificial, reduzindo em 27% os recursos de computação e em 10% a memória necessários para inferência de tokens.
Imagem de: DeepSeek V4 reduz uso de memória em IA, mas pode afetar precisão

O laboratório chinês de inteligência artificial DeepSeek disse ter reduzido muito os recursos de computação e de memória necessários para inferência de tokens com seu novo modelo V4, segundo as notas de lançamento.

A empresa diz que o V4 usa apenas 27% dos FLOPs por token e 10% do cache de chave-valor (KV) em comparação com o modelo anterior, o DeepSeek V3.2. A redução no uso de cache diminui a demanda por memória e aumenta o contexto disponível para quem cria modelos.

Como o DeepSeek V4 reduz custo de computação e memória

Nas notas de lançamento do DeepSeek V4, a empresa informa que o modelo usa 27% dos FLOPs por token e 10% do cache KV ao operar com uma janela de contexto de um milhão de tokens.

A janela de contexto é a quantidade de texto que um modelo de linguagem consegue processar antes de liberar memória.

Esse melhor uso da memória é importante na fase chamada de Decode. O processamento em IA costuma ser dividido em duas etapas: Prefill e Decode.

Como o modelo gera respostas na fase Decode, ele precisa guardar o contexto da conversa ou do comando recebido na etapa Prefill. Por isso, a fase Decode exige mais memória, principalmente por causa do cache KV.

NVDA KV CACHE
Diagrama da NVIDIA mostrando o cache KV. Imagem: Otimizando a inferência para contextos longos e tamanhos de lote grandes com o cache KV NVFP4.

O ponto de equilíbrio: compressão e risco de falhas

À medida que o número de tokens aumenta, também cresce a necessidade de cache KV. Em um cenário com um milhão de tokens, um modelo que usa menos cache consegue atender mais pedidos ou precisa de menos memória.

A outra afirmação da DeepSeek, de usar 27% dos FLOPs por token, só traz ganho se houver memória suficiente na GPU para os cálculos.

Além disso, reduzir muito o uso de cache exige ajustes que podem fazer o modelo perder detalhes. Esse tipo de problema é conhecido como "agulha no palheiro" e pode gerar respostas menos precisas.

Impacto no hardware: pressão menor sobre a memória

Esse avanço tem impacto direto no hardware. Reduzir o uso de cache KV não é só uma mudança de software, mas também afeta a cadeia de fornecimento de memória.

O setor vive um ciclo de alta na DRAM, puxado pela grande demanda por HBM. Isso tem causado falta de oferta e aumento de custo, afetando peças como memória RAM e SSDs usados em PCs.

Técnicas de compressão como as do DeepSeek V4, junto com mudanças em algoritmos como o TurboQuant do Google, podem ajudar a diminuir essa pressão no hardware.

Isso quer dizer que, se os modelos conseguirem gerar mais resultados usando menos memória, o custo tende a cair para o consumidor final, que hoje sente o impacto do uso crescente de memória em IA.

Como funciona: mecanismo Multi-Head Latent Attention

O ganho de eficiência vem da arquitetura chamada Multi-Head Latent Attention (MLA), já usada em modelos anteriores da empresa. Esse design foi pensado desde o início para lidar com limites de memória.

Em vez de armazenar todos os dados de chave e valor para cada token, o MLA transforma essas informações em uma representação menor e compartilhada. Depois, esses dados são expandidos novamente no momento do cálculo.

Esse processo de comprimir e expandir reduz bastante o uso de cache KV, permitindo que o modelo funcione com menos memória do que métodos tradicionais.

Mais vistos da semana