Próxima geração de GPUs Feynman pode integrar LPUs da Groq até 2028

Imagem de: Próxima geração de GPUs Feynman pode integrar LPUs da Groq até 2028

A NVIDIA avalia caminhos para ampliar sua presença no mercado de inferência com a próxima geração de GPUs Feynman. A ideia em estudo envolve a integração de unidades LPU, tecnologia associada à Groq, dentro da própria arquitetura dos chips, com previsão de adoção por volta de 2028.

Segundo análises atribuídas ao especialista em GPUs conhecido como AGF, a empresa pode usar a tecnologia de hybrid bonding da TSMC para empilhar esses blocos de LPU diretamente sobre o chip principal das GPUs Feynman.

A proposta lembra a estratégia usada pela AMD em processadores com X3D, que adotam o SoIC da TSMC para unir o die principal a camadas adicionais de cache 3D V-Cache. De acordo com essa visão, integrar grandes blocos de SRAM em um único die não seria a melhor escolha para a NVIDIA.

A escalabilidade desse tipo de memória é limitada, e sua fabricação em nós avançados tende a consumir silício de alto custo de forma pouco eficiente, elevando o preço por área de wafer.

Como alternativa, a solução apontada envolve empilhar dies dedicados às LPUs, responsáveis por grandes bancos de SRAM, sobre o die principal de computação das GPUs Feynman.

Nesse cenário, o chip central seria produzido em um processo avançado como o A16 de 1,6 nanômetro, concentrando unidades de cálculo, como blocos tensores e lógica de controle. Já os dies de LPU ficariam encarregados do armazenamento em SRAM.

A interligação entre essas partes dependeria do hybrid bonding da TSMC, que garante uma interface ampla e consumo de energia por bit menor em comparação com memórias fora do encapsulamento.

O uso de alimentação traseira no processo A16 também liberaria a parte frontal do chip para conexões verticais de SRAM, o que ajudaria a manter baixa latência em operações de decodificação.

Apesar das vantagens teóricas, essa abordagem traz desafios técnicos relevantes. O empilhamento de dies em um chip com alta densidade de cálculo amplia a complexidade térmica, já que a dissipação de calor se torna mais difícil.

A presença de LPUs voltadas a fluxo contínuo de dados também pode gerar gargalos em certos cenários de uso. Há ainda implicações no nível de execução.

Dado de Feynman com unidades LPU
Possível dado de Feynman com unidades LPU | Créditos da imagem: Wccftech (gerada por IA)

As LPUs costumam trabalhar com ordens de execução fixas, o que cria tensão entre previsibilidade e flexibilidade. Isso se torna um ponto sensível quando se considera o ecossistema CUDA, que foi projetado para abstrair detalhes de hardware.

Em modelos de execução mais próximos do estilo LPU, é necessário controle explícito da alocação de memória, algo que não faz parte do comportamento tradicional dos kernels CUDA.

Groq
Créditos da imagem: Groq

Mesmo que a NVIDIA consiga superar os limites físicos do hardware, o maior obstáculo tende a estar na integração entre GPU e LPU em nível de software.

Ajustar o uso de SRAM dentro de arquiteturas de IA exige um alto grau de engenharia para manter o ambiente bem ajustado. Ainda assim, essa pode ser a aposta da empresa para assumir uma posição de liderança no segmento de inferência.

Romário Leite
Fundador do TecFoco. Atua na área de tecnologia há mais de 10 anos, com rotina constante de criação de conteúdo, análise técnica e desenvolvimento de código. Tem ampla experiência com linguagens de programação, sistemas e jogos. Estudou nas universidades UNIPÊ e FIS, tendo passagem também pela UFPB e UEPB. Hoje, usa todo seu conhecimento e experiência para produzir conteúdo focado em tecnologia.