Hardwares

Skymizer anuncia placa PCIe de IA capaz de rodar LLMs gigantes localmente sem clusters de GPUs

Nova placa aceleradora de IA da Taiwan pode rodar modelos de linguagem de até 700 bilhões de parâmetros localmente, usando apenas 240W de energia.
Imagem de: Skymizer anuncia placa PCIe de IA capaz de rodar LLMs gigantes localmente sem clusters de GPUs

Uma empresa de Taiwan anunciou uma nova placa aceleradora de IA em formato PCIe capaz de rodar modelos de linguagem de até 700 bilhões de parâmetros localmente usando apenas 240W, sem depender de grandes clusters de GPUs.

Empresa taiwanesa apresenta acelerador PCIe de IA que roda LLMs de 700B em uma única placa

A Skymizer, empresa de Taiwan focada em software e hardware para inteligência artificial, anunciou sua nova solução chamada HTX301.

A placa foi criada para IA local em servidores próprios, usando formato PCIe Add-in-Card e entregando desempenho voltado para cargas pesadas de IA com consumo abaixo de 250W.

Entre os principais pontos da placa estão:

  • Execução de inferência de modelos com 700 bilhões de parâmetros em uma única placa PCIe.
  • Aceleração dedicada para decodificação com gerenciamento unificado de prefill e decode.
  • IA local com controle dos dados, latência previsível e custo fixo de infraestrutura.

Segundo a empresa, o acelerador PCIe HTX301 é o primeiro chip de inferência baseado na plataforma HyperThought, que usa a nova arquitetura LPU IP da companhia.

A plataforma foi criada para modelos de linguagem de grande porte, com foco em desempenho e eficiência energética. A HTX301 tem aparência parecida com uma placa PCIe comum, trazendo um único chip cercado pelos módulos de memória.

A empresa explica que cada placa terá seis chips HTX301 e, mesmo usando um processo de fabricação mais antigo de 28nm, o hardware consegue atingir números altos, como 30 tokens por segundo com apenas 0,5 TOPS e largura de banda de 100 GB/s.

A LPU também pode ser expandida em diferentes configurações. Nada mal para um chip feito em um processo que muita gente já considera "aposentado".

A LPU octa-core chega a 240 tokens por segundo no prefill do Llama2 7B. A empresa também pode conectar vários chips para alcançar até 1.200 tokens por segundo no mesmo modelo, com suporte para modelos de até 700B.

A placa PCIe ainda traz até 384 GB de memória. O modelo usa memórias LPDDR4 e LPDDR5 padrão, sem tecnologias mais caras como LPDDR5X, HBM ou GDDR6/GDDR7.

Segundo a Skymizer, essa escolha ajuda a reduzir a quantidade de parâmetros e a necessidade de largura de banda da DRAM. A arquitetura HTX301 também usa técnicas de compressão para melhorar a eficiência:

  • Compressão de pesos de memória de longo prazo com desempenho entre 9% e 17,8% acima do llama.cpp open source.
  • Compressão de cache KV com perda mínima de precisão, entre menos de 0,06% e 3,52%.

O consumo de energia também chama atenção. O chip usa apenas 240W, menos da metade dos 600W vistos em aceleradores PCIe de IA mais avançados, como a NVIDIA RTX PRO 6000 Blackwell e a AMD Instinct MI350P.

A Skymizer divulgou números ambiciosos e vai mostrar a HTX301 durante a Computex 2026. Ainda será preciso ver o desempenho na prática, mas a proposta pode atrair empresas menores que buscam rodar IA localmente sem depender tanto de serviços em nuvem.

Mais vistos da semana