Skymizer anuncia placa PCIe de IA capaz de rodar LLMs gigantes localmente sem clusters de GPUs

Nova placa aceleradora de IA da Taiwan pode rodar modelos de linguagem de até 700 bilhões de parâmetros localmente, usando apenas 240W de energia.

Romário Leite

13/05/2026, às 20:43

Imagem de: Skymizer anuncia placa PCIe de IA capaz de rodar LLMs gigantes localmente sem clusters de GPUs

Uma empresa de Taiwan anunciou uma nova placa aceleradora de IA em formato PCIe capaz de rodar modelos de linguagem de até 700 bilhões de parâmetros localmente usando apenas 240W, sem depender de grandes clusters de GPUs.

Empresa taiwanesa apresenta acelerador PCIe de IA que roda LLMs de 700B em uma única placa

A Skymizer, empresa de Taiwan focada em software e hardware para inteligência artificial, anunciou sua nova solução chamada HTX301.

A placa foi criada para IA local em servidores próprios, usando formato PCIe Add-in-Card e entregando desempenho voltado para cargas pesadas de IA com consumo abaixo de 250W.

Entre os principais pontos da placa estão:

Execução de inferência de modelos com 700 bilhões de parâmetros em uma única placa PCIe.
Aceleração dedicada para decodificação com gerenciamento unificado de prefill e decode.
IA local com controle dos dados, latência previsível e custo fixo de infraestrutura.

Segundo a empresa, o acelerador PCIe HTX301 é o primeiro chip de inferência baseado na plataforma HyperThought, que usa a nova arquitetura LPU IP da companhia.

Leia tambem: Criador de Dragon Quest quer que NPCs com IA virem "amigos" dos jogadores

A plataforma foi criada para modelos de linguagem de grande porte, com foco em desempenho e eficiência energética. A HTX301 tem aparência parecida com uma placa PCIe comum, trazendo um único chip cercado pelos módulos de memória.

A empresa explica que cada placa terá seis chips HTX301 e, mesmo usando um processo de fabricação mais antigo de 28nm, o hardware consegue atingir números altos, como 30 tokens por segundo com apenas 0,5 TOPS e largura de banda de 100 GB/s.

A LPU também pode ser expandida em diferentes configurações. Nada mal para um chip feito em um processo que muita gente já considera "aposentado".

A LPU octa-core chega a 240 tokens por segundo no prefill do Llama2 7B. A empresa também pode conectar vários chips para alcançar até 1.200 tokens por segundo no mesmo modelo, com suporte para modelos de até 700B.

Leia tambem: AMD MI430X será a GPU FP64 mais rápida do mercado e pode superar NVIDIA Rubin em até 6 vezes

A placa PCIe ainda traz até 384 GB de memória. O modelo usa memórias LPDDR4 e LPDDR5 padrão, sem tecnologias mais caras como LPDDR5X, HBM ou GDDR6/GDDR7.

Segundo a Skymizer, essa escolha ajuda a reduzir a quantidade de parâmetros e a necessidade de largura de banda da DRAM. A arquitetura HTX301 também usa técnicas de compressão para melhorar a eficiência:

Compressão de pesos de memória de longo prazo com desempenho entre 9% e 17,8% acima do llama.cpp open source.
Compressão de cache KV com perda mínima de precisão, entre menos de 0,06% e 3,52%.

O consumo de energia também chama atenção. O chip usa apenas 240W, menos da metade dos 600W vistos em aceleradores PCIe de IA mais avançados, como a NVIDIA RTX PRO 6000 Blackwell e a AMD Instinct MI350P.

A Skymizer divulgou números ambiciosos e vai mostrar a HTX301 durante a Computex 2026. Ainda será preciso ver o desempenho na prática, mas a proposta pode atrair empresas menores que buscam rodar IA localmente sem depender tanto de serviços em nuvem.

Skymizer anuncia placa PCIe de IA capaz de rodar LLMs gigantes localmente sem clusters de GPUs

Empresa taiwanesa apresenta acelerador PCIe de IA que roda LLMs de 700B em uma única placa

Mais vistos da semana

Samsung Galaxy Z Flip 8 deve ser um pouco mais leve que o Flip 7 e eliminar vinco da tela

Bank of America quer GTA 6 por US$ 80 para "salvar" indústria dos games — e a conta pode sobrar para os jogadores

Resident Evil Requiem vira alvo de críticas após demonstração com DLSS 5

PlayStation 6 e portátil teriam diferença pequena de memória RAM

Apple busca Intel e Samsung após falta de chips avançados da TSMC

Sony planeja adicionar sistema de interpolação de frames no PlayStation 6

Gothic 1 Remake mantém a essência do original na Unreal Engine 5, mas começo do jogo pode dividir opiniões

NVIDIA Nemotron 3 Super lidera ranking de IA open source e supera DeepSeek e GPT-OSS