Intel Inova na Inferência de IA: Microkernels de 1 e 2 Bits Rivalizam com GPUs da NVIDIA
A batalha entre CPU e GPU na inteligência artificial (IA) acaba de ganhar um novo capítulo surpreendente. A Intel anunciou que seus processadores convencionais, por meio de um redesenho focado em microkernels otimizados, conseguem executar modelos de linguagem de grande tamanho (LLM) com uma eficiência que rivaliza com a renomada GPU NVIDIA A100, até então considerada o padrão para treinamento e inferência de IA.
O segredo não está em um novo chip revolucionário, mas na forma como as matrizes são multiplicadas nas CPUs. Utilizando microkernels projetados para maximizar as instruções AVX2 e novas disposições de dados, a Intel alcançou um desempenho até 7 vezes superior na inferência de modelos cuantizados em 1 e 2 bits, em comparação com a abordagem tradicional de 16 bits.
Transformação na Inferência
Historicamente, o padrão para inferência eficiente de LLMs utilizava pesos de 16 bits ou 4 bits, permitindo economia de memória e energia, mas sempre com uma perda de precisão. A Intel vai além, desenvolvendo microkernels capazes de “compactar” a informação de maneira extremamente eficiente, resultando em uma redução drástica de largura de banda e memória durante a execução em CPUs x86 modernas.
Testes mostram que enquanto a NVIDIA A100 alcança 250 tokens por segundo, os processadores Intel Core Ultra ficam entre 82 e 110 tokens, um resultado que surpreende pela proximidade, já que a GPU possui uma largura de banda 17 a 20 vezes superior.
Comparação Direta com GPUs
Os engenheiros da Intel testaram seus microkernels em três modelos de processadores recentes. O desempenho se mostrou consistente em modelos como Llama3-8B, Falcon3-1B e MobileLLM-1.5B. Em números, o modelo Llama3-8B apresentou uma aceleração de até 5,8 vezes em 2 bits em comparação com 16 bits.
Qualidade Mantida
A clave para esse avanço está no que a Intel denomina “up-convert and compute”. Isso envolve armazenar pesos do modelo em formatos de 1 ou 2 bits que são posteriormente convertidos para inteiros de 8 bits durante a inferência. Com operações otimizadas (FMA), e uma nova disposição de dados introduzida, a Intel conseguiu evitar perdas de desempenho.
Implicações do Avanço
Esse progresso é significativo por permitir que modelos avançados rodem em dispositivos com recursos limitados, democratizando o acesso a tecnologias que antes estavam restritas apenas a data centers. Além disso, os microkernels consomem entre 4 e 8 vezes menos memória e energia, abrindo novas possibilidades para dispositivos de baixa potência.
Um Desafio à NVIDIA
O que a Intel apresenta representa um desafio estratégico à NVIDIA, que dominou o campo da IA com suas GPUs. Se a inferência pode ser realizada em CPUs comuns, o mercado para GPUs pode perder sua atratividade. Embora a discrepância de desempenho ainda exista, essa nova abordagem sugere que, para determinados casos, a CPU pode ser suficiente.
Perspectivas Futuras
A Intel não pretende parar por aqui. A empresa já está trabalhando em portar essas otimizações para CPUs e SoCs ARM, possibilitando que dispositivos como smartphones e tablets também se beneficiem. Com a chegada das instruções AVX10.2, espera-se que as capacidades sejam ampliadas ainda mais.
Conclusão
O que antes parecia impossível — executar modelos complexos de IA em laptops — está se tornando uma realidade. Com microkernels de 1 e 2 bits, a Intel não apenas desafia a liderança da NVIDIA, mas também abre caminho para uma nova era de IA acessível. O futuro da inteligência artificial em dispositivos pessoais pode estar prestes a mudar radicalmente.