Em 10 de junho de 2026, a Google DeepMind lançou o DiffusionGemma, um modelo de linguagem aberto que gera texto em blocos simultâneos em vez de palavra a palavra. Otimizado pela NVIDIA, ele chega a ser 4x mais rápido que modelos convencionais e roda localmente, sem nuvem nem custo por token, abrindo um caminho novo para quem usa IA na própria máquina.
Pontos-chave
- O que é: DiffusionGemma é um modelo aberto (Apache 2.0) de 26 bilhões de parâmetros que usa difusão para gerar texto em paralelo.
- Quem lançou: Google DeepMind, com otimização da NVIDIA para GPUs de mesa e servidores.
- Quando: 10 de junho de 2026, disponível no mesmo dia no Hugging Face.
- Por que importa: gera até 256 tokens por passo, alcançando 2.000 tokens por segundo em hardware local.
- Como acessar: pesos abertos no Hugging Face, API grátis hospedada pela NVIDIA e suporte no vLLM e Unsloth.
A reviravolta na geração de texto
Quase todo modelo de linguagem em uso hoje funciona de forma autoregressiva: ele prevê uma palavra, espera, prevê a próxima, e assim constrói a resposta. É por isso que a IA parece “digitar” diante de nós, palavra a palavra. O DiffusionGemma quebra essa lógica. Em vez de seguir uma fila, ele parte do ruído e refina um bloco inteiro de texto de uma só vez, da mesma forma que os modelos de imagem geram um quadro completo a partir de pontos aleatórios.
Segundo o anúncio oficial da Google, o modelo integra uma “cabeça de difusão” inédita sobre a arquitetura da família Gemma 4. A ideia não é substituir o Gemma 4 tradicional — que segue como padrão para textos de alta qualidade —, mas abrir espaço para fluxos rápidos e interativos, como edição inline e iteração veloz. Para desenvolvedores e pesquisadores, isso significa respostas no ritmo do pensamento, e não no ritmo da memória do servidor.
Como a difusão funciona
A difusão é a mesma técnica por trás de geradores de imagem como o Flux e os primeiros Stable Diffusion. O modelo começa com um bloco de ruído e, em cada passo, remove parte desse ruído até revelar texto coerente. A grande diferença é que cada passo processa até 256 tokens ao mesmo tempo, em vez de emitir um único token e esperar o próximo cálculo.
O blog da NVIDIA explica o motivo técnico do ganho: a geração um-token-por-vez é um problema “amarrado à memória” — o processador passa a maior parte do tempo esperando dados chegarem, em vez de fazer contas. Já a difusão transforma isso em um problema “amarrado ao cálculo”, puxando o bloco de 256 tokens pelo transformador em paralelo. É exatamente o tipo de matemática densa para o qual os Tensor Cores da NVIDIA foram projetados.
Os números impressionantes
Os desempenhos divulgados chamam atenção pela ordem de grandeza. Em uma única GPU NVIDIA H100, o DiffusionGemma alcança 1.000 tokens por segundo. No DGX Spark, o supercomputador pessoal de mesa, são 150 tokens por segundo. E no DGX Station, chega a 2.000 tokens por segundo — cerca de 4x mais rápido que um modelo autoregressivo equivalente no mesmo cenário de uso individual.
O pesquisador independente Simon Willison, conhecido por acompanhar lançamentos de IA de perto, testou o modelo pela API grátis da NVIDIA e relatou mais de 500 tokens por segundo em uma resposta de 2.409 tokens gerada em 4,4 segundos. Para comparação, um humano lê em média 4 a 5 tokens por segundo. Ou seja, a máquina produz texto numa velocidade centenas de vezes superior à capacidade de leitura.
| Característica | Modelo autoregressivo (ex.: GPT, Claude) | DiffusionGemma (difusão) |
|---|---|---|
| Forma de gerar texto | Um token por vez, em sequência | Blocos de até 256 tokens em paralelo |
| Gargalo principal | Largura de banda de memória | Cálculo paralelo (compute-bound) |
| Velocidade típica | Limitada pela espera de memória | Até 4x mais rápido (até 2.000 tokens/s) |
| Onde costuma rodar | Geralmente em nuvem | Localmente, em GPU de mesa |
| Custo por uso | Cobrança por token, em servidor | Sem custo por token, no seu hardware |
| Licença | Geralmente fechada | Aberta (Apache 2.0) |
Por que roda na sua máquina
O ponto que mais interessa ao público brasileiro é a possibilidade de rodar uma IA potente sem depender de servidor pago. Como os pesos são abertos sob licença Apache 2.0, qualquer pessoa pode baixar o modelo no Hugging Face e executá-lo em uma placa GeForce RTX 5090 ou num DGX Spark, sem enviar dados para a nuvem. Para quem trabalha com informações sensíveis — advogados, médicos, empresas —, esse cenário elimina um risco real de vazamento.
Há também um efeito econômico. Os grandes modelos de linguagem cobram por token processado, o que encarece qualquer automação que rode o dia inteiro. Com um modelo local, o custo se torna fixo: você paga uma vez no hardware e roda quantas vezes quiser. É o mesmo argumento que ajuda a diminuir o peso ambiental da IA, já que enviar menos requisições para data centers reduz o consumo de energia e água associado a cada prompt.
A parceria com a NVIDIA
O DiffusionGemma nasceu na Google DeepMind, mas foi a NVIDIA que mostrou seu potencial em hardware de consumo. Desde o primeiro dia, a empresa garantiu suporte no vLLM (motor de inferência de alto desempenho), no Unsloth (ferramenta de ajuste fino) e na plataforma build.nvidia.com, onde o modelo está hospedado de graça para testes. A ideia é que desenvolvedores passem do download à execução em minutos.
Isso reforça uma tendência mais ampla: a corrida para tornar a IA local tão boa quanto a nuvem. A NVIDIA vem apostando nisso com a linha DGX Spark e com otimizações para placas RTX, enquanto fabricantes de chips como a Tenstorrent, alvo de compra da Qualcomm, disputam o mesmo espaço. O DiffusionGemma é mais uma peça nesse quebra-cabeça: um modelo desenhado para brilhar longe dos data centers, na sua mesa.
Limitações do modelo
É essencial ser honesto sobre o que o DiffusionGemma não é. A própria Google deixa claro que se trata de um modelo “experimental”, voltado para pesquisa e fluxos interativos — e não para produção de textos longos e finais. Modelos autoregressivos como o Gemma 4 tradicional seguem como referência em qualidade para textos acabados.
O modelo tem 26 bilhões de parâmetros no total, mas ativa apenas cerca de 3,8 bilhões por passo (por isso o nome técnico 26B-A4B). Essa arquitetura mista, chamada Mixture of Experts, economiza recursos, mas ainda exige uma GPU robusta para rodar bem. Suporta janela de contexto de 256 mil tokens, mais de 140 idiomas e entrada multimodal de texto e imagem — números sólidos, mas que não garantem, sozinhos, qualidade superior em tarefas complexas de raciocínio.
O que muda para desenvolvedores
O impacto prático mais claro aparece na latência. Aplicações em tempo real — agentes que agem, editores que corrigem texto enquanto você digita, assistentes de código que sugerem blocos inteiros — sofrem com a espera palavra a palavra. Um modelo que entrega um bloco de uma vez muda a sensação de uso de “esperando a máquina” para “conversando com a máquina”.
Para quem já trabalha com modelos abertos, como o MiniMax M3, modelo aberto chinês que bate concorrentes em código, o DiffusionGemma representa uma nova categoria: não é só mais um modelo aberto, é uma arquitetura diferente. A possibilidade de ajustá-lo para domínios específicos via Unsloth e NeMo torna a ferramenta atraente para quem cria produtos próprios de IA sem amarrar-se a um provedor de nuvem.
Para onde vai a IA
O DiffusionGemma sinaliza uma mudança de paradigma mais profunda do que parece. Por anos, a inteligência artificial de texto esteve presa à lógica sequencial: melhorar significava aumentar o modelo e esperar mais. A difusão mostra que existe outro caminho, em que velocidade e paralelismo vêm antes do tamanho. Se essa abordagem amadurecer, a próxima geração de assistentes locais pode ser dramaticamente mais rápida e barata.
Há, porém, uma advertência necessária. Modelos experimentais não viram padrão da noite para o dia, e a qualidade em tarefas complexas ainda precisa ser comprovada em larga escala. O ganho de velocidade é real e mensurável, mas a pergunta que fica é se a difusão para texto alcançará a mesma qualidade dos modelos autoregressivos. Por enquanto, o DiffusionGemma é uma promessa concreta — e raramente a IA entrega uma promessa tão tangível, com números e código aberto para qualquer um verificar.
Perguntas frequentes
O que é o DiffusionGemma?
É um modelo de linguagem experimental e aberto, lançado pela Google DeepMind em 10 de junho de 2026. Diferente dos modelos convencionais, ele gera texto por difusão — em blocos de até 256 tokens por vez — em vez de palavra a palavra, o que o torna até 4x mais rápido em hardware local.
Quanto custa usar o DiffusionGemma?
Os pesos do modelo são gratuitos e abertos sob licença Apache 2.0, disponíveis no Hugging Face. A NVIDIA também hospeda uma API de teste grátis no build.nvidia.com. O único custo real é o hardware (uma GPU compatível, como a GeForce RTX 5090 ou um DGX Spark) para rodar localmente.
O DiffusionGemma substitui o ChatGPT ou o Gemini?
Não. A própria Google descreve o modelo como experimental, voltado para pesquisadores e desenvolvedores que testam fluxos rápidos e interativos. Modelos autoregressivos como o Gemma 4 seguem como padrão para textos de alta qualidade. O DiffusionGemma é uma nova categoria, focada em velocidade.
O DiffusionGemma funciona em português?
Sim. Segundo a documentação oficial, o modelo suporta mais de 140 idiomas, janela de contexto de 256 mil tokens e entrada multimodal de texto e imagem. O desempenho específico em português brasileiro, porém, deve ser avaliado em testes práticos.
Referências
- Google — “DiffusionGemma: 4x faster text generation” (10 jun. 2026)
- Google DeepMind — página oficial do DiffusionGemma
- NVIDIA Blog — “NVIDIA Accelerates Google DeepMind’s DiffusionGemma for Local AI” (10 jun. 2026)
- Hugging Face — coleção oficial do DiffusionGemma
- Simon Willison’s Weblog — teste independente do DiffusionGemma (10 jun. 2026)