MiniMax M3: IA Aberta Chinesa Que Bate GPT-5.5 em Código

Q: Como Funciona a Arquitetura MSA?

O coração técnico do M3 é o MSA (MiniMax Sparse Attention) , um mecanismo de atenção esparsa que substitui a atenção completa (full attention) clássica dos transformers. Na atenção tradicional, cada token compara-se com todos os outros — um custo computacional que cresce de forma quadrática. Isso torna janelas de contexto muito longas impraticáveis em termos de custo e velocidade. O MSA resolve esse gargalo dividindo o cache de chave-valor (KV cache) em blocos. Um estágio de pré-filtragem identifica quais blocos são relevantes para cada consulta, e só esses blocos entram no cálculo completo. Na camada de execução na GPU, o MSA inverte a lógica habitual: em vez de carregar blocos KV para cada query individual, processa blocos sequencialmente e agrupa todas as queries que precisam de cada bloco. Cada bloco é lido da memória uma única vez, de forma contígua. O resultado é impressionante: no contexto de 1 milhão de tokens, o M3 precisa de apenas 1/20 do custo computacional por token em relação ao seu antecessor M2 . A etapa de pré-processamento (prefill) ficou 9 vezes mais rápida, e a geração de respostas (decoding), 15 vezes mais rápida. A implementação do MSA é mais de 4x mais veloz

Q: Como Acessar o MiniMax M3 Hoje?

Existem três formas de acessar o modelo: API da MiniMax: Crie uma chave em platform.minimax.io e use o endpoint compatível com OpenAI. OpenRouter: A forma mais rápida para testar sem criar conta na MiniMax. Aponte seu cliente OpenAI-compatible para o OpenRouter com o modelo minimax/minimax-m3 . Self-hosted: Os pesos serão publicados em breve no Hugging Face e GitHub. Para rodar localmente, é necessário hardware com GPUs de alta capacidade — a janela de 1M tokens exige memória vRAM significativa. O MiniMax Code, o aplicativo de agentes da empresa, também recebeu o M3 e está programado para se tornar open-source.

O Que É o MiniMax M3

No dia 1.º de junho de 2026, a empresa chinesa MiniMax (Xiyu Technology) lançou o MiniMax M3, um modelo de linguagem open-weight que combina três capacidades que até então eram exclusividade de sistemas proprietários como Claude Opus 4.7, GPT-5.5 e Gemini 3.1 Pro: janela de contexto de 1 milhão de tokens, multimodalidade nativa (texto, imagem e vídeo) e desempenho de ponta em tarefas de programação. O modelo foi apresentado como o primeiro open-weight a reunir essas três características numa única arquitetura.

A API já está disponível, e os pesos do modelo e o relatório técnico devem ser publicados no Hugging Face e no GitHub em até 10 dias após o lançamento, segundo a MiniMax.

Como Funciona a Arquitetura MSA

O coração técnico do M3 é o MSA (MiniMax Sparse Attention), um mecanismo de atenção esparsa que substitui a atenção completa (full attention) clássica dos transformers. Na atenção tradicional, cada token compara-se com todos os outros — um custo computacional que cresce de forma quadrática. Isso torna janelas de contexto muito longas impraticáveis em termos de custo e velocidade.

O MSA resolve esse gargalo dividindo o cache de chave-valor (KV cache) em blocos. Um estágio de pré-filtragem identifica quais blocos são relevantes para cada consulta, e só esses blocos entram no cálculo completo. Na camada de execução na GPU, o MSA inverte a lógica habitual: em vez de carregar blocos KV para cada query individual, processa blocos sequencialmente e agrupa todas as queries que precisam de cada bloco. Cada bloco é lido da memória uma única vez, de forma contígua.

O resultado é impressionante: no contexto de 1 milhão de tokens, o M3 precisa de apenas 1/20 do custo computacional por token em relação ao seu antecessor M2. A etapa de pré-processamento (prefill) ficou 9 vezes mais rápida, e a geração de respostas (decoding), 15 vezes mais rápida. A implementação do MSA é mais de 4x mais veloz que alternativas open-source como Flash-Sparse-Attention e flash-moba.

Benchmarks: O Número Que Importa

O número que chama atenção de imediato é o SWE-Bench Pro: 59,0%. Esse benchmark mede a capacidade de um modelo resolver problemas reais de engenharia de software em repositórios complexos. O M3 supera o GPT-5.5 e o Gemini 3.1 Pro, e aproxima-se do Claude Opus 4.7. Para um modelo open-weight que pode ser hospedado localmente, isso muda as regras do jogo.

Outros resultados divulgados pela MiniMax:

Terminal-Bench 2.1: 66,0% — tarefas agênticas de linha de comando
BrowseComp: 83,5 pontos — navegação web autônoma, superando o Opus 4.7 (79,3)
MCP Atlas: 74,2% — uso de ferramentas e protocolos
OSWorld-Verified: 70,06% — operação de computador desktop (361 amostras, 200 passos máximos)
SVG-Bench: supera o Opus 4.7 na geração programática de gráficos vetoriais

É importante ressaltar que esses resultados foram publicados pela própria MiniMax, com testes executados em infraestrutura interna. É sempre recomendado validar benchmarks do fabricante com dados próprios antes de decisões de produção.

Preço Que Muda a Conta

Se o desempenho surpreende, o preço é o que pode realmente deslocar o mercado. O M3 foi lançado no OpenRouter com uma tarifa promocional de 50% de desconto: cerca de US$ 0,30 por milhão de tokens de entrada e US$ 1,20 por milhão de tokens de saída. Mesmo na tarifa padrão (US$ 0,60 / US$ 2,40), o custo é uma fração do que cobram os modelos proprietários.

Para contextualizar: uma tarefa agêntica de programação que consome 500K tokens de entrada e 100K de saída custaria aproximadamente US$ 0,27 no M3 (promo), contra US$ 5,00 no Claude Opus. Ou seja, o mesmo trabalho custa cerca de 5% do preço do concorrente. Quando se fala de workloads de alto volume com agentes que operam por horas, essa diferença decide se um produto é viável ou não.

O plano de tokens da MiniMax começa em US$ 20/mês para cerca de 1,7 bilhão de tokens, indo até US$ 120/mês para 9,8 bilhões.

Testes Autônomos de Longa Duração

A MiniMax documentou três experimentos internos que demonstram a capacidade do M3 de trabalhar de forma autônoma por longos períodos — algo que poucos modelos conseguem sustentar sem intervenção humana.

1. Reprodução de paper científico (12 horas): O M3 recebeu o artigo premiado do ICLR 2025 sobre “Learning Dynamics of LLM Finetuning” e foi instruído a reproduzir os experimentos de forma independente. Em quase 12 horas, produziu 18 commits e 23 figuras experimentais, completando os experimentos centrais sem intervenção. O modelo precisou ler fórmulas e gráficos (multimodalidade), manter o artigo e os logs na memória (contexto longo) e executar código (capacidade agêntica).

2. Otimização de kernel CUDA (24 horas): A tarefa era otimizar um kernel de multiplicação matricial FP8 em GPUs NVIDIA Hopper. O M3 começou apenas com uma descrição da tarefa, um script de benchmark e um esqueleto de código sem funcionalidade. Ao longo de 24 horas, fez 147 submissões de benchmark e 1.959 chamadas de ferramentas. Levou a utilização de hardware de 7,6% para 71,3% — um speedup de 9,4x. A melhor solução apareceu na 145.ª tentativa. A maioria dos outros modelos testados parou de progredir após as primeiras 30 submissões.

3. Treinamento autônomo de modelos (PostTrainBench): O M3 recebeu quatro modelos base e executou sozinho o ciclo completo de síntese de dados, treinamento, avaliação e iteração. Pontuou 0,37, abaixo do Opus 4.7 (0,42) e do GPT-5.5 (0,39), mas à frente dos demais modelos testados.

Multimodalidade Nativa Desde o Treino

Diferente de modelos que adicionam capacidades visuais como um módulo posterior, o M3 foi treinado com modalidades mistas desde o passo zero. Texto, imagens e vídeo foram treinados juntos desde o início. A MiniMax relata que dados intercalados — sequências onde texto e imagens se misturam naturalmente — são mais críticos para o desempenho do modelo do que se assumia. Após reconstruir todo o pipeline de dados para esse formato, o treinamento atingiu a ordem de 100 trilhões de tokens.

Na prática, isso significa que o M3 consegue, por exemplo, ler um documento PDF com gráficos, interpretar um vídeo de demonstração de software e operar um computador desktop — tudo dentro da mesma janela de contexto de 1 milhão de tokens.

No benchmark OmniDocBench, que avalia compreensão de documentos multimodais, o M3 pontua acima do Gemini 3.1 Pro. No OSWorld-Verified, atinge 70,06% de conclusão de tarefas de uso de computador.

O Que Significa Para Desenvolvedores

O M3 abre caminhos concretos para desenvolvedores e empresas brasileiras que precisam de inteligência artificial de ponta sem pagar os preços praticados por OpenAI, Anthropic ou Google. Enquanto a Microsoft lança modelos próprios para competir nesse espaço, o M3 surge como alternativa open-weight com custo muito menor. Três cenários se destacam:

Agentes de código autônomos: Com 59% no SWE-Bench Pro e preço 10 a 20 vezes menor que Opus, o M3 torna viável rodar agentes de programação em volume alto sem explodir o orçamento. Empresas que usam Copilot ou Cursor podem complementar com M3 para tarefas de longo prazo.

Análise de grandes codebases: A janela de 1 milhão de tokens permite carregar repositórios inteiros, documentação e logs numa única sessão. O custo reduzido torna isso praticável para revisões de código, refactoring e auditoria.

Self-hosting: Por ser open-weight, o M3 pode ser hospedado em infraestrutura própria, algo impossível com modelos proprietários. Assim como o NVIDIA Cosmos 3 e outros modelos abertos que cobrimos, o M3 dá controle total sobre dados e infraestrutura. Para empresas com restrições de privacidade de dados ou regulamentações setoriais, isso é um diferencial decisivo.

Limitações e Ressalvas

Nem tudo são boas notícias. Há pontos que merecem atenção antes de adotar o M3 em produção:

Benchmarks do fabricante: Os resultados foram obtidos pela própria MiniMax em infraestrutura interna. A prática recomendada é rodar avaliações em dados reais do seu domínio antes de confiar nos números de marketing.
Prompting e compatibilidade: Modelos chineses podem ter comportamentos diferentes em prompts em português ou inglês. É preciso calibrar o prompt engineering para o seu caso de uso.
Censura e alinhamento: Modelos treinados na China podem ter filtros de conteúdo que afetam certos temas políticos ou sociais. Teste o modelo no seu domínio específico.
Ecossistema: A MiniMax é relativamente nova no cenário global. Ferramentas, documentação e suporte da comunidade ainda estão crescendo comparados ao ecossistema de OpenAI ou Anthropic.

Como Acessar o MiniMax M3 Hoje

Existem três formas de acessar o modelo:

API da MiniMax: Crie uma chave em platform.minimax.io e use o endpoint compatível com OpenAI.
OpenRouter: A forma mais rápida para testar sem criar conta na MiniMax. Aponte seu cliente OpenAI-compatible para o OpenRouter com o modelo minimax/minimax-m3.
Self-hosted: Os pesos serão publicados em breve no Hugging Face e GitHub. Para rodar localmente, é necessário hardware com GPUs de alta capacidade — a janela de 1M tokens exige memória vRAM significativa.

O MiniMax Code, o aplicativo de agentes da empresa, também recebeu o M3 e está programado para se tornar open-source.

Perguntas Frequentes

O MiniMax M3 é gratuito?

Não. O modelo é cobrado por uso via API, com tarifa promocional de US$ 0,30 por milhão de tokens de entrada. Porém, por ser open-weight, pode ser hospedado localmente sem custos de API — basta ter hardware com GPUs suficientes para rodá-lo.

O MiniMax M3 funciona em português?

Sim. Como modelo de linguagem com 1 milhão de tokens de contexto e treinamento em 100 trilhões de tokens, o M3 tem capacidade multilíngue. Testes práticos são recomendados para avaliar a qualidade em casos de uso específicos em português brasileiro.

Qual a diferença entre o M3 e o GPT-5.5?

A principal diferença é que o M3 é open-weight (pesos abertos), permitindo hospedagem própria, enquanto o GPT-5.5 é proprietário. Em benchmarks de código (SWE-Bench Pro), o M3 pontua 59% contra o GPT-5.5, que fica abaixo. O preço do M3 é cerca de 10 a 20 vezes menor que o GPT-5.5 para tarefas similares.

Como rodar o MiniMax M3 localmente?

Os pesos do modelo serão publicados no Hugging Face e GitHub. Para rodar localmente, é necessário hardware com GPUs de alta capacidade — a janela de 1 milhão de tokens exige memória vRAM significativa. Ferramentas como vLLM ou Ollama podem ser usadas para servir o modelo.

Foi uma ideia