O Colapso do Claude: Por que a AMD Abandonou a Anthropic (e as lições sobre telemetria e IA)

No início de abril de 2026, uma notificação no GitHub da Anthropic silenciou as conversas de corredor em San Francisco. Não era um relatório de bug comum, nem uma sugestão de nova funcionalidade. Era um manifesto técnico assinado por Stella Laurenzo, Diretora de IA da AMD, documentando o que muitos desenvolvedores vinham sentindo, mas poucos conseguiam provar: o Claude Code — a ferramenta de elite para engenharia da Anthropic — havia sofrido um colapso de confiabilidade.

O relato da AMD não se baseava em “vibes” ou em um dia ruim de codificação. Ele foi construído sobre a análise rigorosa de quase 7.000 sessões de engenharia complexa. A conclusão foi devastadora: o modelo tornou-se “burro” e “preguiçoso”. Mas o que acontece quando a ferramenta mais avançada do mercado decide que ler código é trabalho demais?

A Anatomia de um Regresso

Para entender o tamanho do problema, precisamos olhar para os números que Stella Laurenzo trouxe à mesa. Na engenharia de software de alto nível, a precisão não é opcional. Antes das atualizações caóticas de março de 2026, o Claude Code era conhecido por sua capacidade de analisar vastas bases de código antes de sugerir uma única linha de mudança. Ele era o “estudioso” entre os LLMs.

Os dados da AMD mostraram uma inversão brutal de comportamento:

Leitura 3x menor: O modelo passou a ler três vezes menos arquivos e contextos antes de propor edições. Em vez de entender o sistema, ele passou a “adivinhar” soluções.
Reescritas agressivas: Em vez de patches cirúrgicos, o modelo passou a reescrever arquivos inteiros com o dobro da frequência anterior, introduzindo bugs em funções que nem precisavam ser tocadas.
Abandono de tarefas: Sessões que anteriormente eram concluídas com sucesso agora eram abandonadas no meio do caminho sem explicação — um comportamento que era praticamente inexistente antes de março.

A telemetria da AMD sugeriu que a “profundidade de pensamento” do Claude caiu cerca de 67%. O que antes era uma ferramenta de engenharia confiável tornou-se um assistente de chat sobrecarregado.

O Mistério dos “Thinking Tokens”

A grande controvérsia gira em torno de como a Anthropic lida com o raciocínio interno dos seus modelos, conhecido como *Chain of Thought*. Em março, a empresa introduziu o parâmetro redact-thinking-2026-02-12. Oficialmente, a Anthropic afirmou que isso era apenas uma mudança na interface: o raciocínio ainda acontecia, mas ficava oculto para o usuário para “limpar a UI”.

A comunidade técnica, liderada pela denúncia da AMD, discorda veementemente. A suspeita é que a Anthropic, enfrentando uma crise de escassez de GPU ou tentando reduzir custos operacionais, reduziu a alocação de tokens de pensamento para modelos em produção. Ao “esconder” o pensamento, eles também estariam escondendo o fato de que o modelo está pensando menos.

Para Stella e sua equipe na AMD, a correlação foi clara: assim que a visibilidade do pensamento caiu de 100% para zero, o comportamento do modelo colapsou. Sem a transparência do raciocínio, a IA perdeu o “fio da meada” em tarefas de longa duração.

A Queda da Anthropic e a Ascensão do Pragmatismo

Março de 2026 será lembrado como um mês frenético para a Anthropic. A empresa lançou 14 atualizações rápidas em 30 dias, enfrentou cinco grandes quedas de sistema e tentou desesperadamente manter o ritmo contra o GPT-5 e o Gemini 2.5. O resultado foi um clássico erro de *Quality Assurance* (QA).

A AMD não esperou por desculpas. A diretora confirmou que sua equipe de engenharia sênior já migrou para provedores concorrentes (especula-se que tenham voltado para o OpenAI ou adotado o novo DeepSeek Coder V3). Para uma empresa do tamanho da AMD, a produtividade perdida em 7.000 sessões de engenharia representa milhões de dólares em tempo de desenvolvimento.

Essa debandada marca o fim da “lua de mel” entre grandes corporações e laboratórios de IA baseada apenas em promessas de “modelos maiores”. O mercado agora exige estabilidade e telemetria.

A Crise de Confiabilidade na Indústria de Software

A regressão observada pela AMD não é um incidente isolado, mas sim o sintoma de uma tendência preocupante na indústria de IA: a “otimização agressiva de inferência”. À medida que o custo computacional para treinar e manter modelos como o Claude Opus ou o GPT-4 aumenta exponencialmente, os provedores de nuvem buscam atalhos. Esses atalhos — que incluem o uso de modelos menores para orquestração ou a redução drástica da janela de contexto ativa durante o raciocínio — muitas vezes degradam a qualidade percebida por usuários de nicho, como engenheiros de hardware e compiladores.

Para o desenvolvedor médio que escreve JavaScript simples, a mudança pode ser imperceptível. Mas para quem está lidando com kernels de Linux, otimização de drivers e bases de código legadas de milhões de linhas, a perda de “atenção profunda” da IA é fatal. O caso AMD serve como um divisor de águas: o mercado corporativo começou a perceber que modelos generalistas podem não ser a solução final para domínios de alta complexidade.

O custo oculto da atualização forçada

Ao contrário do software tradicional, onde você pode escolher manter a versão estável de um compilador (como o GCC ou o Clang), no mundo dos LLMs via API, você é frequentemente arrastado para a versão mais nova. A Anthropic e a OpenAI raramente permitem que grandes clientes permaneçam em versões “congeladas” que eles sabem que funcionam. O resultado é a interrupção da produção. Quando o Claude Code mudou de comportamento em março, milhares de fluxos de trabalho automatizados baseados na sua lógica de raciocínio quebraram simultaneamente.

Guia Técnico: Métricas de Avaliação de IA para Engenharia

Se a sua empresa depende de IA para codificação, você precisa de um *benchmark* que vá além dos testes sintéticos (HumanEval). Aqui estão as métricas que a AMD usou e que você deve adotar:

1. “Context Adherence Score” (CAS)

Meça a frequência com que a IA ignora restrições explicitadas no README.md ou em comentários de código. Em março, o Claude começou a sugerir bibliotecas proibidas ou padrões de arquitetura que haviam sido explicitamente negados nas instruções de sistema. Um CAS baixo indica que o modelo está sofrendo de “perda de atenção” no meio da sessão.

2. “Hallucination vs. Refusal Rate”

Um modelo de IA honesto deve dizer “não sei” ou pedir mais contexto se a tarefa for impossível. O sintoma da regressão do Claude foi que ele parou de pedir contexto e passou a “inventar” APIs que não existiam ou a assumir comportamentos de funções que ele nunca leu. Monitore se o seu assistente de IA está se tornando excessivamente confiante em suas respostas incorretas.

3. “Token-to-Commit Ratio”

Quantos tokens você gasta para obter um commit válido e aprovado por um humano? A AMD notou que esse custo dobrou. Embora o preço por token possa ter caído, o custo real da engenharia subiu porque os desenvolvedores precisavam de mais rodadas de correção para cada sugestão da IA. A eficiência financeira da IA está ligada à sua precisão, não apenas ao preço da API.

4. “Logic Chain Traceability”

Dê preferência a ferramentas que exportam o histórico de raciocínio. Se a sua IA gera um erro, você consegue ver onde a lógica falhou? Se o provedor esconde essa trilha (como a Anthropic tentou fazer com o redact-thinking), você está perdendo a capacidade de auditar sua própria ferramenta de trabalho.

O Futuro: Modelos Locais vs. Gigantes da Nuvem

O incidente com a AMD fortalece o argumento para modelos locais ou hospedados privadamente (como Llama 3 Fine-tuned ou DeepSeek). Empresas que não podem se dar ao luxo de ter sua produtividade ditada pelos caprichos de uma atualização de API em San Francisco estão começando a investir em infraestrutura própria. Se você tem o hardware (e a AMD certamente tem), rodar um modelo especializado pode ser mais seguro do que depender de um modelo generalista que pode ser “otimizado” para baixo a qualquer momento.

Conclusão: O Valor da Estabilidade

A IA generativa está em uma corrida espacial onde o “novo” é sempre celebrado. No entanto, para quem constrói o hardware que alimenta essa própria revolução — como a AMD — a inovação sem estabilidade é apenas ruído. O colapso do Claude em março serve como um alerta para todos os laboratórios de IA: se você sacrificar a confiabilidade no altar da velocidade de lançamento, perderá seus usuários mais valiosos.

A lição final de Stella Laurenzo é simples: confie nos dados, não nos anúncios de lançamento. Em 2026, a melhor IA não é aquela que promete o mundo, mas aquela que lê o código antes de tentar consertá-lo.

Artigo publicado originalmente em foiumaideia.com — Inovação, Tecnologia e a Realidade por trás dos Algoritmos.