A ascensão do Codex e a queda do Claude Code
Um verdadeiro Game of Thrones versão IA.
O dinamismo que se observa na fronteira da tecnologia é admirável, e por mais que manter-se atualizado não precisa ser um fardo, você está sempre a um grande lançamento de ter que se readaptar, principalmente se quiser aproveitar o que há de melhor no mercado.
Quando o Cursor perdeu a confiança dos desenvolvedores em Julho após uma mudança de preços não divulgada de forma apropriada, escrevi sobre a economia da IA e como modelos subsidiados não durariam para sempre. Naquela época, o Claude Code emergiu como o grande vencedor: limites claros, um plano que entregava um excelente valor pelo dinheiro investido, e o principal, o melhor modelo para programar.
O domínio do Claude parecia iminente ainda mais quando a OpenAI desperdiçou seu tiro com o frustrante lançamento do GPT-5, nem tanto por ser um modelo ruim, mas por simplesmente não acompanhar as expectativas criadas por eles mesmos. A reação da comunidade foi bem negativa, e eu mesmo disse em um vídeo que o fato do principal feedback em relação ao lançamento ser o desejo de utilizar o GPT-4o – um modelo lançado há mais de 1 ano – deixava claro que algo havia dado muito errado.
Como explicar então que, 1 mês depois desse céu de brigadeiro, o sub-reddit da Anthropic está infestado de mensagens do tipo: “switching away”, “canceling my Max plan”, “sad about Claude”?
O artigo de hoje é uma reflexão sobre a fragilidade das empresas de software, principalmente nos momentos de euforia, e como devemos estar sempre atentos à qualidade, ao feedback dos usuários e à competição, pois a guerra nunca está ganha – principalmente quando se compete contra empresas bilionárias.
Não ignore o vibe check
Fala-se muito de vibe coding mas pouco de vibe check. Por conta da natureza não-determinística dos LLMs, é uma tarefa difícil gerar repeatability para um experimento, o que é crucial para um método científico. Em outras palavras: o LLM irá sempre variar na resposta, portanto é difícil julgar se um modelo melhorou ou piorou de forma objetiva.
Portanto, sempre que há um review de modelos ou ferramentas de IA, o critério para determinar o vencedor passa por uma espécie de feeling, um vibe check. “Esse modelo parece dar as melhores respostas”, “tenho a impressão de que os resultados assim são melhores”, etc.
Isso não só torna qualquer tipo de comparação muito enviesada pelos consumidores, mas é também um desafio para os provedores de IA. Como diferenciar o que é uma degradação sistêmica de qualidade de um feedback pontual, um mero sentimento, ou uma mudança do Zeitgeist? Quem não garante que uma boa campanha de marketing não é capaz de alterar a percepção do público sobre o seu produto, mesmo que nada tenha mudado?
Não pretendo relativizar a capacidade dos modelos. O bom é bom, o ruim é ruim. Mas num jogo onde o edge é pequeno e qualquer ganho de 5% faz a diferença, captar essa diferença só será possível ao longo de horas ou dias de sessões usando cada ferramenta. Será que a culpa foi do meu prompt? Será que foi uma variabilidade natural dos LLMs? Enfim, resta-nos o bom e velho feeling.
Assim, quando algumas semanas atrás o Claude Code parecia estar gerando consistentemente resultados piores, o sentimento na internet mudou. Muitos acusaram a Anthropic de quantizar o modelo em horários de pico, ou seja, reduzir a qualidade propositalmente para aguentar a demanda. Outros disseram não perceber nenhuma diferença. Muitos, como eu, estavam um pouco incertos. Algo parecia ter mudado, mas o quê? Parece pior, mas como?
Never bet against OpenAI
A tempestade perfeita para a Anthropic se formou quando, paralelo aos supostos problemas de performance, a OpenAI sem muito alarde (algo incomum vindo de Sam Altman e sua trupe) melhorou consideravelmente o Codex, a CLI que ela havia lançado há tempos sem muito sucesso.
Eu já falei bastante do Codex por aqui1, mas nunca da CLI, que me parecia um produto bem inferior ao Claude Code. No entanto, por alguma razão o GPT-5 – depois do seu lançamento frustrante na interface web e em integrações como no Cursor – pareceu ter nascido para o Codex.
Aproveitando o momento de baixa dos adversários, o time do Codex capitalizou e no final de Agosto lançou um conjunto de novidades que tornou-lhes impossíveis de serem ignorados: extensão para o VS Code (e demais forks), uma nova versão da CLI, code reviews direto no GitHub, e – talvez o principal – uso atrelado à sua conta do ChatGPT.
Digo ser o principal pois basicamente trouxe a experiência do Codex “de graça” para todos que já tinham uma conta Plus. No meu caso, assinante do plano Pro, isso significou ter o modelo com maior poder computacional disponível no mercado (GPT-5 High) de modo ilimitado em qualquer IDE ou terminal.
De fato, a grande fraqueza do Claude sempre foi o preço. No momento que escrevo, o Opus 4.1 custa cerca de 7x mais que o GPT-5. Mesmo que esses modelos fossem equivalentes, a diferença de preço permite sessões muito mais longas e ininterruptas de programação com qualidade, sem se preocupar com rate limits, utilizando o modelo da OpenAI. Se você trabalha profissionalmente com programação e tem o budget para isso, pagar $200 por um auxiliar 24/7 sem preocupações é uma barganha.
A qualidade do modelo (principalmente se utilizado com reasoning high), aliado à praticidade de se ter o produto em qualquer ambiente conectado à conta da OpenAI, num momento onde o Claude passava por desconfianças fez com que o uso do Codex explodisse, um novo modelo do GPT-5 otimizado para a ferramenta fosse lançado2, e Sam Altman aparecesse para (agora sim) surfar o hype.
Não está morto quem peleja
Enquanto a OpenAI voltava a dominar a cena, a Anthropic vivia sob a desconfiança de seus usuários, massacrada na internet pelo sentimento – agora transformado em realidade – de que os modelos haviam piorado.
O primeiro sinal público de que algo estava fora do lugar veio somente no dia 8 de Setembro3, com a publicação de um tweet reconhecendo dois bugs recentes. No entanto, o tom da frase “We never intentionally degrade model quality as a result of demand or other factors” piorou a situação. A ambiguidade (quer dizer que houve uma queda da qualidade ainda que não-intencional?) irritou muitas pessoas e serviu para dar legitimidade ao feeling geral de que houve sim degradação.
Foi somente no dia 17 de Setembro4 que oficialmente eles reconheceram o que todos já haviam percebido: houve de fato uma degradação de qualidade como resultado de alguns bugs e problemas de infraestrutura. Claramente a nota foi escrita com o objetivo de apresentar um mea-culpa e tentar recuperar a confiança da comunidade, e claro, avisar que está tudo bem e pedir para que os desenvolvedores retornem ao Claude Code.
Serão bem sucedidos? Difícil de saber. Se aprendi algo trabalhando na fronteira da tecnologia é que todos estão dispostos a perdoarem seus pecados no momento que você se torna o melhor player. Portanto, diria que a Anthropic está a um novo lançamento de recuperar a confiança perdida.
A importância de aprender os princípios
Ferramentas vem e vão, mas os princípios permanecem. Se ontem a preferência era pelo Claude Code e hoje é pelo Codex, amanhã pode ser por algo completamente diferente. Mas todos tem algo em comum: o ganho de produtividade provido pela programação agêntica.
Por isso argumento que se deve programar pensando na IA primeiro5: pois é isso que fará com que você tire o maior proveito possível das ferramentas que empresas bilionárias estão batalhando para construir. Deixe a briga para elas; aproveite o resultado de seus esforços.
Do meu lado, fui um dos primeiros a falar do Claude Code6 e confesso que fiquei até triste por vê-lo perder prestígio tão rapidamente. Espero que com os bugs corrigidos e um modelo mais capaz (ou mais barato) no horizonte, ele possa recuperar o posto de ferramenta favorita dos programadores.
Inegavelmente, o Claude Code enquanto produto é superior, mais bem acabado. Mas não é uma comparação muito justa: enquanto a CLI da Anthropic está no ar desde Março de 2025, a CLI da OpenAI foi receber a atenção devida somente em Agosto. E a essa altura do campeonato é justo se perguntar: dá pra apostar contra a OpenAI?



Essa semana senti o Claude Code melhorar. Está mais consistente e implementando soluções de maneira mais precisa.
"o Opus 4.1 custa cerca de 7x menos que o GPT-5." Não é o contrário?