Qual é a melhor IA de 2025?
Um comparativo entre Gemini 3, GPT 5.1 Codex e Claude Opus 4.5.
A semana que passou foi possivelmente a mais agitada nos últimos anos para aqueles que utilizam IA no seu dia a dia. Isso porque os 3 maiores players do mercado lançaram seus modelos flagship, aquilo que de melhor eles podem oferecer.
O timing do lançamento chamou atenção. O primeiro a receber os holofotes foi o Gemini 3, modelo do Google que há muito era antecipado pela comunidade, feito público em 18 de Novembro. No dia seguinte, de forma um tanto tímida, a OpenAI revelou o GPT 5.1 Codex Max, voltado para programação. Finalmente, no último dia 24, a Anthropic contra-atacou com o Opus 4.5, uma atualização surpreendente do seu antigo modelo principal que havia sido descontinuado.
Evidentemente que quando tantos modelos de qualidade surgem em um período de 6 dias, qualquer análise é superficial. Canso de repetir no YouTube que o nível dos modelos principais de cada provedor hoje é muito parelho, que as melhorias são incrementais, e que somente o uso prolongado é capaz de revelar qual a melhor escolha para o seu caso de uso.
Sim, é importante frisar que cada indivíduo tem sua forma de trabalhar e seus próprios requisitos, de modo que minha experiência com uma determinada IA será diferente da sua. Isso não quer dizer que não conseguimos olhar de forma objetiva para o que cada uma oferece de melhor – apenas que cravar um modelo como superior em todos os aspectos é algo um tanto infantil.
Dito isso, é natural que passada essa semana intensa, e dado o relativo tempo de maturação, façamos a pergunta: quem saiu ganhando nessa corrida de atualizações?
Utilizei os três principais modelos nesses últimos dias e cobri o lançamento de todos no meu canal do YouTube. Nesse artigo pretendo deixar minhas impressões e meu veredito sobre o vencedor, ou pelo menos qual modelo passou a ser minha preferência para cada caso de uso.
Comecemos analisando cada um deles separadamente.
Gemini 3 Pro
O lançamento do Google já era pedra cantada na comunidade, com um hype incomum sendo gerado nas redes sociais (até o Polymarket abriu uma linha de apostas para quando o modelo seria publicado).
Isso aumentou a expectativa das pessoas, principalmente com a promessa de que o modelo revolucionaria o uso da IA aplicada ao frontend. Como essa é minha área de origem, fiquei particularmente interessado pelo resultado: seria finalmente o fim do frontend?
Confesso que toda essa antecipação ajudou com minha frustração, uma vez que não achei o modelo particularmente surpreendente, em que pese o claro avanço em relação às versões anteriores. O grande mérito do Google com esse lançamento foi colocar o Gemini em pé de igualdade com os concorrentes, uma vez que ele havia ficado consideravelmente para trás.
O principal problema do Gemini 3, na minha visão, é sua distribuição. A única forma que julgo conveniente de usá-lo no momento é via Cursor. É verdade que o Google lançou o Antigravity, yet another VS Code fork, cujo principal mérito é integrar diretamente com seu ecossistema, como o Nano Banana e o Chromium.
De fato o lançamento do Antigravity foi que mais chamou minha atenção. Mas minha empolgação foi refreada por alguns motivos:
Muitas reclamações de dificuldade de utilizar o modelo, baixo rate limits e impossibilidade de upgrade (literalmente pessoas querendo pagar parar usar e não conseguindo).
Um seríssimo problema de segurança, o que indica o caráter um tanto relaxado do lançamento.
O sentimento incômodo que aqueles que são velhos o suficiente tem de testar novos produtos do Google, dado sua fama de descontinuá-los de forma repentina.
Sendo assim, a grande notícia pro Google de fato foi o lançamento do Nano Banana Pro, seu modelo atualizado de geração de imagem que é sem dúvida o melhor do mercado.
O infográfico acima foi incrivelmente gerado apenas com o Nano Banana Pro, de modo que é seguro dizer que o problema de gerar imagens com textos foi resolvido.
GPT 5.1 Codex Max
Se quando o GPT 5 foi lançado o Sam Altman, CEO da empresa, tinha a intenção de reduzir a oferta de modelos e confiar em um auto roteamento da IA para o nível de esforço adequado, esse plano falhou. Isso porque a família 5.1 hoje conta com o GPT 5.1, GPT 5.1 Codex, GPT 5.1 Codex Mini e GPT 5.1 Codex Max, cada um deles com diferentes níveis de reasoning – este último oferecendo um inédito modo extra high!
De fato o lançamento da OpenAI foi o mais silencioso, pouco antecipado, e portanto subestimado. Para minha desgraça, eu havia gravado um vídeo onde cravava que o GPT 5.1 Codex era o melhor modelo do momento, e programado que ele fosse ao ar justamente no dia que terminou sendo o lançamento do Gemini 3.
O vídeo se tornou vítima do péssimo timing, principalmente porque no dia seguinte a OpenAI decidiu lançar um novo update, o modo Max.
De qualquer forma, o que chamou minha atenção nas melhorias foi a capacidade do modelo de se adaptar à dificuldade da tarefa. Tipicamente eu utilizava o Codex sempre com o máximo nível de reasoning, o que tornava-o muito lento para tarefas cotidianas, impossibilitando-o de se tornar um agente generalista. Mas com o novo GPT 5.1 o modelo ficou bem melhor em definir o esforço computacional adequado para cada tarefa, tornando-o muito mais agradável como daily driver.
Impossível ignorar o esforço notável da OpenAI em controlar o preço mesmo ao lançar modelos melhores. Enquanto o Gemini 3 veio mais caro que seu predecessor, o GPT 5.1 se manteve com o mesmo preço, 4x mais barato que o flagship da Anthropic!
Claude Opus 4.5
Ah, o Opus 4.5! O que falar desse modelo que já foi o meu favorito? Ele foi o último a ser lançado, o mais caro, mas também o que prometeu o maior score no SWE-bench (provavelmente o único benchmark que vale a pena prestar atenção para os programadores).
Mesmo sendo ~60% mais caro que o Sonnet 4.5, a Anthropic prometeu um custo efetivo menor, de modo que surpreendentemente o Opus 4.5 se tornou o padrão para os assinantes do plano Max. Curiosamente, o último tema desta humilde newsletter foi justamente sobre o verdadeiro custo de um LLM, onde argumento (agora com o respaldo da Anthropic) que devemos prestar atenção no custo total para se resolver uma tarefa, não apenas os preços por token.
Nos meus testes o Opus 4.5 faz um excelente trabalho em planejar a tarefa. É também digno de nota o esforço que a Anthropic faz para mitigar os problemas de seus modelos: se o Opus tem um custo por token mais alto, ele compensa precisando de menos tokens; se ele tem uma tendência a sair escrevendo código sem necessidade, agora o plan mode consegue controlá-lo ainda mais.
Infelizmente um problema ainda continua: a janela de contexto é a menor dos 3 – metade do GPT 5.1 e um quinto da do Gemini 3. Isso faz com que em tarefas maiores, mesmo com o melhor plano de execução, baste apenas 1-2 prompts para que o contexto seja compactado, o que invariavelmente leva a uma perda de performance.
Ainda assim o Claude Code continua de longe sendo o melhor produto, a melhor CLI e a melhor interface, o modelo mais equilibrado, perfeito para sustentar seus agentes generalistas.
Veredito: qual é o melhor?
Vamos então ao que interessa: qual dos 3 modelos é o melhor e qual você deve utilizar no seu dia a dia? A resposta é… depende.
Sim, depende pois como disse anteriormente, cada modelo cumpre bem uma função específica. Há modelos que performam melhor em um determinado tipo de tarefa, pior em outras. Por isso é besteira ficar argumentando “quem é o melhor”. Nesse nível, todos são bons o suficientes e conseguiriam ser tranquilamente o modelo principal de um programador em 2025.
Mas como esse é o meu blog, tomo a liberdade de dar a minha opinião baseada nos meus casos de uso: desenvolvedor web e criador de conteúdo.
Se eu tivesse que escolher apenas um modelo, ficaria com o GPT 5.1 Codex. Por algumas razões:
Fácil de assinar, disponível junto com o ChatGPT que é a IA mais utilizada do mundo e portanto a que você irá achar mais documentação, mais discussões, mais tutoriais, etc.
Preço de $20 entrega modelo top-de-linha com rate limit decente.
Incrível aderência ao prompt e o melhor executor de todos. Dê um plano de implementação para ele e fique tranquilo que será cumprido.
Por conta disso, acaba sendo o melhor para tarefas objetivas ou de fácil verificação (lógica no geral, banco de dados, backend).
Especificamente para o frontend, ou seja, a habilidade de criar boas UIs, minha escolha seria o Claude Opus 4.5. Nos meus testes ele foi o melhor nesse sentido, balanceando um bom design com funcionalidade.
No entanto notei alguns problemas com o Opus na hora de executar a implementação, em que pese ele gerar os melhores planos. Porém, como tenho acesso ao GPT 5.1 Pro, esse é meu favorito para planejar features complexas ou projetos inteiros. No entanto, como esse modelo é acessível somente via interface do ChatGPT e toma um tempo considerável, na maior parte das vezes defiro ao Opus 4.5.
E o Gemini? Como disse acima, infelizmente ele ainda não está disponível em um ambiente maduro o suficiente para quem programa profissionalmente. Sim, ele gera artefatos excelentes na interface web. Verdade, você pode utilizá-lo de graça pelo AI Studio. Mas e para o programador que precisa de um modelo robusto e confiável para o dia a dia? O Gemini CLI é uma piada de mau gosto perto do Claude Code, o Antigravity ainda é um brinquedo, e o desempenho no Cursor fica abaixo do seu uso nas plataformas “nativas” do Google, sem falar no custo que termina mais elevado.
O que mudou?
Sinceramente? Nada. Se antes dessa semana maluca minhas preferências eram, na ordem, OpenAI, Anthropic e Google, depois de todas as atualizações mantenho o mesmo ranking.
Por isso que manter-se atualizado não precisa ser um fardo. No nível que estamos, qualquer melhoria é incremental, e não vale a pena sair do seu caminho para testar tudo que sai por aí. Do jeito que as coisas são, se alguma atualização for flagrantemente melhor, das duas uma: ou você vai notar a diferença imediatamente, ou a concorrência vai se equiparar antes que você perceba.



Estava assinando o plano do claude code max, e já tem alguns dias que faço o teste com o Gemini 3.0 dentro do Antigravity, estou conseguindo fazer inclusive no design coisas mais refinadas.
Fiz alguns pequenos testes de manipulação de banco de dados, e até agora estou gostando, estou usando o Gemini 3 pro (Low) para tudo (com isso não chego no limite de uso até agora nunca cheguei).
Uma coisa que percebi até agora é que eu preciso ser mais explicativo nas tarefas, e precisa etapa por etapa, não pedir tudo de uma vez. Estou observando como está se saindo e fazendo testes, para eu ter algo mais concreto para uma opinião.