O mito de que a IA só funciona porque é subsidiada
Preço não é custo: o erro por trás do debate sobre subsídios na IA
Tenho notado uma preocupação crescente entre aqueles que utilizam IA para programar – a narrativa é que precisamos aproveitar os benefícios dos modelos enquanto há tempo, já que eles são altamente subsidiados, e quando a fonte inevitavelmente secar, teremos que nos reacostumar a trabalhar sem o auxílio da IA.
Esse argumento é absurdo e no texto de hoje quero mostrar o porquê.
Em primeiro lugar, precisamos entender por qual razão esse pensamento tem se tornado senso comum. De forma mais notável, a maior discrepância de preço parece ocorrer entre os planos por assinatura do Claude Code e seu custo equivalente na API. Qualquer um que tenha utilizado os modelos da Anthropic nessas duas formas sabe que a assinatura via Claude Code proporciona um uso muito maior do que se fosse feito via API – como é o caso do Cursor.
Essa visão foi potencializada por um artigo recente da Forbes que casualmente publicou:
According to a person familiar with the company’s internal analysis, Cursor estimated last year that a $200-per-month Claude Code subscription could use up to $2,000 in compute, suggesting significant subsidization by Anthropic. Today, that subsidization appears to be even more aggressive, with that $200 plan able to consume about $5,000 in compute, according to a different person who has seen analyses on the company’s compute spend patterns.
Ou seja, de acordo com uma fonte interna do Cursor, o limite disponível pagando $200 no plano Max corresponderia a um gasto equivalente de $5000 na API. Esse número é plausível1, e é também a razão pela qual eu sempre recomendei o Claude Code para qualquer um que tencionasse utilizar o Opus ou Sonnet como daily driver. É claramente mais vantajoso.
No entanto, concluir daí que a Anthropic subsidia 95% dos custos do Claude Code é equivocado. Isso seria o mesmo que comparar um custo médio (previsível) com um custo sob demanda (imprevisível). É como dizer que uma academia que cobra R$ 50 a diária está subsidiando todos os clientes ao cobrar R$ 200 por mês! O custo mensal cai drasticamente porque, na média, os padrões de uso são previsíveis, o que permite que a academia faça otimizações muito similares às que fariam um provedor de IA: realocar mais ou menos funcionários dependendo do horário, economizar energia prevendo a demanda, oferecer prioridade em horários específicos, etc.
Quando um provedor de IA vende acesso via API, ele está vendendo uma combinação de custo de inferência, posicionamento comercial e margem.. Ou seja: para executar esse modelo nessa determinada máquina (que entrega uma certa velocidade), o custo é X. Como é um negócio que precisa se sustentar, adiciona-se uma margem, em teoria governada pelo livre mercado.
Considere por exemplo o Kimi K2.5, modelo chinês open-source. No momento que escrevo, o provedor Fireworks oferece esse modelo por $0.60/M de input tokens e $3.00/M de output tokens. O DeepInfra, seu concorrente, oferece por $0.45/M e $2.25/M. Sites como o OpenRouter, além de mostrar o preço dos principais provedores, também aloca sua requisição de forma inteligente considerando preço, velocidade, uptime, etc.
É justo, portanto, dizer que modelos da capacidade do Kimi K2.5 conseguem ser ofertados de forma comercialmente viável nessa faixa de preço. Pra efeitos de comparação, o GPT 5.4 é ~5x mais caro e o Opus 4.6 é ~10x mais caro. Quem usou esses modelos sabe que, embora os flagship da OpenAI e da Anthropic sejam definitivamente superiores, provavelmente não são 10x superiores (se é que tal comparação pode ser feita). Nos meus testes, arrisco dizer que o Kimi K2.5 é compatível com o que era o Sonnet 4 ou a primeira versão do GPT 5, modelos de 8 a 10 meses atrás.
Ainda assim, mesmo que você considere o Opus 4.6 10x superior ao Kimi K2.5, isso não significa que ele é 10x maior, ou 10x mais caro para ser servido. Em suma, a diferença de inferência entre ambos os modelos é muito provavelmente bem menor que isso.
Antes de continuar, é preciso deixar claro que os modelos da Anthropic são privados, portanto o máximo que conseguimos fazer é especular, embora isso não nos impeça de ter certo grau de confiança nessas especulações.
Para podermos entender porque é provável que tais modelos sejam compatíveis em tamanho, precisamos entender a diferença entre parâmetros totais e parâmetros ativos. Muitas vezes, quando um novo modelo é lançado, seu tamanho é destacado – o que traduz-se para a quantidade de parâmetros totais. No entanto, arquiteturas mais modernas do tipo MoE (Mixture of Experts) apresentam uma quantidade muito menor de parâmetros ativos, o que basicamente significa que apenas uma porção do total é usada a cada token gerado.
Imagine uma empresa com 10.000 funcionários. O número pode impressionar, mas isso não significa que todas essas pessoas estão trabalhando no mesmo problema ao mesmo tempo. Pelo contrário, é muito mais eficiente ter as pessoas certas trabalhando nas etapas adequadas (parâmetros ativos). Para efeito de comparação, o Kimi K2.5 tem 32B parâmetros ativos de 1T de parâmetros totais (3,2%) e o DeepSeek-V3 tem 37B de 671B (5,5%).
Ora, assumindo dois modelos sendo executados no mesmo hardware com um output similar de tokens por segundo (TPS), é justo assumir que ambos são compatíveis em tamanho. Não necessariamente do mesmo tamanho ou exatamente iguais, mas da mesma ordem de grandeza. Isso significa que o diferencial de qualidade entre eles não se explica pela capacidade computacional, mas sim por otimizações tipicamente alcançadas através de uma etapa forte de R&D (ou, como falamos por aqui, Pesquisa & Desenvolvimento). Em outras palavras, é altamente provável que o diferencial de modelos como Opus e ChatGPT não seja o subsídio do custo de inferência, mas sim uma equipe altamente capacitada para treinamento e inovação.
De fato, existem muitas variáveis a serem exploradas em um modelo mesmo dentro do mesmo hardware e arquitetura. Por exemplo, técnicas de reinforcement learning e pós-treinamento, dados melhores, tuning para tarefas específicas, etc. Isso não significa que os modelos closed-source da Anthropic não possam ser maiores ou contar com mais parâmetros ativos, mas dificilmente isso seria o suficiente para uma discrepância tão grande de preço.
A pergunta natural então passa a ser: como os modelos chineses conseguem ser tão mais baratos? Por acaso eles não investem em pesquisa?
É sabido que muitos deles se valem de distillation attacks, como a própria Anthropic acusou recentemente. De forma simplificada, os laboratórios chineses treinam seus modelos em cima dos modelos já treinados da Anthropic (e similares), o que é muito mais barato. É como aprender com um professor que por sua vez aprendeu diretamente com as fontes primárias. Embora laboratórios como a Anthropic condenem tais técnicas como contrárias aos seus termos de uso, há de se lembrar que os mesmos laboratórios também treinam seus modelos sem consentimento explícito da maior parte de suas fontes. Deixo a questão da moralidade de ambos os lados para o leitor.
Portanto, podemos garantir que não há subsídio ou que tanto a Anthropic quanto a OpenAI operem no lucro? Absolutamente não. Do contrário, é extremamente provável que eles queimem caixa – não para subsidiar inferência, mas sim para investir em pesquisa e treinamento. É comum que empresas desse porte sobrevivam à base de investidores, abundantes em épocas de juros baixos. Também é verdade que em momentos de estresse, incertezas e guerras – quando o custo do dinheiro aumenta – esse investimento possa cessar, colocando empresas extremamente alavancadas em maus lençóis, o que tende a causar demissões em massa e custo repassado aos usuários.
Ainda assim, achar que o ecossistema da Inteligência Artificial é frágil ao ponto de só se sustentar por subsídios é no mínimo ingênuo. Modelos recentes dos laboratórios chineses já comprovam a viabilidade econômica de se oferecer modelos extremamente competentes a frações do preço, ainda que parte do seu sucesso possa ser atribuído a técnicas controversas.
De onde vem o grande diferencial de produtos como Claude Code e Codex, então? Ora, eles são os produtos eleitos pelos laboratórios que mais investem em R&D, e portanto seus modelos são otimizados para tal, fato que muitos parecem ignorar. Ainda assim, é bom que se diga que é possível atingir desempenhos ainda melhores com harnesses customizados, e que há muitas otimizações a serem feitas quando se controla o stack verticalmente, justamente o caso do Claude Code e do Codex.
Portanto, é falso que o ecossistema da IA se equilibre instavelmente sobre o subsídio de grandes fundos de investimento, e que a “bolha da IA” está prestes a estourar – pelo menos no que diz respeito ao uso dos modelos em aplicações tipo as que você e eu desenvolvemos. Note que não estou dizendo que o valuation das empresas de IA é justo ou que não possa haver um sell-off nesse mercado. Mas se amanhã, ao levantar, acordássemos em um mundo onde a Anthropic não existisse, lamentaríamos sim a perda de um dos líderes de mercado, mas não voltaríamos a programar “na mão” como muitos parecem suspeitar. Comemos do fruto proibido, e voltar atrás já não é mais uma opção.
Para uma análise mais aprofundada, leia No, it doesn't cost Anthropic $5k per Claude Code user.



Boa análise, artigo bem sóbrio.