A economia da IA
Operar um modelo de Inteligência Artificial é mais parecido que fazer um espresso do que você imagina.
Desde que destrinchei qual modelo de IA eu utilizo para cada circunstância, houve um certo drama no cenário das ferramentas de IA disponíveis para o público. Em particular, o Cursor (até então o SaaS a crescer mais rápido na história1, supostamente superado pelo Lovable recentemente2), conheceu seu inferno astral ao mudar sua política de preços discretamente, quebrando não só a confiança de muitos desenvolvedores como também suas contas bancárias.
Uma alternativa que se apresentou como preferida da comunidade (e minha também), é o Claude Code, que já falei extensamente por aqui, inclusive pouco após seu lançamento. No entanto, a equipe da Anthropic tratou de deixar muitos programadores desconfiados ao anunciar mudanças no seu plano Max, que passarão a ter limites semanais além das tradicionais sessões de 5 horas.
Embora a notícia seja temerosa, se os números oficiais confirmarem o que acontecerá na prática, não deve ser uma mudança tão ruim assim. Por exemplo, assinantes do plano Max de $100 (meu caso) ainda teriam de 20-40h por dia de inferência disponível – o que possibilita rodar múltiplas instâncias da IA em paralelo. Em outras palavras, se você não está fazendo nada fancy com o Claude Code, não deve ser afetado.
Seja como for, os acontecimentos das últimas semanas deixam algo claro: o modelo de assinatura não é sustentável para as empresas de IA, pelo menos não para 99% delas. Para entender o porquê disso, precisamos diferenciar o custo de treinamento do custo de inferência.
Quando uma empresa lança um novo modelo (ex: Claude Opus 4, ChatGPT o3, Gemini 2.5 Pro, etc) ela incorre em um grande custo de treinamento, o investimento necessário para “parir” o modelo.
Uma vez disponível, sempre que o modelo for utilizado o provedor incorre no chamado custo de inferência. Em outras palavras, o custo de inferência é quanto custa para que um modelo treinado gere um resultado (faça uma predição, gere texto ou imagens, etc). Naturalmente, quanto maior e mais complexo o modelo, maior o custo de inferência.
É como comprar uma máquina de espresso: você tem um investimento inicial alto (“treinamento”), e um custo para cada café preparado (“inferência”): grãos, água, eletricidade, tempo, etc.
Por que é importante entender isso? Pois o modelo de assinatura obviamente escancara um flanco para que power users possam explorar o fato de pagarem o mesmo que quem usa muito menos. Na maior parte das vezes, esse sangramento é coberto e subsidiado pelas Venture Capitals ou por financiamento barato vindo de uma economia acostumada a juros baixos e uma bolsa sempre ascendente. Mas não será sempre assim.
Imagine se sua conta de luz fosse por assinatura e você escolhesse o plano de R$ 200. Tão logo esse modelo fosse implantado, alguns começariam a usar a energia “ilimitada” para minerar Bitcoin, climatizar toda a casa, carregar baterias off-grid, etc. Seria absolutamente insustentável.
Portanto, o Cursor cobrando por uso baseado no custo do modelo mais um markup pela conveniência é uma consequência natural. Alternativas para zerar essa taxa de conveniência já existem, como o Cline, ou o próprio GitHub Copilot conectado à sua API key do OpenRouter.
Seria o futuro então open source? Em julho diversos modelos chineses promissores surgiram, inclusive o Qwen 3, cujas capacidades agênticas voltadas para programação surpreenderam. Embora seja difícil competir em qualidade com VC-funded companies ou Big Techs cujos bolsos comportam trilhões de dólares, é sim possível que em breve tenhamos modelos bons o suficiente para a maior parte das tarefas de programação, rodando offline em máquinas comerciais e acessíveis.
Nessa race to the bottom, fica claro que quem detém uma estratégia mais vertical, controlando tanto o modelo quanto o produto, apresenta uma vantagem competitiva. É o caso da OpenAI, cujos bolsos fundos permitem sangrar bastante enquanto captura o mercado; e da Anthropic, com menor poderio financeiro, mas com um produto genuinamente bom como Claude Code e focado no nicho de programação.
Ainda assim, e mesmo com o nerf anunciado para agosto, é difícil ver um futuro para a Anthropic onde a receita das assinaturas seja suficiente. Descobri por acaso uma ferramenta extremamente elegante chamada ccflare que intercepta as requisições feitas pelo Claude Code e condensa-as em um dashboard de custo e tokens. Em uma sessão de algumas horas (alternando entre Sonnet 4 e Claude 4), gastei quase 10M de tokens e cerca de $14.
Esse seria o custo da API, caso você utilizasse os mesmos modelos via OpenRouter, ou estourasse o limite da sua conta do Cursor. Felizmente, tudo estava incluso na minha assinatura de $100 do Claude Code. Se extrapolássemos esse gasto para o mês, no entanto, o custo projetado seria acima de $300!
Portanto, utilize a IA, aproveite suas facilidades e ganhos de produtividade, mas não se torne dependente de uma só ferramenta. Como diriam os americanos, o rug pull eventualmente virá. Esse artigo não é em tom pessimista, nem uma crítica às empresas que se esforçam para treinar os melhores modelos a custos cada vez menores, mas uma tentativa sóbria de entender a economia da IA, para que estejamos sempre um passo a frente.
Segundo números do próprio Cursor, o produto atingiu 100M de ARR em 12 meses.
Já o Lovable orgulhou-se de atingir a mesma marca em 8 meses, o que gerou uma certa descrença da comunidade. Esses números não são públicos.




Todo mundo se anima com “ilimitado” até lembrar que IA não é streaming: consumir mais tem preço real para quem oferece. A era do plano “tudo incluso” dura até alguém perceber que o cliente heavy user é, na real, prejuízo puro.