Estou configurando um servidor local com Kimi K2 full na 4090 (24 GB VRAM) e Claude como fallback. A ideia é economizar tokens processando o grosso localmente e só escalar para Claude quando houver necessidade (ex.: raciocínio extenso ou geração de documentos formais). Também pretendo usar RAG com banco vetorial para reduzir contexto e custo em cloud. Alguma recomendação para otimizar ainda mais esse balanceamento?
Não, acho que o setup é bem decente. Tenho minhas dúvidas se o RAG vai ser tão bem sucedido quanto simplesmente chamar o gemini-cli direto com os free requests. Eu tentaria ambos visando simplificar o processo.
Concordo que o gemini-cli ficou tentador depois das 30 requisições grátis/dia. Para perguntas rápidas ele resolve bem.
Mesmo assim estou mantendo o RAG local por três motivos:
1. Custo – com Kimi K2 + base vetorial mando ~35 tokens para o cloud e corto ~80 % do gasto com Claude-4.
2. Cobertura – em prompts > 15 k tokens o Gemini 2 Ultra às vezes perde referências; o RAG garante que só o que importa sobe.
3. Resiliência – se amanhã o Google limitar ou bloquear, meu pipeline continua 100 % on-prem.
Hoje uso um roteador dinâmico: se a perplexity do Kimi passar de 30, faço fallback para Claude-4 (ou pro próprio Ultra). Ativei também o novo MoE 4-bit do Kimi, então a 4090 aguenta tranquilo.
Vou rodar o cenário “gemini-cli puro” em produção por algumas semanas para comparar simplicidade × custo e depois te conto os números.
Uso o Nexus como endpoint único: ele roteia intent=code para Kimi-K2; se falhar, cai no GPT-5 e, se ainda precisar, no Claude-4; intent=docs vai para Kimi-K2, depois O3 e, se necessário, também Claude-4; toda troca é automática via flag needs_fallback, sem Nginx — Traefik só se eu expor fora da LAN.
Estou configurando um servidor local com Kimi K2 full na 4090 (24 GB VRAM) e Claude como fallback. A ideia é economizar tokens processando o grosso localmente e só escalar para Claude quando houver necessidade (ex.: raciocínio extenso ou geração de documentos formais). Também pretendo usar RAG com banco vetorial para reduzir contexto e custo em cloud. Alguma recomendação para otimizar ainda mais esse balanceamento?
Não, acho que o setup é bem decente. Tenho minhas dúvidas se o RAG vai ser tão bem sucedido quanto simplesmente chamar o gemini-cli direto com os free requests. Eu tentaria ambos visando simplificar o processo.
Valeu demais pelo feedback, Rafa!
Concordo que o gemini-cli ficou tentador depois das 30 requisições grátis/dia. Para perguntas rápidas ele resolve bem.
Mesmo assim estou mantendo o RAG local por três motivos:
1. Custo – com Kimi K2 + base vetorial mando ~35 tokens para o cloud e corto ~80 % do gasto com Claude-4.
2. Cobertura – em prompts > 15 k tokens o Gemini 2 Ultra às vezes perde referências; o RAG garante que só o que importa sobe.
3. Resiliência – se amanhã o Google limitar ou bloquear, meu pipeline continua 100 % on-prem.
Hoje uso um roteador dinâmico: se a perplexity do Kimi passar de 30, faço fallback para Claude-4 (ou pro próprio Ultra). Ativei também o novo MoE 4-bit do Kimi, então a 4090 aguenta tranquilo.
Vou rodar o cenário “gemini-cli puro” em produção por algumas semanas para comparar simplicidade × custo e depois te conto os números.
Abraço e obrigado
Com certeza, seu setup é bem mais resiliente e future-proof. Como você faz para rotear os requests? Utiliza algum proxy?
Uso o Nexus como endpoint único: ele roteia intent=code para Kimi-K2; se falhar, cai no GPT-5 e, se ainda precisar, no Claude-4; intent=docs vai para Kimi-K2, depois O3 e, se necessário, também Claude-4; toda troca é automática via flag needs_fallback, sem Nginx — Traefik só se eu expor fora da LAN.
Top demais, parabéns pelo setup.
Mandei uma sugestão de vídeo lá nos comentários do canal YouTube.
Cursor AÍ quer se comparar com claude code, foi o que pareceu.