Discussão sobre este post

Avatar de User
Avatar de William Rodrigues

Estou configurando um servidor local com Kimi K2 full na 4090 (24 GB VRAM) e Claude como fallback. A ideia é economizar tokens processando o grosso localmente e só escalar para Claude quando houver necessidade (ex.: raciocínio extenso ou geração de documentos formais). Também pretendo usar RAG com banco vetorial para reduzir contexto e custo em cloud. Alguma recomendação para otimizar ainda mais esse balanceamento?

Ver comentário completo
6 comentários a mais...

Nenhuma publicação

Pronto para mais?