BrunoP.Blog

Quanto custa um prompt? Calculei pra 8 modelos de IA e mostro onde está o dinheiro

Muita gente escolhe o modelo de IA por hábito — e paga mais do que precisa. Construí o PromptTools: você cola o prompt, ele estima os tokens, compara o custo entre 8 modelos e projeta o gasto por volume. Tudo no navegador, sem API, sem cadastro.

Outro dia tomei um susto bobo: abri a fatura de uma API de IA de um projetinho e o valor estava bem acima do que eu imaginava. Fui investigar e a causa era a mais boba possível — eu escolhia o modelo no hábito. Usava o "top de linha" pra tudo, inclusive pra tarefas simples que um modelo 100× mais barato resolveria igual. Nunca tinha parado pra comparar.

Quando fui ver os números, a diferença era absurda. O mesmo prompt, na mesma tarefa, custava cerca de US$ 0,0007 num modelo aberto e US$ 0,08 no topo de linha — mais de 100× a diferença. Multiplica isso por milhares de chamadas por mês e o "errei o modelo" vira dinheiro de verdade. Foi aí que construí o PromptTools.

O problema: a gente escolhe modelo por vibe, não por custo

Quem mexe com API de LLM conhece a cena. Os furos são sempre estes:

  • Modelo no hábito. Você usa o que está acostumado (ou o mais "esperto") pra tudo — inclusive pra classificar um texto curto, onde um modelo barato entrega o mesmo resultado.
  • Token é invisível. Você não "vê" o tamanho do prompt. Um system prompt gordo, um contexto colado inteiro, e o custo por chamada infla sem você perceber.
  • Input ≠ output. O preço do que entra é diferente do que sai, e o output costuma ser o mais caro. Ignorar isso erra a conta feio.
  • A surpresa só aparece na escala. US$ 0,08 por chamada parece nada. Vezes 50 mil chamadas/mês vira uma conta que dói — e aí já era.

O problema central: a decisão de qual modelo usar quase nunca passa por uma comparação de custo lado a lado. Falta a régua.

A solução: o PromptTools, com comparação lado a lado

O PromptTools é a régua. Você cola o prompt e ele te mostra, na hora: quantos tokens tem, quanto custa (input + output + multimodal) e — o pulo do gato — o custo do mesmo prompt em todos os modelos, lado a lado, do mais barato ao mais caro. Bate o olho e vê que dá pra trocar o "top de linha" por um modelo 20× mais barato sem perder qualidade naquela tarefa.

É grátis, sem login, e roda 100% no navegador — seu prompt (que muitas vezes é o seu segredo) não sai da máquina.

O que ele te dá

  • Comparação de modelos. O mesmo prompt em GPT-5, Claude Opus 4.8, Gemini 3, DeepSeek, Llama e cia., ordenado do mais barato ao mais caro, com o "quantas vezes mais caro" de cada um.
  • Projeção de escala. Informe quantas requisições por mês e veja o custo mensal estimado — onde o erro de modelo realmente aparece.
  • Contexto: chat vs API. Uma barra mostra se o seu prompt + resposta cabe no limite seguro do chat ou só na API (e avisa quando estoura, ou quando o Gemini entra na faixa de preço dobrado).
  • Densidade, templates e PDF. Um "termômetro" de densidade do prompt, templates salvos no navegador e exportação de um relatório de custo pra mandar pro cliente.

Comparar o custo do meu prompt

Os preços são estimativas de referência (USD) e fáceis de atualizar — sempre confira a tabela oficial do provedor antes de fechar um orçamento.

Perguntas frequentes

Como ele estima os tokens? Pela regra prática ≈ caracteres ÷ 3,5 (boa pra orçar; o exato depende do tokenizer de cada modelo). Imagem e áudio entram quando você informa.
Os preços estão sempre certos? São estimativas de referência (USD), num arquivo fácil de atualizar — confira a tabela oficial do provedor, preços mudam.
Meu prompt é enviado pra algum servidor? Não — roda 100% no navegador; templates ficam no seu localStorage.
Pra quem é? Dev e builder que usa APIs de LLM e quer escolher o modelo certo pelo custo, projetar o gasto mensal e auditar contexto.