Tutorial sobre como usar o Ollama com o Claude Code para rodar…

INEMA

gemma4:e2b # leve (≈4GB RAM) gemma4:e4b # padrão (≈8GB RAM) gemma4:26b # intermediário (≈14GB RAM) gemma4:31b # topo (≈19GB RAM) ⭐ recomendado

dois exemplos acima

export ANTHROPIC_MODEL=gemma4:31b ollama launch claude

ollama pull gemma4:31b ollama launch claude

🧠 O que é `ollama serve`?⌗

É o comando que liga o “servidor local de IA” do Ollama.

Quando você roda:

ollama serve

👉 Você está basicamente dizendo:

“Fica rodando em segundo plano esperando requisições de IA aqui na minha máquina”

🔌 O que ele faz na prática⌗

Abre uma API em:

http://localhost:11434

Permite que outros programas (tipo Claude Code) conversem com o modelo
Mantém os modelos carregados na memória

💡 Analogia simples⌗

ollama serve = ligar o motor 🚗
ollama run gemma4 = dirigir
claude = passageiro que usa o motor

🤔 E por que usar `ollama launch claude`?⌗

Essa é a parte mais importante 👇

❌ Se você rodar só:⌗

claude

👉 O Claude Code vai tentar:

Conectar na API da Anthropic (internet)
Usar modelos pagos (Sonnet / Opus)
Cobrar uso 💸

✅ Já com:⌗

ollama launch claude

👉 O Ollama faz automaticamente:

Redireciona o Claude Code pra sua máquina local
Faz o Claude achar que está falando com Anthropic
Usa o modelo local (ex: gemma4)
Zero custo 💰

🔧 O que esse comando faz por baixo dos panos⌗

Equivale a isso:

export ANTHROPIC_BASE_URL=http://localhost:11434 export ANTHROPIC_AUTH_TOKEN=ollama export ANTHROPIC_MODEL=gemma4:31b claude

Ou seja:

👉 Ele engana o Claude Code (no bom sentido 😄) pra usar o Ollama

🧩 Quando usar cada um⌗

Comando	Quando usar
`ollama serve`	Quando quer rodar API manualmente
`ollama run gemma4`	Testar modelo direto
`claude`	Usar Claude real (pago)
`ollama launch claude`	Usar Claude Code com IA local (GRÁTIS)

⚡ Resumo ultra simples⌗

👉 ollama serve = liga o servidor local de IA

👉 claude = usa IA da internet (paga)

👉 ollama launch claude = usa IA local (Gemma) dentro do Claude Code

🔥 Regra de ouro⌗

Se você quer:

💸 não pagar → use ollama launch claude
🧠 melhor qualidade → use claude (oficial)
⚙️ controle manual → use ollama serve

export ANTHROPIC_BASE_URL=localhost:11434 ↗ export ANTHROPIC_AUTH_TOKEN=ollama export ANTHROPIC_MODEL=gemma4:31b claude

export ANTHROPIC_BASE_URL=localhost:11434 ↗ export ANTHROPIC_AUTH_TOKEN=ollama export ANTHROPIC_MODEL=qwen3.5 claude

este é o comando para vc rodar cada vez q entrar no claude

Você pode usar o Ollama com o Claude Code de duas formas: pela integração pronta do próprio Ollama, ou apontando manualmente o Claude Code para a API compatível com Anthropic do Ollama. A documentação oficial do Ollama hoje recomenda a integração ollama launch claude, que configura e inicia o Claude Code sem precisar editar arquivos de configuração nem definir variáveis manualmente.

O caminho mais simples é este:

```# 1) instale o Ollama

macOS: via app ou Homebrew⌗

Linux/Windows: baixe no site oficial⌗

2) baixe um modelo⌗

ollama pull qwen3.5

3) abra o Claude Code usando o Ollama⌗

ollama launch claude```

O comando ollama launch existe justamente para “configurar e iniciar” integrações suportadas, e a página de integração do Claude Code confirma que ele funciona sobre a API Anthropic-compatible do Ollama.

Se você quiser fazer manualmente, o Ollama expõe uma API compatível com Anthropic. Nesse caso, você inicia o servidor local do Ollama e depois aponta o Claude Code para http://localhost:11434. A documentação do Ollama confirma essa compatibilidade e cita explicitamente o Claude Code como um dos clientes suportados.

Exemplo manual no macOS/Linux:

ollama serve

Em outro terminal:

export ANTHROPIC_BASE_URL=http://localhost:11434 export ANTHROPIC_AUTH_TOKEN=ollama export ANTHROPIC_MODEL=qwen3.5 claude

Isso funciona porque o Ollama implementa a compatibilidade com a Messages API da Anthropic, permitindo que ferramentas como Claude Code conversem com modelos locais pelo endpoint do Ollama. (Ollama)

Um detalhe importante: a própria documentação atual do Ollama, na integração com Claude Code, destaca exemplos com modelos como qwen3.5, glm-5:cloud e kimi-k2.5:cloud. Então, embora você possa testar outros modelos, a experiência tende a ser melhor com modelos de código ou modelos explicitamente recomendados pelo Ollama para esse fluxo.

Se der erro, os problemas mais comuns são: Ollama não estar rodando, o modelo ainda não ter sido baixado, ou o Claude Code não estar instalado no sistema. O Ollama também oferece um menu interativo via ollama no terminal e mostra integrações suportadas em “More…”, além da referência de CLI para ollama launch.

Se quiser, eu posso te passar agora um passo a passo exato para o seu sistema: macOS, Linux ou Windows.

Ollama no Claude Code

chatgpt.com ↗