Documentação e guia de implantação do sistema "Banana Squad" — uma…
INEMA
Vou te dar o passo a passo direto, prático para:
- ✅ Implantar o sistema
- ✅ Usar o sistema
Vou assumir que você quer rodar do jeito original (Claude Code + Gemini 3 Pro).
🚀 PARTE 1 — IMPLANTAÇÃO (SETUP)⌗
🔹 PASSO 1 — Criar pasta do projeto⌗
mkdir banana-squad
cd banana-squad
🔹 PASSO 2 — Instalar dependências⌗
pip install google-genai Pillow python-dotenv
🔹 PASSO 3 — Criar arquivo .env⌗
Na raiz do projeto:
GEMINI_API_KEY=sua_chave_aqui
Pegue a chave em: https://ai.google.dev/
🔹 PASSO 4 — Criar estrutura de pastas⌗
mkdir reference-images
mkdir outputs
mkdir -p .claude/skills/banana-image-gen
Estrutura final deve ficar assim:
banana-squad/
│
├── .env
├── CLAUDE.md
├── paperbanana.md
├── gemini-3-image-api-guide.md
├── spawn-team-prompt.md
│
├── reference-images/
├── outputs/
│
└── .claude/
└── skills/
└── banana-image-gen/
└── SKILL.md
🔹 PASSO 5 — Colocar os arquivos⌗
Copie para dentro do projeto:
- CLAUDE.md
- paperbanana.md
- gemini-3-image-api-guide.md
- spawn-team-prompt.md
- banana-squad.skill (renomeie para
SKILL.mddentro da pasta skill)
🔹 PASSO 6 — Ativar Agent Teams no Claude Code⌗
Mac/Linux:
export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
Ou no settings.json:
{
"env": {
"CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
}
}
🔹 PASSO 7 — Abrir Claude Code dentro da pasta⌗
claude .
Agora o sistema está implantado.
🧠 PARTE 2 — COMO USAR⌗
Você tem duas opções:
✅ OPÇÃO A — Manual (spawn-team-prompt)⌗
- Abra
spawn-team-prompt.md - Copie o conteúdo inteiro
- Cole no Claude Code
- Ele vai fazer as perguntas obrigatórias
- Responda
- Aguarde o pipeline rodar
- Veja imagens na pasta
outputs/
✅ OPÇÃO B — Usando o Skill (recomendado)⌗
Dentro do Claude Code, digite:
/banana-image-gen
ou o nome definido no skill.
Ele irá:
- Fazer perguntas
- Criar agentes
- Rodar pipeline
- Gerar 5 versões
- Avaliar
- Mostrar ranking
- Encerrar agentes automaticamente
🎯 Exemplo real de uso⌗
Ele vai perguntar:
- O que deseja gerar?
- Qual estilo?
- Qual proporção?
- Resolução?
- Texto?
- Referência?
- Uso final?
- Cores?
- O que evitar?
Você responde algo como:
Quero um infográfico estilo Visual Capitalist sobre investimento global em IA em 2026, 16:9, 2K, estilo editorial moderno.
Ele faz o resto.
📦 Resultado⌗
Na pasta:
outputs/
Você terá:
ai-investment-v1-faithful.png
ai-investment-v2-enhanced.png
ai-investment-v3-alt-composition.png
ai-investment-v4-style-variation.png
ai-investment-v5-bold.png
E o Critic dirá qual é a melhor.
🔁 Para iterar⌗
Você pode dizer:
Iterar sobre a v4, melhorar legibilidade do texto.
Ele roda novamente só naquela direção.
💰 Custo estimado⌗
Cada execução:
- 5 imagens 2K
-
- iteração crítica
Pode consumir tokens + custo de imagem.
Sempre usar graceful shutdown para não deixar agentes rodando.
🧩 RESUMO ULTRA DIRETO⌗
Implantar:
- Criar pasta
- Instalar dependências
- Colocar API key
- Organizar arquivos
- Ativar agent teams
Usar:
- Rodar skill
- Responder perguntas
- Aguardar
- Ver outputs
🎯 Na prática, o que esse projeto faz?⌗
Ele cria um sistema automático que gera imagens profissionais (infográficos, diagramas, thumbnails, gráficos) usando uma equipe de agentes que trabalham juntos, em vez de um único prompt simples.
🧠 Em termos simples⌗
Você diz:
“Quero um infográfico nesse estilo sobre investimento em IA em 2026.”
E o sistema:
- Faz perguntas para entender exatamente o que você quer
- Analisa imagens de referência
- Cria 5 versões diferentes
- Avalia qual ficou melhor
- Recomenda a melhor
- Permite iterar automaticamente
Tudo isso sozinho.
🔄 O que acontece por trás⌗
Em vez de fazer:
"gere um infográfico sobre IA"
Ele faz:
🧑💼 Lead⌗
Organiza tudo e faz perguntas.
🔍 Research Agent⌗
Analisa referências e extrai:
- Estilo
- Layout
- Cores
- Tipografia
- Estrutura visual
✍️ Prompt Architect⌗
Escreve 5 prompts extremamente detalhados (não lista de palavras).
🎨 Generator⌗
Chama a API do Gemini (Nano Banana) e gera 5 imagens.
🧠 Critic⌗
Avalia as imagens em:
- Fidelidade
- Clareza
- Limpeza visual
- Estética
Depois ranqueia e escolhe a melhor.
📦 O que você ganha na prática⌗
Ele serve para gerar automaticamente:
- 📊 Infográficos estilo Visual Capitalist
- 📈 Gráficos estatísticos
- 🧾 Diagramas metodológicos
- 🧠 Diagramas técnicos
- 📺 Thumbnails de YouTube
- 🖼️ Ilustrações profissionais
- 🏢 Material visual corporativo
🚀 Qual é a grande diferença?⌗
Prompt comum = tentativa única Esse sistema = processo estruturado com controle de qualidade
Ele transforma geração de imagem em:
Uma mini agência de design automatizada
📈 Por que isso importa?⌗
Porque:
- A maioria das IAs gera algo “ok”
- Esse sistema gera algo “publicável”
Ele melhora:
- Estrutura
- Clareza
- Estética
- Precisão
Vou organizar do mais conceitual → mais técnico → mais operacional.
📘 1️⃣ paperbanana.md⌗
📄 Fonte:
O que é?⌗
É o paper científico original do Google que propõe o framework PaperBanana.
Para que serve?⌗
Ele fornece:
- A arquitetura de 5 agentes
- O conceito de crítica iterativa
- O método de avaliação (4 métricas)
- A lógica de retrieval + planning + styling + critic loop
- Evidências experimentais
Em resumo:⌗
É a base teórica de tudo.
Sem ele, a Banana Squad seria apenas um pipeline de geração comum. Com ele, vira um sistema estruturado e validado academicamente.
📂 2️⃣ CLAUDE (6).md⌗
📄 Fonte:
O que é?⌗
É o arquivo de contexto do projeto no Claude Code.
Funciona como o “manual operacional” do sistema.
O que ele define?⌗
- Como o pipeline funciona
- Regras obrigatórias
- Estrutura de pastas
- Como salvar outputs
- Como usar a API
- Regras do Lead
- Regras de geração
- Como nomear arquivos
- Instalação de dependências
- Modelo padrão (gemini-3-pro-image-preview)
Em resumo:⌗
É o manual prático que transforma a teoria do paper em sistema funcional.
PaperBanana = teoria CLAUDE.md = execução prática
⚙️ 3️⃣ gemini-3-image-api-guide.md⌗
📄 Fonte:
O que é?⌗
É o guia técnico completo da API do Gemini 3 Pro (Nano Banana).
Ele contém:⌗
- Como autenticar
- Como chamar a API (Python / JS / REST)
- Como gerar imagem
- Como editar imagem
- Multi-imagem
- Multi-turn chat
- Google Search grounding
- Resoluções (1K, 2K, 4K)
- Aspect ratios
- Thinking mode
- Prompting best practices
- Limitações
Em resumo:⌗
É o manual técnico da engine de geração.
Se CLAUDE.md diz “o que fazer”, o API Guide diz “como fazer”.
🧠 4️⃣ spawn-team-prompt.md⌗
📄 Fonte:
O que é?⌗
É o mega prompt que cria a Banana Squad dentro do Claude Code.
O que ele faz?⌗
Quando você cola ele no Claude:
- Cria os agentes
- Define papéis
- Define regras
- Define como eles se comunicam
- Define como o Lead deve agir
- Define perguntas obrigatórias
- Define fluxo de execução
Em resumo:⌗
É o arquivo que literalmente dá vida à equipe de agentes.
Sem ele, não existe Banana Squad.
🍌 5️⃣ banana-squad.skill⌗
(arquivo de skill do Claude Code)
O que é?⌗
É a versão automatizada do spawn-team.
Transforma o mega prompt em um comando reutilizável.
Exemplo:
/banana-squad
Em vez de colar o mega prompt toda vez.
O que ele faz?⌗
- Spawna a equipe automaticamente
- Executa o fluxo
- Garante shutdown correto
- Evita desperdício de tokens
Em resumo:⌗
É a versão “produto” do sistema. Automatiza o processo.
🧩 Como todos os arquivos se conectam⌗
paperbanana.md
↓ (teoria)
CLAUDE.md
↓ (regras práticas)
gemini-3-image-api-guide.md
↓ (implementação técnica)
spawn-team-prompt.md
↓ (criação da equipe)
banana-squad.skill
↓ (automação final)
🏗️ Se fosse comparar com uma empresa⌗
| Arquivo | Equivalente |
|---|---|
| paperbanana.md | O artigo científico que explica o método |
| CLAUDE.md | O manual interno da empresa |
| gemini-3-image-api-guide.md | O manual da máquina de produção |
| spawn-team-prompt.md | O contrato que define os funcionários |
| banana-squad.skill | O botão “Executar Sistema” |
🎯 Em uma frase cada:⌗
- paperbanana.md → A teoria científica.
- CLAUDE.md → As regras do projeto.
- gemini-3-image-api-guide.md → Como usar a API.
- spawn-team-prompt.md → Cria os agentes.
- banana-squad.skill → Automatiza tudo.
Planejamento estruturado * 🎨 Padronização estética * 🖼️ Geração multimodal * 🔁 Loop de crítica iterativa
Resultado:
- → Diagramas acadêmicos com qualidade próxima (e às vezes superior) à humana
- → Processo totalmente automatizável
- → Aplicável a qualquer domínio que exija padrões visuais rígidos
🍌 1. PaperBanana (O Paper Científico)⌗
📄 Fonte:
🎯 Objetivo⌗
Automatizar a geração de diagramas metodológicos e gráficos estatísticos acadêmicos com qualidade de publicação (ex: NeurIPS).
🧠 Problema⌗
Modelos de IA conseguem:
- Escrever papers
- Rodar experimentos
- Gerar código
Mas não conseguem gerar figuras acadêmicas com fidelidade e estética profissional consistente.
🏗️ Arquitetura Agentic (5 Agentes)⌗
- Retriever – busca referências relevantes
- Planner – transforma texto em descrição detalhada do diagrama
- Stylist – aplica diretrizes estéticas acadêmicas
- Visualizer – gera imagem (ou código para gráficos)
- Critic – avalia e refina em loop iterativo (3 rodadas)
🔁 Loop de Refinamento⌗
O Critic:
- Compara com o texto original
- Corrige erros factuais
- Ajusta estética e clareza
- Gera nova descrição
Itera T = 3 vezes até chegar ao resultado final.
📊 Métricas de Avaliação⌗
Avaliado em 4 dimensões:
- Faithfulness (fidelidade ao conteúdo)
- Conciseness (sem poluição visual)
- Readability (clareza estrutural)
- Aesthetics (qualidade visual)
Resultado: PaperBanana supera baselines em todas as métricas (+17% overall).
📈 Extensão para Gráficos Estatísticos⌗
Para gráficos:
- Visualizer gera código Python (Matplotlib) ao invés de imagem direta
- Critic valida precisão numérica
- Melhor desempenho que geração direta por imagem
Insight importante:
- Imagem = mais bonita
- Código = mais fiel numericamente
- Melhor solução: híbrido
⚠️ Limitações⌗
- Saída é raster (não vetorial)
- Pequenos erros de conectividade ainda acontecem
- Trade-off entre padronização estética e diversidade
- Avaliação automática ainda tem desafios
🧠 2. Banana Squad (Implementação Prática no Claude Code)⌗
📄 Fonte:
É a versão prática inspirada no PaperBanana.
🔄 Pipeline⌗
Usuário
↓
Perguntas obrigatórias
↓
Research Agent
↓
Prompt Architect
↓
Generator (Gemini 3 Pro)
↓
Critic
↓
5 variações finais
📌 Regras Críticas⌗
1️⃣ Sempre perguntar antes de gerar⌗
- Tema
- Estilo
- Aspect ratio
- Resolução
- Texto na imagem
- Referência específica
- Cores
- Uso final
2️⃣ Sempre gerar 5 variações⌗
- Faithful
- Enhanced
- Alternative Composition
- Style Variation
- Bold/Creative
Nunca gerar apenas uma.
3️⃣ Prompts narrativos (não lista de palavras)⌗
Ruim:
cat, wizard hat, cute, soft light
Bom:
A photorealistic portrait of a fluffy ginger cat wearing...
4️⃣ Modelo padrão⌗
gemini-3-pro-image-preview
- Resolução padrão:
"2K" - Aspect ratio padrão:
"16:9"
🎨 3. Gemini 3 Pro Image API (Nano Banana Pro)⌗
📄 Fonte:
🔥 Modelos⌗
| Modelo | Uso |
|---|---|
| gemini-2.5-flash-image | Rápido |
| gemini-3-pro-image-preview | Profissional (até 4K) |
⚙️ Recursos⌗
- Até 14 imagens de referência
- Geração e edição
- Multi-turn chat
- Google Search grounding
- Resolução até 4K
- Aspect ratios variados
📐 Resoluções⌗
| Tamanho | Pixels aproximados |
|---|---|
| 1K | ~1024px |
| 2K | ~2048px |
| 4K | ~4096px |
⚠️ Deve usar "2K" com K maiúsculo.
🧠 Melhor Prática de Prompt⌗
- Ser específico
- Usar termos fotográficos
- Controlar iluminação
- Descrever textura
- Controlar ângulo de câmera
- Iterar conversacionalmente
🎨 4. Guia Estético NeurIPS 2025⌗
O Paper extraiu padrões visuais dominantes:
Diagramas⌗
- Pastéis suaves
- Containers arredondados
- Layout modular
- Serif para variáveis matemáticas
- Sans-serif para labels
- Nada de estilo “PowerPoint default”
Gráficos⌗
- Fundo branco
- Linhas tracejadas leves
- Paletas Viridis/Magma (sem Rainbow/Jet)
- Marcadores geométricos em line charts
- Heatmaps com células quadradas
- Legendas internas
🏆 Conclusão Geral⌗
O sistema combina:
- 🔍 Recuperação de referências
- 🧠
estruturado de crítica
É possível criar gráficos e imagens profissionais com um único prompt, usando uma arquitetura inteligente de agentes.
🎯 Ideia Principal⌗
Combinar Claude Code Agent Teams com Nano Banana (Gemini 3 Pro API) usando o framework do paper “Paper Banana” para gerar ilustrações e gráficos profissionais com um único prompt, sem precisar de Photoshop ou habilidades de design.
A chave é usar um time de agentes especializados que trabalham juntos em um ciclo com crítica e iteração.
📘 O que é o “Paper Banana”?⌗
É um paper do Google que propõe tratar geração de imagens como uma agência de design com especialistas, em vez de um único modelo tentando fazer tudo.
🔎 Problema identificado⌗
Modelos de IA conseguiam:
- Escrever papers
- Rodar experimentos
- Revisar literatura
Mas não conseguiam gerar diagramas científicos com precisão consistente.
💡 Solução proposta⌗
Criar um framework agentic com papéis especializados:
-
Retriever (Pesquisador) Busca imagens de referência.
-
Planner (Planejador) Converte conceitos em descrições visuais detalhadas.
-
Stylist (Estilista) Aplica diretrizes estéticas.
-
Visualizer (Gerador) Cria a imagem em múltiplas tentativas.
-
Critic (Crítico) Avalia e gera feedback iterativo.
🔁 O Segredo: Loop de Crítica⌗
O grande insight do paper:
- Sem crítica → ~45% de precisão
- Com 1 a 3 rodadas de crítica → +10% de melhoria
A crítica melhora:
- Fidelidade
- Clareza
- Estética
- Polimento visual
👉 Conclusão: O agente crítico é a arma secreta.
🍌 Implementação: “Banana Squad”⌗
O autor cria sua própria equipe de agentes dentro do Claude Code.
👑 1. Lead (Orquestrador)⌗
- Não executa tarefas
- Faz perguntas de clarificação
- Direciona trabalho aos agentes
- Apresenta resultados ranqueados
🔬 2. Research Agent⌗
Analisa imagens de referência e extrai:
- Estilo
- Cores
- Composição
- Layout
- Branding
- Estrutura visual
Também lê:
- Guia da API Gemini
- Documentação técnica
🏗 3. Prompt Architect⌗
Cria 5 prompts narrativos detalhados (não lista de palavras-chave).
Cada prompt inclui:
- Sujeito
- Ambiente
- Iluminação
- Ângulo de câmera
- Mood
- Texturas
- Cores
- Composição
Objetivo: manter estilo, variar narrativa.
🎨 4. Generator Agent⌗
- Usa Gemini 3 Pro via Nano Banana API
- Gera 5 imagens
- Salva na pasta “outputs”
🧠 5. Critic Agent⌗
Avalia em 4 KPIs:
- Faithfulness → Fidelidade ao pedido
- Conciseness → Sem poluição visual
- Readability → Clareza e legibilidade
- Beauty → Qualidade estética profissional
Depois:
- Rankeia de 1 a 5
- Decide se precisa iterar novamente
🔄 Fluxo de Trabalho⌗
Lead → Researcher → Prompt Architect → Generator ↔ Critic (loop até satisfatório)
🌍 Exemplos Práticos⌗
O sistema foi usado para:
- Recriar gráficos estilo Visual Capitalist
- Aplicar o mesmo design a novos temas
-
Criar infográficos sobre:
-
Consumo global per capita
- Investimento em IA até 2026
- Estatísticas futuras (com pesquisa via web)
Tudo com mínima intervenção manual.
🧩 Estrutura do Projeto⌗
Arquivos incluídos:
- Prompt para spawn da equipe
- Claude.md (contexto do projeto)
- Guia da API Gemini
- Pasta de imagens referência (organizadas por estilo, composição etc.)
- Pasta “outputs” com todas as variações geradas
⚙️ Automação com Skill / Slash Command⌗
Se for repetir o processo:
- Criar comando tipo:
banana squad -
Ele:
-
Pergunta requisitos
- Cria time
- Executa pipeline
- Apresenta ranking
- Faz shutdown automático
⚠️ Importante: Encerrar agentes após uso para evitar gasto excessivo de tokens.
🔥 Principais Insights⌗
✔️ Geração de imagens melhora muito com arquitetura multiagente ✔️ Crítica iterativa é mais importante que fine-tuning ✔️ Mostrar bons exemplos é melhor que treinar do zero ✔️ Estrutura > Prompt isolado ✔️ Sistema pode ser aplicado a:
- Thumbnails
- Diagramas
- Infográficos
- Ilustrações técnicas
- Design automatizado
🚀 Conclusão⌗
Combinando:
- Framework do Paper Banana
- Claude Code Agent Teams
- Nano Banana (Gemini 3 Pro API)
- Loop
Claude Code Agent Teams +Nano Banana
1