Documentação e guia de implantação do sistema "Banana Squad"

INEMA

Vou te dar o passo a passo direto, prático para:

✅ Implantar o sistema
✅ Usar o sistema

Vou assumir que você quer rodar do jeito original (Claude Code + Gemini 3 Pro).

🚀 PARTE 1 — IMPLANTAÇÃO (SETUP)⌗

🔹 PASSO 1 — Criar pasta do projeto⌗

mkdir banana-squad cd banana-squad

🔹 PASSO 2 — Instalar dependências⌗

pip install google-genai Pillow python-dotenv

🔹 PASSO 3 — Criar arquivo `.env`⌗

Na raiz do projeto:

GEMINI_API_KEY=sua_chave_aqui

Pegue a chave em: https://ai.google.dev/

🔹 PASSO 4 — Criar estrutura de pastas⌗

mkdir reference-images mkdir outputs mkdir -p .claude/skills/banana-image-gen

Estrutura final deve ficar assim:

banana-squad/ │ ├── .env ├── CLAUDE.md ├── paperbanana.md ├── gemini-3-image-api-guide.md ├── spawn-team-prompt.md │ ├── reference-images/ ├── outputs/ │ └── .claude/ └── skills/ └── banana-image-gen/ └── SKILL.md

🔹 PASSO 5 — Colocar os arquivos⌗

Copie para dentro do projeto:

CLAUDE.md
paperbanana.md
gemini-3-image-api-guide.md
spawn-team-prompt.md
banana-squad.skill (renomeie para SKILL.md dentro da pasta skill)

🔹 PASSO 6 — Ativar Agent Teams no Claude Code⌗

Mac/Linux:

export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

Ou no settings.json:

{ "env": { "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1" } }

🔹 PASSO 7 — Abrir Claude Code dentro da pasta⌗

claude .

Agora o sistema está implantado.

🧠 PARTE 2 — COMO USAR⌗

Você tem duas opções:

✅ OPÇÃO A — Manual (spawn-team-prompt)⌗

Abra spawn-team-prompt.md
Copie o conteúdo inteiro
Cole no Claude Code
Ele vai fazer as perguntas obrigatórias
Responda
Aguarde o pipeline rodar
Veja imagens na pasta outputs/

✅ OPÇÃO B — Usando o Skill (recomendado)⌗

Dentro do Claude Code, digite:

/banana-image-gen

ou o nome definido no skill.

Ele irá:

Fazer perguntas
Criar agentes
Rodar pipeline
Gerar 5 versões
Avaliar
Mostrar ranking
Encerrar agentes automaticamente

🎯 Exemplo real de uso⌗

Ele vai perguntar:

O que deseja gerar?
Qual estilo?
Qual proporção?
Resolução?
Texto?
Referência?
Uso final?
Cores?
O que evitar?

Você responde algo como:

Quero um infográfico estilo Visual Capitalist sobre investimento global em IA em 2026, 16:9, 2K, estilo editorial moderno.

Ele faz o resto.

📦 Resultado⌗

Na pasta:

outputs/

Você terá:

ai-investment-v1-faithful.png ai-investment-v2-enhanced.png ai-investment-v3-alt-composition.png ai-investment-v4-style-variation.png ai-investment-v5-bold.png

E o Critic dirá qual é a melhor.

🔁 Para iterar⌗

Você pode dizer:

Iterar sobre a v4, melhorar legibilidade do texto.

Ele roda novamente só naquela direção.

💰 Custo estimado⌗

Cada execução:

5 imagens 2K
- iteração crítica

Pode consumir tokens + custo de imagem.

Sempre usar graceful shutdown para não deixar agentes rodando.

🧩 RESUMO ULTRA DIRETO⌗

Implantar:

Criar pasta
Instalar dependências
Colocar API key
Organizar arquivos
Ativar agent teams

Usar:

Rodar skill
Responder perguntas
Aguardar
Ver outputs

🎯 Na prática, o que esse projeto faz?⌗

Ele cria um sistema automático que gera imagens profissionais (infográficos, diagramas, thumbnails, gráficos) usando uma equipe de agentes que trabalham juntos, em vez de um único prompt simples.

🧠 Em termos simples⌗

Você diz:

“Quero um infográfico nesse estilo sobre investimento em IA em 2026.”

E o sistema:

Faz perguntas para entender exatamente o que você quer
Analisa imagens de referência
Cria 5 versões diferentes
Avalia qual ficou melhor
Recomenda a melhor
Permite iterar automaticamente

Tudo isso sozinho.

🔄 O que acontece por trás⌗

Em vez de fazer:

"gere um infográfico sobre IA"

Ele faz:

🧑‍💼 Lead⌗

Organiza tudo e faz perguntas.

🔍 Research Agent⌗

Analisa referências e extrai:

Estilo
Layout
Cores
Tipografia
Estrutura visual

✍️ Prompt Architect⌗

Escreve 5 prompts extremamente detalhados (não lista de palavras).

🎨 Generator⌗

Chama a API do Gemini (Nano Banana) e gera 5 imagens.

🧠 Critic⌗

Avalia as imagens em:

Fidelidade
Clareza
Limpeza visual
Estética

Depois ranqueia e escolhe a melhor.

📦 O que você ganha na prática⌗

Ele serve para gerar automaticamente:

📊 Infográficos estilo Visual Capitalist
📈 Gráficos estatísticos
🧾 Diagramas metodológicos
🧠 Diagramas técnicos
📺 Thumbnails de YouTube
🖼️ Ilustrações profissionais
🏢 Material visual corporativo

🚀 Qual é a grande diferença?⌗

Prompt comum = tentativa única Esse sistema = processo estruturado com controle de qualidade

Ele transforma geração de imagem em:

Uma mini agência de design automatizada

📈 Por que isso importa?⌗

Porque:

A maioria das IAs gera algo “ok”
Esse sistema gera algo “publicável”

Ele melhora:

Estrutura
Clareza
Estética
Precisão

Vou organizar do mais conceitual → mais técnico → mais operacional.

📘 1️⃣ `paperbanana.md`⌗

📄 Fonte:

O que é?⌗

É o paper científico original do Google que propõe o framework PaperBanana.

Para que serve?⌗

Ele fornece:

A arquitetura de 5 agentes
O conceito de crítica iterativa
O método de avaliação (4 métricas)
A lógica de retrieval + planning + styling + critic loop
Evidências experimentais

Em resumo:⌗

É a base teórica de tudo.

Sem ele, a Banana Squad seria apenas um pipeline de geração comum. Com ele, vira um sistema estruturado e validado academicamente.

📂 2️⃣ `CLAUDE (6).md`⌗

📄 Fonte:

O que é?⌗

É o arquivo de contexto do projeto no Claude Code.

Funciona como o “manual operacional” do sistema.

O que ele define?⌗

Como o pipeline funciona
Regras obrigatórias
Estrutura de pastas
Como salvar outputs
Como usar a API
Regras do Lead
Regras de geração
Como nomear arquivos
Instalação de dependências
Modelo padrão (gemini-3-pro-image-preview)

Em resumo:⌗

É o manual prático que transforma a teoria do paper em sistema funcional.

PaperBanana = teoria CLAUDE.md = execução prática

⚙️ 3️⃣ `gemini-3-image-api-guide.md`⌗

📄 Fonte:

O que é?⌗

É o guia técnico completo da API do Gemini 3 Pro (Nano Banana).

Ele contém:⌗

Como autenticar
Como chamar a API (Python / JS / REST)
Como gerar imagem
Como editar imagem
Multi-imagem
Multi-turn chat
Google Search grounding
Resoluções (1K, 2K, 4K)
Aspect ratios
Thinking mode
Prompting best practices
Limitações

Em resumo:⌗

É o manual técnico da engine de geração.

Se CLAUDE.md diz “o que fazer”, o API Guide diz “como fazer”.

🧠 4️⃣ `spawn-team-prompt.md`⌗

📄 Fonte:

O que é?⌗

É o mega prompt que cria a Banana Squad dentro do Claude Code.

O que ele faz?⌗

Quando você cola ele no Claude:

Cria os agentes
Define papéis
Define regras
Define como eles se comunicam
Define como o Lead deve agir
Define perguntas obrigatórias
Define fluxo de execução

Em resumo:⌗

É o arquivo que literalmente dá vida à equipe de agentes.

Sem ele, não existe Banana Squad.

🍌 5️⃣ `banana-squad.skill`⌗

(arquivo de skill do Claude Code)

O que é?⌗

É a versão automatizada do spawn-team.

Transforma o mega prompt em um comando reutilizável.

Exemplo:

/banana-squad

Em vez de colar o mega prompt toda vez.

O que ele faz?⌗

Spawna a equipe automaticamente
Executa o fluxo
Garante shutdown correto
Evita desperdício de tokens

Em resumo:⌗

É a versão “produto” do sistema. Automatiza o processo.

🧩 Como todos os arquivos se conectam⌗

paperbanana.md ↓ (teoria) CLAUDE.md ↓ (regras práticas) gemini-3-image-api-guide.md ↓ (implementação técnica) spawn-team-prompt.md ↓ (criação da equipe) banana-squad.skill ↓ (automação final)

🏗️ Se fosse comparar com uma empresa⌗

Arquivo	Equivalente
paperbanana.md	O artigo científico que explica o método
CLAUDE.md	O manual interno da empresa
gemini-3-image-api-guide.md	O manual da máquina de produção
spawn-team-prompt.md	O contrato que define os funcionários
banana-squad.skill	O botão “Executar Sistema”

🎯 Em uma frase cada:⌗

paperbanana.md → A teoria científica.
CLAUDE.md → As regras do projeto.
gemini-3-image-api-guide.md → Como usar a API.
spawn-team-prompt.md → Cria os agentes.
banana-squad.skill → Automatiza tudo.

Planejamento estruturado * 🎨 Padronização estética * 🖼️ Geração multimodal * 🔁 Loop de crítica iterativa

Resultado:

→ Diagramas acadêmicos com qualidade próxima (e às vezes superior) à humana
→ Processo totalmente automatizável
→ Aplicável a qualquer domínio que exija padrões visuais rígidos

🍌 1. PaperBanana (O Paper Científico)⌗

📄 Fonte:

🎯 Objetivo⌗

Automatizar a geração de diagramas metodológicos e gráficos estatísticos acadêmicos com qualidade de publicação (ex: NeurIPS).

🧠 Problema⌗

Modelos de IA conseguem:

Escrever papers
Rodar experimentos
Gerar código

Mas não conseguem gerar figuras acadêmicas com fidelidade e estética profissional consistente.

🏗️ Arquitetura Agentic (5 Agentes)⌗

Retriever – busca referências relevantes
Planner – transforma texto em descrição detalhada do diagrama
Stylist – aplica diretrizes estéticas acadêmicas
Visualizer – gera imagem (ou código para gráficos)
Critic – avalia e refina em loop iterativo (3 rodadas)

🔁 Loop de Refinamento⌗

O Critic:

Compara com o texto original
Corrige erros factuais
Ajusta estética e clareza
Gera nova descrição

Itera T = 3 vezes até chegar ao resultado final.

📊 Métricas de Avaliação⌗

Avaliado em 4 dimensões:

Faithfulness (fidelidade ao conteúdo)
Conciseness (sem poluição visual)
Readability (clareza estrutural)
Aesthetics (qualidade visual)

Resultado: PaperBanana supera baselines em todas as métricas (+17% overall).

📈 Extensão para Gráficos Estatísticos⌗

Para gráficos:

Visualizer gera código Python (Matplotlib) ao invés de imagem direta
Critic valida precisão numérica
Melhor desempenho que geração direta por imagem

Insight importante:

Imagem = mais bonita
Código = mais fiel numericamente
Melhor solução: híbrido

⚠️ Limitações⌗

Saída é raster (não vetorial)
Pequenos erros de conectividade ainda acontecem
Trade-off entre padronização estética e diversidade
Avaliação automática ainda tem desafios

🧠 2. Banana Squad (Implementação Prática no Claude Code)⌗

📄 Fonte:

É a versão prática inspirada no PaperBanana.

🔄 Pipeline⌗

Usuário ↓ Perguntas obrigatórias ↓ Research Agent ↓ Prompt Architect ↓ Generator (Gemini 3 Pro) ↓ Critic ↓ 5 variações finais

📌 Regras Críticas⌗

1️⃣ Sempre perguntar antes de gerar⌗

Tema
Estilo
Aspect ratio
Resolução
Texto na imagem
Referência específica
Cores
Uso final

2️⃣ Sempre gerar 5 variações⌗

Faithful
Enhanced
Alternative Composition
Style Variation
Bold/Creative

Nunca gerar apenas uma.

3️⃣ Prompts narrativos (não lista de palavras)⌗

Ruim:

cat, wizard hat, cute, soft light

Bom:

A photorealistic portrait of a fluffy ginger cat wearing...

4️⃣ Modelo padrão⌗

gemini-3-pro-image-preview

Resolução padrão: "2K"
Aspect ratio padrão: "16:9"

🎨 3. Gemini 3 Pro Image API (Nano Banana Pro)⌗

📄 Fonte:

🔥 Modelos⌗

Modelo	Uso
gemini-2.5-flash-image	Rápido
gemini-3-pro-image-preview	Profissional (até 4K)

⚙️ Recursos⌗

Até 14 imagens de referência
Geração e edição
Multi-turn chat
Google Search grounding
Resolução até 4K
Aspect ratios variados

📐 Resoluções⌗

Tamanho	Pixels aproximados
1K	~1024px
2K	~2048px
4K	~4096px

⚠️ Deve usar "2K" com K maiúsculo.

🧠 Melhor Prática de Prompt⌗

Ser específico
Usar termos fotográficos
Controlar iluminação
Descrever textura
Controlar ângulo de câmera
Iterar conversacionalmente

🎨 4. Guia Estético NeurIPS 2025⌗

O Paper extraiu padrões visuais dominantes:

Diagramas⌗

Pastéis suaves
Containers arredondados
Layout modular
Serif para variáveis matemáticas
Sans-serif para labels
Nada de estilo “PowerPoint default”

Gráficos⌗

Fundo branco
Linhas tracejadas leves
Paletas Viridis/Magma (sem Rainbow/Jet)
Marcadores geométricos em line charts
Heatmaps com células quadradas
Legendas internas

🏆 Conclusão Geral⌗

O sistema combina:

🔍 Recuperação de referências
🧠

estruturado de crítica

É possível criar gráficos e imagens profissionais com um único prompt, usando uma arquitetura inteligente de agentes.

🎯 Ideia Principal⌗

Combinar Claude Code Agent Teams com Nano Banana (Gemini 3 Pro API) usando o framework do paper “Paper Banana” para gerar ilustrações e gráficos profissionais com um único prompt, sem precisar de Photoshop ou habilidades de design.

A chave é usar um time de agentes especializados que trabalham juntos em um ciclo com crítica e iteração.

📘 O que é o “Paper Banana”?⌗

É um paper do Google que propõe tratar geração de imagens como uma agência de design com especialistas, em vez de um único modelo tentando fazer tudo.

🔎 Problema identificado⌗

Modelos de IA conseguiam:

Escrever papers
Rodar experimentos
Revisar literatura

Mas não conseguiam gerar diagramas científicos com precisão consistente.

💡 Solução proposta⌗

Criar um framework agentic com papéis especializados:

Retriever (Pesquisador) Busca imagens de referência.
Planner (Planejador) Converte conceitos em descrições visuais detalhadas.
Stylist (Estilista) Aplica diretrizes estéticas.
Visualizer (Gerador) Cria a imagem em múltiplas tentativas.
Critic (Crítico) Avalia e gera feedback iterativo.

🔁 O Segredo: Loop de Crítica⌗

O grande insight do paper:

Sem crítica → ~45% de precisão
Com 1 a 3 rodadas de crítica → +10% de melhoria

A crítica melhora:

Fidelidade
Clareza
Estética
Polimento visual

👉 Conclusão: O agente crítico é a arma secreta.

🍌 Implementação: “Banana Squad”⌗

O autor cria sua própria equipe de agentes dentro do Claude Code.

👑 1. Lead (Orquestrador)⌗

Não executa tarefas
Faz perguntas de clarificação
Direciona trabalho aos agentes
Apresenta resultados ranqueados

🔬 2. Research Agent⌗

Analisa imagens de referência e extrai:

Estilo
Cores
Composição
Layout
Branding
Estrutura visual

Também lê:

Guia da API Gemini
Documentação técnica

🏗 3. Prompt Architect⌗

Cria 5 prompts narrativos detalhados (não lista de palavras-chave).

Cada prompt inclui:

Sujeito
Ambiente
Iluminação
Ângulo de câmera
Mood
Texturas
Cores
Composição

Objetivo: manter estilo, variar narrativa.

🎨 4. Generator Agent⌗

Usa Gemini 3 Pro via Nano Banana API
Gera 5 imagens
Salva na pasta “outputs”

🧠 5. Critic Agent⌗

Avalia em 4 KPIs:

Faithfulness → Fidelidade ao pedido
Conciseness → Sem poluição visual
Readability → Clareza e legibilidade
Beauty → Qualidade estética profissional

Depois:

Rankeia de 1 a 5
Decide se precisa iterar novamente

🔄 Fluxo de Trabalho⌗

Lead → Researcher → Prompt Architect → Generator ↔ Critic (loop até satisfatório)

🌍 Exemplos Práticos⌗

O sistema foi usado para:

Recriar gráficos estilo Visual Capitalist
Aplicar o mesmo design a novos temas
Criar infográficos sobre:
Consumo global per capita
Investimento em IA até 2026
Estatísticas futuras (com pesquisa via web)

Tudo com mínima intervenção manual.

🧩 Estrutura do Projeto⌗

Arquivos incluídos:

Prompt para spawn da equipe
Claude.md (contexto do projeto)
Guia da API Gemini
Pasta de imagens referência (organizadas por estilo, composição etc.)
Pasta “outputs” com todas as variações geradas

⚙️ Automação com Skill / Slash Command⌗

Se for repetir o processo:

Criar comando tipo: banana squad
Ele:
Pergunta requisitos
Cria time
Executa pipeline
Apresenta ranking
Faz shutdown automático

⚠️ Importante: Encerrar agentes após uso para evitar gasto excessivo de tokens.

🔥 Principais Insights⌗

✔️ Geração de imagens melhora muito com arquitetura multiagente ✔️ Crítica iterativa é mais importante que fine-tuning ✔️ Mostrar bons exemplos é melhor que treinar do zero ✔️ Estrutura > Prompt isolado ✔️ Sistema pode ser aplicado a:

Thumbnails
Diagramas
Infográficos
Ilustrações técnicas
Design automatizado

🚀 Conclusão⌗

Combinando:

Framework do Paper Banana
Claude Code Agent Teams
Nano Banana (Gemini 3 Pro API)
Loop

Claude Code Agent Teams +Nano Banana

chatgpt.com ↗

Documentação e guia de implantação do sistema "Banana Squad" — uma…

🚀 PARTE 1 — IMPLANTAÇÃO (SETUP)⌗

🔹 PASSO 1 — Criar pasta do projeto⌗

🔹 PASSO 2 — Instalar dependências⌗

🔹 PASSO 3 — Criar arquivo .env⌗

🔹 PASSO 4 — Criar estrutura de pastas⌗

🔹 PASSO 5 — Colocar os arquivos⌗

🔹 PASSO 6 — Ativar Agent Teams no Claude Code⌗

🔹 PASSO 7 — Abrir Claude Code dentro da pasta⌗

🧠 PARTE 2 — COMO USAR⌗

✅ OPÇÃO A — Manual (spawn-team-prompt)⌗

✅ OPÇÃO B — Usando o Skill (recomendado)⌗

🎯 Exemplo real de uso⌗

📦 Resultado⌗

🔁 Para iterar⌗

💰 Custo estimado⌗

🧩 RESUMO ULTRA DIRETO⌗

🎯 Na prática, o que esse projeto faz?⌗

🧠 Em termos simples⌗

🔄 O que acontece por trás⌗

🧑‍💼 Lead⌗

🔍 Research Agent⌗

✍️ Prompt Architect⌗

🎨 Generator⌗

🧠 Critic⌗

📦 O que você ganha na prática⌗

🚀 Qual é a grande diferença?⌗

📈 Por que isso importa?⌗

📘 1️⃣ paperbanana.md⌗

O que é?⌗

Para que serve?⌗

Em resumo:⌗

📂 2️⃣ CLAUDE (6).md⌗

O que é?⌗

O que ele define?⌗

Em resumo:⌗

⚙️ 3️⃣ gemini-3-image-api-guide.md⌗

O que é?⌗

Ele contém:⌗

Em resumo:⌗

🧠 4️⃣ spawn-team-prompt.md⌗

O que é?⌗

O que ele faz?⌗

Em resumo:⌗

🍌 5️⃣ banana-squad.skill⌗

O que é?⌗

O que ele faz?⌗

Em resumo:⌗

🧩 Como todos os arquivos se conectam⌗

🏗️ Se fosse comparar com uma empresa⌗

🎯 Em uma frase cada:⌗

🍌 1. PaperBanana (O Paper Científico)⌗

🎯 Objetivo⌗

🧠 Problema⌗

🏗️ Arquitetura Agentic (5 Agentes)⌗

🔁 Loop de Refinamento⌗

📊 Métricas de Avaliação⌗

📈 Extensão para Gráficos Estatísticos⌗

⚠️ Limitações⌗

🧠 2. Banana Squad (Implementação Prática no Claude Code)⌗

🔄 Pipeline⌗

📌 Regras Críticas⌗

1️⃣ Sempre perguntar antes de gerar⌗

2️⃣ Sempre gerar 5 variações⌗

3️⃣ Prompts narrativos (não lista de palavras)⌗

4️⃣ Modelo padrão⌗

🎨 3. Gemini 3 Pro Image API (Nano Banana Pro)⌗

🔥 Modelos⌗

⚙️ Recursos⌗

📐 Resoluções⌗

🧠 Melhor Prática de Prompt⌗

🎨 4. Guia Estético NeurIPS 2025⌗

Diagramas⌗

Gráficos⌗

🏆 Conclusão Geral⌗

🎯 Ideia Principal⌗

📘 O que é o “Paper Banana”?⌗

🔎 Problema identificado⌗

💡 Solução proposta⌗

🔁 O Segredo: Loop de Crítica⌗

🔹 PASSO 3 — Criar arquivo `.env`⌗

📘 1️⃣ `paperbanana.md`⌗

📂 2️⃣ `CLAUDE (6).md`⌗

⚙️ 3️⃣ `gemini-3-image-api-guide.md`⌗

🧠 4️⃣ `spawn-team-prompt.md`⌗

🍌 5️⃣ `banana-squad.skill`⌗