Tópico sobre a construção de um agente de IA estilo Photoshop no n8n,…

INEMA

achei o e45 melhor

olha o e45 para outras dicas

vc esta usando onde ? fal, kie

sim a partir disso vc pode fazer um outro tools ou chamada de outros agentes e nele fazer o video (tem inclusive varios com veo3 q pode integrar os dois workflow

dublado

youtube.com/watch ↗

Aqui estão exemplos de prompts que podem melhorar o sistema:

1. Renomear arquivos⌗

Hoje: “Chame essa foto de Nate.”

Melhoria: “Renomeie essa foto para ‘Nate_selfie_2025-09-05’, garantindo padrão nome_tipo_data.”

2. Combinar imagens⌗

Hoje: “Combine as fotos Nate e granola em uma imagem onde o homem segura granola na montanha.”

Melhoria: “Combine a foto chamada ‘Nate’ (selfie sorridente) com a foto chamada ‘granola’ (pacote de granola). Gere uma imagem fotorealista em estilo publicitário, iluminação dourada de fim de tarde, mostrando Nate segurando o pacote de granola no topo de uma montanha com céu limpo ao fundo. Respeite a anatomia natural, foco no produto central e fundo desfocado (bokeh).”

3. Editar uma imagem⌗

Hoje: “Edite a granola para parecer um anúncio em frente à Torre Eiffel.”

Melhoria: “Pegue a imagem chamada ‘granola’ (pacote de granola). Edite para criar uma cena publicitária realista onde o produto é segurado por uma mão em frente à Torre Eiffel em Paris, iluminação suave e cores vibrantes. Adicione efeito de profundidade de campo para destacar o produto e manter o fundo desfocado, estilo de fotografia comercial de revista.”

4. Geração de anúncios⌗

Hoje: Pouco detalhado, depende do improviso do usuário.

Melhoria: “Crie um anúncio em estilo lifestyle mostrando o produto ‘granola’ em uso. Contexto: café da manhã saudável em Paris. Inclua mesa de madeira clara, frutas frescas e a Torre Eiffel ao fundo pela janela. Estilo de fotografia: editorial, iluminação natural da manhã, foco no produto.”

5. Hacks de prompt⌗

Sempre incluir contexto: quem aparece, onde está, o que está acontecendo.
Usar palavras de estilo: fotorealista, editorial, publicitário, cinematográfico, 35mm, bokeh, luz dourada etc.
Especificar ângulo de câmera: close-up, plano médio, aérea.
Incluir emoção ou atmosfera: alegre, sofisticado, descontraído.
Definir papel do produto: foco principal, em destaque, interação com pessoa.

Melhorias

1. Melhorias de Qualidade⌗

Agente especializado em prompts: adicionar um sub-agente só para escrever prompts de imagem, entregando instruções mais claras e otimizadas ao Nano Banana.
Pré-processamento de imagens: antes de enviar ao modelo, rodar uma checagem de resolução/qualidade (ex.: se a imagem é muito pequena, avisar o usuário).
Padrões de nome automáticos: em vez de depender apenas do nome dado pelo usuário, aplicar convenções como YYYY-MM-DD_nome_custom_id.
Filtros de texto: normalizar sempre entradas para evitar erros de JSON (aspas, quebras de linha).

Exemplo prático: Usuário manda “foto da praia”. O sistema renomeia para 2025-09-05_praia_001.jpg em vez de apenas “praia”.

2. Melhorias de Confiabilidade⌗

Retries automáticos: se o FAL.ai ou Google Drive falhar, repetir a chamada X vezes antes de dar erro.
Polling otimizado: ajustar intervalos de checagem (ex.: começar em 5s, dobrar até 30s).
Fallback de modelos: se Nano Banana estiver fora, usar outro modelo de edição/combinação (ex.: Stable Diffusion API).
Logs centralizados: salvar em Google Sheets/Airtable cada execução com status (sucesso, erro, custo, tempo).

Exemplo prático: Se a API não responder em 10s, o workflow tenta de novo com backoff exponencial e registra no log.

3. Melhorias de Escalabilidade⌗

Workflows modulares: separar cada ferramenta (renomear, editar, combinar) em sub-workflows para reuso.
Fila de processamento: quando houver muitos pedidos ao mesmo tempo, enfileirar em planilha/Airtable e processar por ordem.
Controle de custos: calcular tokens + imagens geradas e gerar relatório semanal.
Paralelismo: permitir que múltiplas imagens sejam processadas em paralelo quando o servidor suportar.

Exemplo prático: 10 imagens pedidas via Telegram são enfileiradas e o agente responde “Sua imagem está na posição 3 da fila”.

4. Melhorias de Usabilidade⌗

Feedback ao usuário: enquanto a imagem gera, enviar mensagens de progresso no Telegram (“Imagem em processamento… 40% concluído”).
Comandos rápidos: permitir atalhos como /edit Eiffel ou /combine Nate Granola.
Galeria automática: criar uma pasta compartilhada no Drive onde o usuário já vê todas as imagens prontas.
Resumo final: ao concluir, mandar no Telegram o link + preview da imagem.

Exemplo prático: O usuário pede uma edição → o bot responde “🖼️ Editando sua imagem… aguarde 8s” → ao final, envia link do Drive + miniatura.

Hacks para mais poder⌗

Agente dedicado para prompts Crie um sub-agente só para otimizar prompts de geração de imagem, em vez de deixar o agente principal improvisar. Isso melhora muito a qualidade das imagens.
Logger automático Conecte um Google Sheets ou Airtable para registrar cada execução: entrada, ferramenta usada, tokens gastos e tempo de execução. Assim você consegue medir custo real e depurar facilmente.
Fallback de modelos Use GPT 5.1 como principal e Sonnet 3.5 como fallback (já citado no vídeo). Você pode adicionar ainda outro modelo gratuito (como Gemini Nano Banana via OpenRouter, quando disponível).
Polling inteligente O fluxo espera 30 segundos por padrão. Reduza para 4–10 segundos e implemente retries progressivos. Isso economiza chamadas desnecessárias e acelera resultados.
Substituir ImageBB por storage próprio Para produção, use Supabase Storage, S3 ou Cloudflare R2 em vez do ImageBB. Mais confiável e seguro.
Nomenclatura padrão Em vez de deixar o usuário inventar nomes soltos, aplique um padrão {data}-{slug}-{id} para evitar conflitos no Google Drive.
Workflows modulares Cada ferramenta (Combine, Edit, Rename) deve ser um sub-workflow separado. Assim você consegue reaproveitar em outros agentes sem retrabalho.
Automação em cadeia Depois de gerar imagens, mande automaticamente para outro fluxo que cria vídeos ou carrosséis de anúncio. Dá para usar modelos de vídeo no FAL.ai ou V3 fast.
Interface além do Telegram Troque o gatilho do Telegram por WhatsApp, Slack ou Webhook. O contrato de entrada é o mesmo, só muda o canal.
Guardrails no prompt Adicione filtros para remover caracteres problemáticos (aspas duplas, quebras de linha). Isso já aparece no vídeo, mas você pode reforçar para todos os fluxos.

Entrada esperada do agente

image_prompt
image_id
image_title

Nós

Drive Download por image_id → binário.
Obter URL pública (ImageBB/S3/Supabase).
FAL.ai Nano Banana (HTTP Request) com prompt + image_url única.
Polling até concluir.
Baixe o binário do resultado.
Upload no Drive em ai-images com image_title.
Retorne link ao agente.

8) Teste guiado pelo Telegram

Envie uma foto → o agente pergunta o nome → responda “Nate” → ele renomeia no Drive.
Envie outra foto → nomeie “granola”.
Comando de combinação:
Exemplo: “Combine as fotos ‘Nate’ e ‘granola’ em uma cena realista segurando a granola no topo de uma montanha.”
Edição de uma imagem:
Exemplo: “Edite a imagem ‘granola’ para parecer um anúncio segurado em frente à Torre Eiffel.”
O agente busca IDs (pela memória ou ferramentas de busca), chama o sub-workflow correto e devolve o link.

Custos e limites

FAL.ai \~ US\$ 0,04 por imagem (ordem de grandeza).
Ajuste o polling para não exceder chamadas.
Evite imagens-fonte de baixa qualidade se precisar de texto legível no rótulo.

Endurecimento e produção

Prompts melhores: adicione um agente dedicado só para escrever prompts de image gen e passe o prompt otimizado aos sub-workflows.
Logger: crie planilha no Google Sheets registrando entrada, ferramentas chamadas, tempo, custo estimado.
Filas e reprocessamento: se FAL falhar, refile para uma fila (Google Sheets/Airtable) e tente novamente.
Substituir ImageBB em produção por S3/Supabase para controle e privacidade.
Padrões de nome: use {data}-{slug}-{hash} para evitar colisões.

Exemplos prontos de comando no Telegram⌗

Renomear automático: enviar foto → responder “chame de granola”
Combinar: “Combine ‘granola’ e ‘Nate’ em uma foto realista do homem segurando a granola no topo de uma montanha, luz dourada, 35mm.”
Editar: “Edite ‘granola’ para parecer um anúncio, sendo segurado em frente à Torre Eiffel, foco no produto, bokeh no fundo.”

Perguntas rápidas e respostas⌗

Pergunta: Posso usar outro host além do ImageBB? Resposta: Sim. Use S3, Cloudflare R2 ou Supabase Storage para gerar URLs públicas temporárias.

Pergunta: Dá para usar sem Telegram? Resposta: Sim. Troque o Telegram Trigger por Webhook Trigger ou WhatsApp/Slack; mantenha o mesmo contrato de entrada.

Pergunta: Como o agente acha os arquivos? Resposta: Pela memória da sessão e, se faltar, pelas ferramentas Search Raw Files e Search AI Images filtrando por pasta.

Pergunta: Como trocar o modelo de imagem? Resposta: No HTTP Request do FAL.ai, altere o endpoint/model slug e, se necessário, os campos no body (resolução, steps etc.).

Passo a passo para replicar o Photoshop AI Agent no n8n⌗

Objetivo⌗

Criar um agente que, via Telegram, receba texto e/ou imagens, renomeie e pesquise arquivos no Google Drive, combine imagens ou edite uma imagem usando o modelo Nano Banana (via FAL.ai), e retorne o link do resultado salvo no Drive.

Pré-requisitos⌗

Conta no n8n (self-host ou cloud)
Bot do Telegram e token do BotFather
Credenciais do Google Drive com permissão para ler/gravar
Chave de API do FAL.ai (para usar Nano Banana)
Opcional: chave do ImageBB ou outro serviço de hospedagem de imagem pública (S3, Supabase Storage etc.)

Estrutura de pastas no Drive

media → onde caem fotos cruas recebidas do Telegram
ai-images → onde salvamos as imagens geradas/editadas (Anote os IDs de cada pasta)

Visão geral do workflow⌗

Telegram Trigger → Normalizar entrada (texto/imagem) → Upload no Drive (se for foto) → Agente Photoshop (LLM + memória + ferramentas) Ferramentas do Agente:

Combine Images → sub-workflow
Edit Image → sub-workflow
Change Name → atualizar nome do arquivo no Drive
Search Raw Files → procurar em media
Search AI Images → procurar em ai-images

Modelos e memória

Modelo principal: GPT 5.1 mini
Fallback: Sonnet 3.5
Memória por sessão: usar o chat_id do Telegram como sessionId

Montagem passo a passo⌗

Crie o bot no BotFather e copie o token.
No n8n, adicione Telegram Trigger com credenciais do bot. Escute atualizações de message.

Google Drive

Conecte a credencial.
Guarde os IDs das pastas media e ai-images.

Variáveis/credenciais

Armazene FAL_API_KEY.
Se usar ImageBB: IMAGE_BB_API_KEY.
Alternativa sem ImageBB: publique temporariamente em S3/Supabase Storage ou gere URL público controlado.

Normalizar entrada

Após o Telegram Trigger, use um Switch simples:
Se houver foto: baixe o arquivo, faça upload no Drive para media, capture fileId.
Se houver texto: passe direto.
Padronize o campo para o agente ler sempre em json.message.text e json.message.photoId (quando houver).

Agente Photoshop (nó AI Agent)

Sistema (mínimo):
Você é um agente assistente pessoal. Use as ferramentas disponíveis para atender ao pedido do usuário.
Se o usuário enviar uma foto, pergunte: “Como você quer nomear essa foto no seu Google Drive?” e então renomeie usando a ferramenta Change Name.
Liste brevemente as ferramentas no system (nome e o que fazem).
Modelos: principal GPT 5.1 mini; fallback Sonnet 3.5.
Memória: sessionId = chat_id do Telegram.
Ferramentas acopladas:
Change Name → Google Drive: Update File por fileId; novo nome vem do input do agente.
Search Raw Files → Google Drive: Search Files filtrando por pasta = media.
Search AI Images → Google Drive: Search Files filtrando por pasta = ai-images.
Combine Images → Tool: Call n8n Workflow (sub-workflow Combine Images).
Edit Image → Tool: Call n8n Workflow (sub-workflow Edit Image).

Sub-workflow Combine Images Entrada esperada do agente

image_prompt (texto do que deve acontecer)
image1_id e image2_id (IDs no Drive)
image_title (nome do arquivo final)

Nós

Edit Fields → crie um array com [image1_id, image2_id].
Google Drive (Download File) em lote → baixa as duas imagens por ID (binário).
Upload público

ImageBB: HTTP Request multipart para enviar cada binário e obter url pública;
ou S3/Supabase: faça upload e pegue a URL pública. 4. Aggregate → reúna as duas URLs em um único item. 5. FAL.ai Nano Banana (HTTP Request)
Endpoint do modelo edit/compose via FAL
Body JSON: { prompt, image_url_1, image_url_2 }
Trate quebras de linha/aspas no prompt (replace) para não quebrar o JSON. 6. Polling
Aguarde 4–10s; cheque status; repita até concluir. 7. Download do resultado
Recebe URL do resultado; HTTP GET para binário. 8. Google Drive (Upload File)
Pasta ai-images; filename = image_title. 9. Resposta ao agente
Retorne mensagem com link do Drive e nome final.

7) Sub-workflow Edit Image

Criação de um agente de IA do Photoshop dentro do n8n sem código, usando o modelo de imagens Nano Banana do Google.

Principais pontos⌗

O agente pode receber texto ou imagem como entrada.
Ele conta com 5 ferramentas: combinar imagens, editar imagens, renomear arquivos, buscar arquivos brutos no Google Drive e buscar imagens geradas por IA.
A integração é feita via Telegram, permitindo enviar fotos e comandos diretamente do celular ou desktop.

Demonstração prática⌗

Ao enviar uma foto, o agente pergunta como nomeá-la e altera o nome automaticamente no Google Drive.
O agente consegue combinar imagens (ex.: selfie + foto de granola → foto realista da pessoa segurando o pacote em uma montanha).
Também é possível editar imagens, como criar um anúncio da granola sendo segurada em frente à Torre Eiffel.
O sistema usa memória para evitar buscas repetidas, mas pode procurar IDs de arquivos quando necessário.

Estrutura técnica⌗

Usa GPT 5.1 mini como modelo principal e Sonnet 3.5 como fallback.
Possui memória simples ligada ao chat do Telegram.
As ferramentas de manipulação de arquivos (renomear, buscar brutos, buscar IA) são diretas.
Os fluxos de combinar e editar imagens foram criados como sub-workflows customizados. Eles:

Recebem IDs de imagens e prompt.
Baixam os arquivos do Google Drive.
Convertem em URLs públicas (via ImageBB).
Enviam ao Nano Banana pela API do FAL.ai.
Aguardam a resposta e salvam o resultado no Google Drive.

Custos e acesso⌗

O FAL.ai cobra cerca de 4 centavos por imagem gerada.
Recursos e templates podem ser baixados gratuitamente na comunidade do criador (Free School).
Há também uma comunidade paga para aprender monetização e serviços com IA.

Sugestões de melhorias⌗

Criar um agente dedicado para gerar prompts de imagens mais otimizados.
Adicionar um logger (Google Sheets) para rastrear entradas, ferramentas usadas e custos.
Encadear com outros fluxos, como gerar vídeos a partir das imagens.

Eu construí um Agente de IA do Photoshop no n8n sem código (NanoBanana)

Neste vídeo, mostro como criei um agente de IA do Photoshop sem código dentro do n8n que pode combinar e editar imagens, pesquisar em todos os seus arquivos por conteúdos brutos ou imagens geradas e até renomeá-los automaticamente.

Com a tecnologia de ponta do novo modelo de imagens Nano Banana do Google, esse agente é um divisor de águas para criativos de anúncios e conteúdos UGC, tornando a edição e o gerenciamento de imagens de alta qualidade mais rápidos e fáceis do que nunca.

ap59 - Nano Agente de IA do Photoshop

chatgpt.com ↗