Aula e45 do INEMA.N8N ensinando a construir um agente "Photoshop IA"…

INEMA

heurística simples (cor média da camiseta, detecção de logo).

Trilha opcional Gere sem áudio por padrão; ofereça “adicionar trilha ambiente?” depois, para economizar.

Segurança e conteúdo 29) Filtros básicos Bloqueie termos sensíveis; responda: “não posso editar este tipo de conteúdo”. Evita ban do bot.

Marcas d’água e direitos Se o usuário enviar marca de terceiros, pergunte se tem permissão. Ofereça alternativa: mockup genérico.

Hacks de setup n8n 31) Saída padronizada sempre Todos os subagentes devem retornar {texto, url, tipo_documento}. Falhou? Retorne {texto: “falhou…”, url: null, tipo_documento: “texto”}.

Define required inputs no Execute Workflow Forçar parâmetros evita chamadas incompletas e loops sem fim.
Debounce de chat Ignore novas entradas por 1–2 s após receber mídia, para evitar duplicidade.
Teste A/B invisível 10% das requisições mandam para o segundo provedor. Guarde nota de qualidade; mude o default se o B vencer.

Exemplos prontos de prompts internos 35) Combinar logo na camiseta “Place the logo on the t-shirt chest area; respect occlusion with microphone and hands; preserve fabric wrinkles; photorealistic; no blur; correct perspective of the print; keep original face intact.”

Tatuagem realista “Add a lion tattoo on the right forearm skin; integrate with skin pores and hair; natural shading; do not modify clothing; no glow; keep pose identical.”
Troca de cenário “Replace background with modern podcast studio, lilac sofa, soft practical lights, shallow depth of field; keep subject, clothing and mic unchanged; correct shadow contact.”

Mini-FAQ Como baratear sem perder tanto? Rascunhos em 1024 px e 1 variante; só gerar final em 1536/2048 quando o usuário confirmar.

Quando usar Fal ou Key? Se Fal estiver mais barato para i2v no dia, use Fal; se a fila de Fal estiver lenta ou a consistência cair, troque para Key automaticamente.

Como evitar o logo por cima do microfone? Inclua “respect occlusion; microphone remains in front of the print” e, se possível, forneça máscara da área da camiseta.

Por que meus uploads do Telegram perdem qualidade? Use sempre o last file_id da lista de photos; o primeiro é a menor resolução.

Hacks de prompt e consistência visual

Inglês para o modelo, português para o usuário Exemplo: usuário pede “camiseta amarela”; o agente gera prompt interno: “same pose, yellow t-shirt, respect occlusion, natural fabric wrinkles, soft studio lighting, 35mm, shallow depth of field”.
Forçar oclusão e integridade de cena Inclua sempre: “respect occlusion; preserve objects in front; keep microphone on top of logo; maintain hand geometry”.
Separar estilo de conteúdo Use dois campos: content_prompt e style_prompt. Exemplo: content_prompt = “lion tattoo on forearm”; style_prompt = “photorealistic, soft key light, realistic skin pores”.
Seed e variantes rápidas Quando a API permitir, fixe seed para variações controladas. Gere 3 variantes trocando apenas seed e escolha a melhor.
Máscara e área de edição Se o provedor aceitar mask, passe recortes simples (retângulo) para evitar alterar a cena toda. Exemplo: “edit only t-shirt area”.

Hacks de velocidade e custo 6) Compactar polling Comece com 3–5 s de wait e exponencie até 15 s; limite a 6 tentativas. Caiu no limite? responda com link de status.

Resolução e duração inteligentes Imagens: 1024 px lado maior para rascunho; só subir para 1536/2048 no pedido “final”. Vídeo: 720p, 5–8 s por padrão.
Balancear Fal vs Key Mantenha ambos e crie um nó de seleção: se fila alta ou erro → fallback automático ao outro provedor.
Cash de uploads Armazene no IMGBB apenas quando necessário; se o Drive compartilhar URL pública, pule IMGBB para economizar.
Reuso de ativos Se detectar mesmo título e mesmo hash do arquivo, não regenere; retorne o último resultado.

Hacks de robustez e falhas 11) Idempotência por operação Gere operation_id por chat_id + timestamp; se repetir a mesma requisição em 60 s, devolva o mesmo output.

Validação antes da geração Checar: URL pública válida, tamanho do arquivo, formato aceito. Se falhar, corrija e reenvie automaticamente.
Fila simples por usuário Evite corrida de execução: enfileire por chat_id e processe 1 fluxo por vez para cada usuário.
Logs úteis Salve no Postgres: operation_id, provedor, prompt final, custo estimado, latência, url do resultado. Ajuda no suporte e auditoria.
Mensagem de falha legível “Não consegui gerar agora. Tentar com outro provedor?” Botões: Repetir, Trocar provedor, Baixar rascunho.

Hacks de experiência no Telegram 16) Sempre mandar mídia + resumo curto Enviar a foto/vídeo e, em seguida, um texto curto: “Pronto. Use ‘refinar’ para outra variação. Link no Drive”.

Comandos auxiliares /ultimas 5, /renomear Angel_Studio → Angel_Studio_v2, /ajuda, /finalizar 1536px.
Confirmações rápidas Antes de ações destrutivas (renomear/substituir), mostrar prévia e pedir ok.
Catálogo de nomes Autocomplete simples: quando o usuário começar a digitar o nome, ofereça 3 sugestões de títulos guardados.

Hacks de memória e organização 20) Esquema de títulos versionados nome_v1, nome_v2… Ao refinar, incremente automaticamente. Armazene também um campo tags: [logo, camiseta, lila].

Índice por semântica Guarde mini-descrição no Postgres. Com uma busca de texto, recupere imagens por “tatuagem leão” sem lembrar o nome exato.
Thumb otimizada Crie uma miniatura 512 px para respostas rápidas e carregamento instantâneo no Telegram, além do arquivo original.

Qualidade de fotorealismo 23) Pipeline de realce Se o provedor suportar, rode um upscaler ou face enhancement apenas na versão final, não nos rascunhos.

Pele e tecido Inclua “realistic skin texture, subsurface scattering” e “natural fabric folds; correct perspective of print”.
Cor e luz coerentes Adicione “match color temperature to scene; single key light; soft shadows; no haloing”.

Hacks para vídeo 26) Movimento simples e claro Prompts curtos e determinísticos: “walk in from left, 2s; pause 2s; gently hug, 2s; hold 1s”.

Loop de estabilidade Se o provedor oscilar o rosto/roupa, gere 2 takes e escolha o de menor variação via

uração do vídeo, resolução e número de re-tries. – Como logar tudo? Ative Execution log e armazene respostas brutas em uma tabela auxiliar.

Guia relâmpago de nós mínimos por subagente – Entradas: Set/Execute Workflow inputs – Drive: Read/Upload/Update – IMGBB: HTTP POST multipart – LLM curto: OpenRouter/OpenAI Chat – Provedor visual: HTTP Request submit + get results – Wait: 3–5 s entre polls – Build response: Set {texto, url, tipo_documento}

Segue um passo a passo direto para recriar o “Photoshop IA no Telegram” no n8n, com exemplos práticos e mini-FAQs ao final de cada bloco.

Passo 0. Pré-requisitos

Contas e chaves – Telegram Bot (BotFather) com token – Google Drive API conectada no n8n – IMGBB API key para gerar URLs públicas – Fal.ai e/ou Key.ai com APIs ativas – OpenRouter ou OpenAI para GPT-4.1 – Postgres acessível ao n8n (ou Memória Simples do n8n)
Pastas e tabelas – Pasta do Drive: /prontas/photoshop-ia (ou a sua) – Tabela Postgres para memória: public.n8n_chat_history (n8n cria se não existir)

Exemplos – Nome de pasta: /prontas/photoshop-ia – Variáveis de ambiente no n8n: FAL_API_KEY, KEY_API_KEY, IMGBB_API_KEY, OPENROUTER_API_KEY

Perguntas rápidas – Precisa Postgres? Não, mas recomendado para lembrar ids e nomes. – Posso usar só Key ou só Fal? Sim, troque apenas o nó de geração.

Passo 1. Fluxo principal no n8n

Telegram Trigger – Recebe mensagens. – Saída contém text e photo (lista de tamanhos). Sempre pegue o último file_id para HQ.
Switch entrada – Se houver photo → ramo imagem – Se houver text → ramo texto
Ramo imagem – Telegram: Download file usando last(file_id) – Google Drive: Upload do binário na pasta alvo – Pergunte o nome desejado via Telegram Send Message e renomeie com Drive Update File Name – Salve na memória: chat_id, file_id_drive, nome amigável
Ramo texto – Encaminhe message_text, chat_id e contexto recente para o Agente Principal
Agente Principal (LLM) – Modelo: GPT-4.1 – Memória: Postgres, key = chat_id (ou from.id para sessões individuais) – Output Parser: sempre retorne json com campos texto, url, tipo_documento

Exemplo de formato de saída { "texto": "Imagem combinada pronta.", "url": "https://drive.google...", "tipo_documento": "foto" }

Perguntas rápidas – Como garantir HQ no Telegram? Usar last(file_id). – Onde guardo o nome amigável? Em Postgres e também no Drive.

Passo 2. Padronizar ferramentas do Agente Principal Crie funções acessíveis pelo agente via Sub-workflows (Execute Workflow): – criar_imagem – editar_imagem – combinar_imagens – criar_video – drive_buscar – drive_renomear – drive_listar_geradas

Sempre force parâmetros esperados no sub-workflow: – criar_imagem: title, prompt – editar_imagem: image_id, title, prompt – combinar_imagens: image_id_1, image_id_2, title, prompt – criar_video: image_id, title, prompt

Exemplos de instrução ao LLM – “combine o logo Logo_YAMasters na camiseta de JoseLias_Podcast” – “editar: mesma pose, camiseta amarela, tatuagem de leão, fotorrealista”

Perguntas rápidas – Por que forçar parâmetros? Para o agente não esquecer nada crítico. – E se faltar imagem? O agente deve responder pedindo o arquivo faltante.

Passo 3. Subagente combinar_imagens

Entrada – image_id_1, image_id_2, title, prompt
Preparação – Drive: obter arquivos pelos ids – Upload temporário ao IMGBB para URLs públicas – LLM curto para lapidar prompt em inglês
Geração com Fal ou Key – Fal example: endpoint de image-to-image/compose (submit request) – Loop: esperar 5 s → get results até state=success
Saída – HTTP GET para baixar imagem gerada – Upload ao Google Drive com title – Retornar ao Agente Principal: texto, url_do_drive, tipo_documento=foto

Exemplo de prompt ao modelo “Place logo on t-shirt, natural fabric shading, preserve wrinkles, consistent lighting, frontal shot.”

Perguntas rápidas – Preciso IMGBB? Sim, se o provedor exigir URL pública. – PNG ou JPG? Use PNG quando precisar de transparência; senão JPG.

Passo 4. Subagente editar_imagem

Entrada – image_id, title, prompt
Fluxo – Drive → baixa binário → IMGBB → URL pública – LLM curto otimiza prompt para inpainting/edição em inglês – Key.ai ou Fal.ai: cria task de edição – Loop de polling até success – Baixa resultado → Drive Upload → retorna texto, url, tipo_documento=foto

Exemplos – “same pose, yellow t-shirt, lion tattoo on

automaticamente o envio correto.

– Exemplos de comando úteis “coloque este logo nesta camiseta” “edite esta imagem: mesma pose, camiseta amarela, tatuagem de leão” “crie vídeo com esta imagem: camaleão entra pela esquerda e me abraça” “troque o fundo por um estúdio moderno com sofá lilás” “busque a imagem JoseLias_Podcast e combine com Angel_Studio”

Resumo direto

Mostra a criação de um “agente Photoshop IA” que roda totalmente dentro do Telegram. Ele recebe texto e/ou imagens, decide o que fazer e aciona subagentes para combinar, editar ou criar imagens, além de gerar vídeos a partir de uma imagem. Tudo é salvo e organizado no Google Drive, com recuperação posterior pelo nome. Há memória em Postgres (ou simples) para lembrar arquivos anteriores. Os modelos usados incluem GPT-4.1 para interpretar instruções e Fal/Key para geração e edição visual. No Telegram, o bot envia a saída já como mídia (foto ou vídeo) acompanhada de um texto explicativo. O autor demonstra casos reais: aplicar logo em camiseta, refinar realismo, adicionar tatuagem, trocar cenário por um estúdio moderno com sofá lilás, combinar imagens e, por fim, gerar um vídeo de um camaleão entrando e abraçando o apresentador. O fluxo é modular: um agente principal roteia pedidos para quatro subagentes e padroniza a saída com campos texto, url e tipo_de_documento, o que simplifica o envio correto pelo Telegram.

Tópicos principais com exemplos

Entrada e armazenamento – O bot detecta se a mensagem é texto ou imagem. – Se imagem: baixa a versão de maior qualidade usando o last file ID e salva no Google Drive com nome definido pelo usuário. Exemplo: enviar “jose_lias.jpg” e nomear “JoseLias_Podcast”.
Agente principal e memória – Interpreta instruções com GPT-4.1 e decide qual subagente acionar. – Usa Postgres para lembrar id e nome de imagens já usadas, permitindo pedir “use a imagem JoseLias_Podcast”. Exemplo: “combina o logo da comunidade com JoseLias_Podcast”.
Subagente combinar imagens – Baixa duas imagens, publica temporariamente via IMGBB para ter URLs públicas e envia ao modelo (Fal ou Key) com prompt otimizado em inglês. Exemplo: “coloque o logo na camiseta do José Lias”.
Subagente editar imagem – Recebe 1 imagem + prompt; envia para Key ou Fal para alterar elementos, cores, textura, etc. Exemplo: “mesma pose, camiseta amarela e tatuagem de leão”.
Subagente criar imagem do zero – Gera imagem apenas a partir de texto. Exemplo: “camaleão hiper-realista em tom lilás”.
Subagente criar vídeo – Usa uma imagem e um prompt para gerar vídeo curto (ex.: Fal Veo 3 Fast ou Key). Exemplo: “camaleão entra pela esquerda, senta ao lado e me abraça”.
Padronização da saída – Sempre retorna estrutura com texto, url e tipo_de_documento = foto ou vídeo. – O agente principal envia pelo Telegram a mídia correta e um texto explicativo.
Organização no Drive e recuperação – Renomear, buscar, listar arquivos gerados e os enviados pelo usuário. Exemplo: “procure a imagem com nome Angel_Studio”.
Dicas práticas – Trabalhar prompts visuais em inglês melhora o resultado em Fal/Key. – Separar agente principal e subagentes facilita escala e depuração. – Usar IMGBB ou compartilhar pelo Drive para obter URLs públicas.
Custos e decisões de modelo – Fal e Key têm preços diferentes; autor nota queda de preço do Veo 3 Fast no Fal, mas compara com Key para escolher conforme custo/resultado. Exemplo: optar por Fal quando o preço por segundo de vídeo estiver mais baixo.

Perguntas rápidas com respostas

– Posso rodar tudo só no Telegram sem abrir software de design? Sim. O Telegram é a interface; n8n orquestra e Fal/Key geram/ editam imagens e vídeos.

– Como manter qualidade das imagens enviadas pelo Telegram? Sempre baixe usando o last file ID para pegar a versão em alta resolução.

– Dá para reutilizar imagens antigas sem reenviar? Sim. A memória em Postgres guarda id e nome; peça pelo nome que o agente recupera.

– O bot envia links ou arquivos? Ambos. Ele baixa do Drive e manda como foto/vídeo no Telegram, mais o texto explicativo e a url.

– Preciso usar Fal e Key ao mesmo tempo? Não. O fluxo é modular; troque o nó de geração/edição pelo provedor preferido.

– Como garantir saídas consistentes no Telegram? Padronize a resposta dos subagentes com texto, url e tipo_de_documento; o agente principal escolhe

e45. Crie seu Photoshop IA no Telegram

🌟 Objetivo da aula Nesta aula você vai aprender a construir um superagente de "Photoshop IA" que trabalha a partir do Telegram e permite automatizar tarefas de edição, combinação, criação e geração de vídeos a partir de imagens. Tudo isso sem precisar abrir nenhum software de design e combinando IA generativa, memória contextual e armazenamento inteligente. Uma ferramenta incrível para criar conteúdos visuais, fazer testes rápidos com clientes ou até montar fluxos de conteúdo automatizado para redes sociais.

🛠️ O que conseguimos com esta automação?

Receber e gerenciar imagens do Telegram com nome personalizado.
Combinar duas imagens (ex: colocar um logo em uma camiseta).
Editar uma imagem já gerada (ex: mudar cores ou elementos).
Criar novas imagens a partir de texto sem referência.
Gerar vídeos a partir de uma imagem e prompt.
Salvar tudo no Google Drive com nomes personalizados.
Recuperar facilmente imagens anteriores.
Interface 100% via Telegram com respostas visuais.

🧩 Estrutura do fluxo automatizado Entrada pelo Telegram: O bot detecta se você envia texto ou imagem.

Processamento inicial:

Se for imagem: é baixada e salva no Google Drive.
Se for texto: é enviado ao agente principal com contexto.

Agente Principal (Photoshop IA):

Direciona o fluxo e decide qual subagente executar.
Usa memória Postgres para lembrar imagens anteriores e seus nomes.

Subagentes:

Criar imagem: A partir de um prompt, sem imagem base.
Editar imagem: A partir de uma imagem enviada e um prompt.
Combinar imagens: Sobrepor duas imagens com contexto.
Criar vídeo: Gera um vídeo a partir de uma imagem e descrição.
Gerenciamento de arquivos: Buscar, renomear e organizar conteúdo no Drive.

Saída pelo Telegram:

Se o resultado for imagem, é baixado e enviado como imagem.
Se for vídeo, é baixado e enviado como vídeo.
Sempre acompanhado de uma mensagem explicativa.

🛠️ Ferramentas utilizadas

N8N (motor de automação)
Telegram (interface de interação)
Google Drive (armazenamento de arquivos)
IMGBB (hospedagem temporária de imagens públicas)
GPT-4.1 (OpenRouter + fallback em OpenAI)
Key e Fal.ai (para geração e edição de imagens e vídeos)
Postgres (como memória contextual)

🧠 Dicas principais que aprendemos

Sempre usar o "last file ID" ao baixar imagens do Telegram para obter a versão em alta qualidade.
Manter uma estrutura de saída padrão (texto + URL + tipo de documento) para facilitar respostas automáticas.
Trabalhar em inglês melhora bastante a qualidade visual dos modelos generativos (especialmente no Fal e Key).
Separar o agente principal dos subagentes melhora a escalabilidade e a depuração.
Adicionar memória (Postgres ou simples) permite trabalhar com arquivos anteriores sem precisar reenviá-los.
O uso de IMGBB ou compartilhamento via Google Drive permite obter URLs públicas necessárias para trabalhar com as APIs de imagem e vídeo.
Este fluxo pode ser adaptado para usar qualquer outro modelo (Midjourney, Leonardo, Runway...) simplesmente trocando o nó de geração.

Resources

Agente Photoshop
Criar imagens
Editar imagens
Combinar imagens
Criar vídeo
Fal.ia Nano-Banana
Fal.AI Veo 3 Fast
Kie.AI Nano Banana
Kie.AI Veo 3 Fast

Crie um Photoshop com IA direto do Telegram

E se eu dissesse que agora vocês podem editar, combinar, gerar imagens e até criar vídeos realistas apenas escrevendo no Telegram?

🔥 Eu trago uma automação insana: Um agente de “Photoshop IA” que funciona como seu editor visual pessoal, 24/7, no celular, sem precisar abrir Canva, Figma ou Photoshop.

📦 O que esse “bicho” faz?
✅ Você envia uma imagem pelo Telegram e ela é salva com nome no seu Drive
✅ Você diz “coloque este logo nesta camiseta” → ele faz
✅ Você pede “troque o fundo por um sofá lilás” → ele faz
✅ Você diz “crie um vídeo onde entra um camaleão e me abraça” → ele faz 😱
✅ E tudo fica salvo, organizado e acessível para reutilizar quando quiser

💡 Não é só um modelo. É um sistema completo com:

N8N como núcleo de automação
GPT-4.1 para interpretar instruções
Fal e Key como motores visuais
Google Drive + IMGBB como memória visual
E Postgres para lembrar das suas imagens anteriores!

Uma brutalidade para criadores, agências, SaaS, consultores visuais ou qualquer pessoa que queira escalar a geração de conteúdo visual sem limites.

🧠 Literalmente você pode escrever: “Edite esta imagem. Quero a mesma pose mas com camiseta amarela e tatuagem de leão.” E em segundos, você tem isso no seu celular.

E não apenas imagens… 🎥 Também gera VÍDEOS realistas a partir de imagens + texto. Isso é outro nível.

kie.ai/playground/veo3 ↗

kie.ai/nano-banana ↗

fal.ai ↗

Cria Videos

Combina Imagens

edita Imagem

cria imagem

.e45 - Photoshop IA no Telegram

Aula e45 do INEMA.N8N ensinando a construir um agente "Photoshop IA"…

Recursos