Conteúdo de um vídeo (ap64) sobre Claude Sonnet 4.5 integrado ao n8n,…
INEMA
para michael@exemplo.com e agende almoço hoje às 14:00 com bob@exemplo.com.
- Tratamento de erros e estabilidade
- Se uma chamada falhar, faça retry com backoff.
- Se o agente confundir argumentos, sanitize antes (regex de e-mail, datas ISO, títulos não vazios).
- Se expor muitas ferramentas diretas causar erro, reduza e mantenha apenas via sub-agentes.
Passo a passo 5 — Medir e escolher por ROI⌗
- Criar planilha de avaliação
- Colunas: caso de teste, modelo, custo estimado, tokens in/out, latência, nota, observações.
- Preencher automaticamente via nós Set/Append Sheet no fluxo.
- Decidir por caso de uso
- Para codificação longa e coerência de projeto, testar primeiro Sonnet 4.5.
- Para custo menor em tarefas básicas, testar GPT-4.1/5.
- Fixar um modelo padrão por tarefa e documentar quando trocar.
Tópicos com exemplos rápidos⌗
Conexão do modelo
- O que fazer: criar credencial e testar hello.
- Exemplo: se Sonnet 4.5 via Anthropic retornar erro de top_p/temperature, usar OpenRouter e repetir.
Criação de conteúdo
- O que fazer: mesmo prompt, trocar apenas o modelo e comparar formato/qualidade.
- Exemplo: e-mail HTML sobre sono; Sonnet 4.5 tende a formatar mais rico; GPT-5 pode trazer fontes.
Contexto grande
- O que fazer: converter PDF para .txt, chunking, perguntas objetivas.
- Exemplo: 100k tokens em ~8–10 chunks; injetar só 2–3 chunks relevantes por pergunta.
Ferramentas com sub-agentes
- O que fazer: encapsular busca, contatos, e-mail e calendário em sub-workflows.
- Exemplo: pedido único dispara os quatro e retorna confirmação final.
Medição e custo
- O que fazer: rodar 50–200 casos, registrar custo/latência/nota.
- Exemplo: escolher o modelo por ROI, não por hype.
Perguntas rápidas com respostas⌗
- Preciso de prompt de sistema longo?
- Não. Um prompt mínimo funciona bem; foque em dar dados corretos e boas ferramentas.
- Por que meu agente erra argumentos de ferramenta?
- Falta de validação. Adicione checagens de e-mail/data e normalize parâmetros antes de chamar o nó.
- Quantas ferramentas diretas posso expor?
- Poucas. Prefira sub-agentes. Muitos tools diretos aumentam chance de erro de parsing.
- Como lidar com documentos que passam de 200k tokens?
- Chunking + RAG: traga apenas os trechos relevantes por consulta.
- Quando Sonnet 4.5 compensa?
- Codificação, sessões longas e coerência entre muitos arquivos. Teste contra custo real.
- Quantos casos para um benchmark confiável?
- 50–200 por tarefa. Dez casos servem só como sinal inicial.
Passo a passo 1 — Conectar o Claude Sonnet 4.5 ao n8n⌗
- Criar credencial
- Opção A Anthropic: acesse o console da Anthropic, cadastre um cartão e gere uma API key.
- Opção B OpenRouter (recomendado se o Sonnet 4.5 der erro de parâmetros): crie uma conta no OpenRouter e gere uma API key.
- Adicionar credencial no n8n
- Em Credentials, crie uma credencial para Anthropic ou OpenRouter e cole a API key.
- Criar workflow base
- Adicione um nó Manual Trigger.
- Adicione um nó AI Agent ou Chat Model.
- Modelo: selecione Claude Sonnet 4.5.
- System prompt mínimo: Você é um assistente útil. Data/hora: {{ $now }}.
- Teste com a mensagem hello.
- Se aparecer erro de top_p/temperature via Anthropic, troque o provedor do nó para OpenRouter e selecione novamente sonnet-4.5.
Passo a passo 2 — Experimento de criação de conteúdo (comparar modelos)⌗
- Preparar o prompt de teste
- Mensagem do usuário: Crie um e-mail em HTML, tom profissional, sobre os efeitos de dormir pouco. Inclua seções e recomendações.
- Rodar com 3 modelos
- Troque apenas o modelo do nó e execute três vezes: GPT-4.1, Claude Sonnet 4.5, GPT-5.
- Compare clareza, estrutura, presença de fontes e formatação HTML.
- Opcional: enviar por e-mail
- Adicione nó Email Send (SMTP) depois do AI Agent.
- Mapear o HTML gerado para o campo HTML Body.
- Enviar para um destinatário de teste.
Exemplo de prompt rápido para o nó Crie um e-mail em HTML responsivo sobre os efeitos da privação de sono em adultos. Use título, subtítulos, bullets e uma seção de recomendações práticas. Linguagem clara e objetiva.
Passo a passo 3 — Experimento de contexto com documento grande⌗
- Preparar o documento
- Converta o PDF alvo para .txt localmente (fica mais simples/estável que extrair no fluxo).
- Salve como apple_10k.txt dentro do host do n8n.
- Carregar o texto no fluxo
- Nó Read Binary File → apple_10k.txt.
- Nó Move Binary Data → to JSON (texto em field: doc).
- Nó Function para chunking do texto em partes de 3–5 mil tokens aproximados (por tamanho em caracteres).
Sugestão de Function para chunking const text = $json.doc; const maxChars = 12000; // ~3–4k tokens aproximados const chunks = []; for (let i = 0; i < text.length; i += maxChars) { chunks.push({ chunk: text.slice(i, i + maxChars) }); } return chunks.map(c => ({ json: c }));
- Avaliar perguntas
- Crie um nó Set com um array de perguntas objetivas (ex.: receita, lucro, guidance, riscos).
- Use Split In Batches para iterar pelas perguntas.
- Em cada iteração, passe a pergunta + 2–3 chunks relevantes para o AI Agent.
- Registre a resposta e, se tiver gabarito, calcule uma nota de 0 a 5 em um Function.
- Comparar modelos e custo
- Execute o mesmo lote de perguntas com GPT-5 e depois com Sonnet 4.5.
- Salve por execução: modelo, média de acerto, tokens de entrada/saída (se disponível no provedor), custo estimado e latência.
- Para ter confiança, rode 50–200 perguntas. Com 10 perguntas é só indicativo.
Passo a passo 4 — Ferramentas com sub-agentes (evita sobrecarga)⌗
- Criar sub-workflow ResearchAgent
- Entrada: query.
- Nós internos: um buscador (Tavily/HTTP Request/Perplexity) → AI Agent para síntese curta → saída JSON {summary, sources}.
- Criar sub-workflow ContactAgent
- Entrada: nome.
- Origem simples: Google Sheets ou uma tabela local com Colunas [name, email].
- Saída: {email} validado.
- Criar sub-workflow EmailAgent
- Entrada: {to, subject, html}.
- Nó Email Send (SMTP).
- Valide o formato de e-mail antes de enviar.
- Criar sub-workflow CalendarAgent
- Entrada: {title, start, attendees}.
- Nó Google Calendar (Create Event) ou outro calendário.
- Saída: {eventId, link}.
- Orquestrar no workflow principal
- Nó AI Agent principal recebe uma instrução em linguagem natural e decide a sequência.
- Em vez de expor 10 ferramentas direto ao agente, chame os sub-workflows via Execute Workflow ou HTTP Node interno.
- Exemplo de pedido único: Pesquise as últimas novidades sobre agentes de voz, envie um resumo
Passo a Realizar
- Criar credencial na Anthropic ou no OpenRouter.
- Gerar chave de API.
- Colar a chave no n8n e salvar.
- Selecionar modelo Claude Sonnet 4.5.
- Criar agente de IA no n8n.
- Testar com prompt simples (ex.: “hello”).
- Se der erro no Sonnet 4.5 via Anthropic → usar OpenRouter.
- Experimento 1: pedir criação de e-mail HTML (sem system prompt).
- Comparar saída com GPT-4.1 e GPT-5.
- Experimento 2: carregar PDF grande (~100k tokens).
- Fazer perguntas ao documento e medir acerto/custo entre modelos.
- Experimento 3: conectar ferramentas (e-mail, calendário, busca).
- Testar pedido único (ex.: pesquisar tema + enviar e-mail + agendar evento).
- Se muitas ferramentas derem erro → agrupar em sub-agentes/subworkflows.
- Validar argumentos antes de enviar (e-mail válido, data correta).
- Repetir testes com 50–200 exemplos para avaliar custo x desempenho.
- embeddings + RAG; traga apenas os chunks relevantes em cada consulta e mantenha um índice vetorial.
- Posso deixar o agente agir sem sistema prompt?
- Resposta: sim, modelos fortes funcionam com prompts mínimos, mas melhores resultados vêm quando você fornece contexto, ferramentas e validações adequadas.
- O que fazer quando o agente "se perde" ao chamar ferramentas?
- Resposta: modularize (sub-agents), valide args, reduzir número de ferramentas simultâneas e adicionar checks de integridade antes da execução.
- Quantos exemplos devo rodar em um benchmark?
- Resposta: idealmente 100–200 para obter estatísticas confiáveis (média, desvio, custo por execução).
- Como reduzir custos sem perder qualidade?
- Resposta: usar modelos menores para tasks simples, compressão de prompts, RAG para reduzir tokens enviados e escolher o modelo por ROI (custo vs melhoria de acurácia).
Hacks práticos extraídos do vídeo (Claude Sonnet 4.5 + n8n)⌗
- Use OpenRouter para contornar bugs e acessar versões beta
- O que fazer: conectar Sonnet 4.5 via OpenRouter em vez do console direto da Anthropic para evitar erros de parâmetros (top_p, temperature) e, quando disponível, obter janelas de contexto maiores (beta/enterprise).
- Exemplo: criar chave no OpenRouter → colar em n8n como credencial → selecionar sonnet-4.5 via OpenRouter.
- Teste custo x desempenho com avaliações objetivas
- O que fazer: rodar avaliações comparativas (ex.: 100+ casos) medindo precisão e tokens usados (input/output) antes de escolher modelo para produção.
- Exemplo: rodar a mesma tarefa em Sonnet 4.5 e GPT5, coletar score médio e custo por execução; escolha com base em ROI.
- Gerencie a janela de contexto com chunking e RAG quando for > limite
- O que fazer: dividir documentos enormes em chunks, indexar embeddings e usar RAG (recuperação + contexto) para manter respostas precisas sem pressionar o token limit.
- Exemplo: PDF de 120 páginas → dividir em pedaços de ~3–5k tokens → criar embeddings → trazer apenas os chunks relevantes ao agente.
- Evite sobrecarregar o agente com muitas ferramentas diretas — agrupe em sub-agentes/subworkflows
- O que fazer: em vez de dar 10 ferramentas soltas, encapsular funcionalidades (email, calendário, pesquisa) em sub-agents que fazem validação de argumentos e falha controlada.
- Exemplo: Agente "Contato" (busca e validação de e-mails) + Agente "EnvioEmail" (formatação e envio) → agente principal invoca sub-agents.
- Use prompts mínimos do sistema quando o modelo já for forte, mas forneça contexto e ferramentas específicas
- O que fazer: testes mostraram que Sonnet 4.5 entrega muito mesmo com prompts de sistema simples; ainda assim forneça dados e ferramentas corretas.
- Exemplo: system: "Você é um assistente útil." + payload com data/hora + tool args bem formatados.
- Validar e sanitizar argumentos de ferramenta antes do envio
- O que fazer: scripts de pré-validação (email válido, formato de data) para evitar erros de parsing gerados pelo agente ao chamar ferramentas.
- Exemplo: checar regex de e-mail e converter datas ISO antes de passar ao nó de envio.
- Otimize custo monitorando tokens e ajustando frequência de chamadas
- O que fazer: comprimir prompts, limpar contexto irrelevante e controlar frequência de run em automações caras.
- Exemplo: usar templates compactos para instruções repetitivas e armazenar contexto longo no vector DB em vez de mandar tudo a cada chamada.
- Use avaliações com amostras diversificadas e N grande (50–200) para decisões robustas
- O que fazer: não confiar em 10 samples; medir variância, custo e latência.
- Exemplo: rodar 200 queries de busca de fatos e comparar média, desvio padrão e custo total.
- Trate falhas como parte do fluxo — rollback, retries e logs legíveis
- O que fazer: implementar retry exponencial, fallback (usar outro modelo ou sub-agent) e logs que permitam reproduzir inputs/outputs.
- Exemplo: se Sonnet retorna erro de parsing em tool call → retry com sanitização dos args → se falhar, usar GPT-4.1 como fallback.
- Aproveite Sonnet 4.5 para tarefas de codificação/engenharia e processos long-running
- O que fazer: delegar correção de código, geração de testes e manutenção de longas sessões de codificação a Sonnet, com checkpoints e revisão humana.
- Exemplo: pipeline que pede ao agente gerar PR + testes unitários + resumo das mudanças; humano revisa antes do merge.
Perguntas frequentes rápidas (com respostas)
- Qual modelo escolher: Sonnet 4.5 ou GPT5?
- Resposta: depende do caso. Sonnet 4.5 costuma brilhar em codificação, raciocínio técnico e tarefas long-run; GPT5 pode ser mais barato por token. Compare precisão vs custo em 100+ testes para decidir.
- Como evitar problema de parâmetros (top_p, temperature) em Anthropic?
- Resposta: usar OpenRouter como roteador ou garantir que o SDK/cliente esteja atualizado; sanitizar parâmetros antes do envio.
- Como lidar com PDFs enormes (100k+ tokens)?
- Resposta: chunk
Lançamento do Claude Sonnet 4.5⌗
- Modelo lançado em 29/09/2025 pela Anthropic.
- Disponível via web, iOS, Android e API.
- Criado para ajudar em codificação, construção de agentes, fluxos de negócios/pesquisa e uso de computadores como um assistente humano.
- Se destaca em tarefas de longo prazo, mantendo coerência em grandes bases de código.
Comparação com outros modelos da família Claude⌗
- Haiku → mais rápido e barato.
- Sonnet → equilíbrio entre custo e desempenho.
- Opus → máxima capacidade de raciocínio, mas bem mais caro.
- Sonnet 4.5 mantém o mesmo preço do Sonnet 4, mas supera em memória, codificação, automação real e tarefas práticas.
Contexto e Limitações⌗
- Janela de contexto: 200k tokens (até 1 milhão em planos beta/enterprise via OpenRouter).
- Ainda abaixo de concorrentes como GPT-4.1 (1M) e Gemini (2,5M), mas muito além de usos básicos.
Benchmarks e Desempenho⌗
- SWE-Bench Verified (engenharia de software): 77–82%, nível de programador profissional.
- Supera GPT-5 e Codex em tarefas de programação.
- Melhor em áreas críticas: finanças, medicina, direito e ciência, oferecendo respostas mais precisas e de nível especializado.
Experimentos práticos no vídeo⌗
- Criação de conteúdo
- Teste de geração de e-mail HTML sobre falta de sono.
- GPT-4.1 → resultado simples.
- Sonnet 4.5 → mais detalhado, colorido e bem estruturado.
- GPT-5 → profissional, com fontes, considerado ligeiramente melhor.
- Avaliação de contexto (PDF 100k tokens)
- GPT-5 obteve 4,2/5.
- Sonnet 4.5 obteve 4,3/5, levemente superior, mas com custo maior.
- Observação: para testes reais seriam necessários 100+ casos, não apenas 10.
- Chamadas de ferramentas (n8n)
- Sonnet 4.5 conectado a e-mail, calendário e busca.
-
Conseguiu:
- Pesquisar tema (agentes de voz).
- Enviar e-mail com resumo.
- Criar evento de calendário.
- Melhor desempenho quando as ferramentas foram agrupadas em sub-agentes, evitando sobrecarga.
Conclusões do criador⌗
- Sonnet 4.5 não é “o rei dos LLMs”, mas se mostra fortíssimo para codificação, agentes e automações complexas.
- Cada modelo tem pontos fortes → escolha deve ser feita pelo caso de uso (custo, contexto, raciocínio, especialidade).
- O avanço reduz a barreira para iniciantes em automação (mesmo sem saber programar).
- Impacto esperado em setores-chave como finanças, medicina, direito, ciência e programação.
Construa QUALQUER COISA com Claude Sonnet 4.5 e n8n AI Agents Neste vídeo, eu explico em detalhes o novo modelo Claude Sonnet 4.5 da Anthropic e mostro o que há de novo nesse lançamento. Eu abordo seus pontos fortes, fracos e como ele se compara no uso real.
Depois, mostro passo a passo como conectar rapidamente um agente de IA ao Sonnet 4.5 e colocá-lo à prova. Realizamos três experimentos: primeiro, criação de conteúdo em comparação com outros modelos; segundo, uma avaliação da janela de contexto para ver como ele lida com perguntas; e terceiro, conectando-o a várias ferramentas para atuar como um assistente definitivo.
Se você tem curiosidade sobre esse novo modelo e como ele pode mudar o jogo da automação, este vídeo vai te dar uma visão clara do que ele realmente é capaz de fazer.
Dublado
ap64 - Construa QUALQUER COISA Claude Sonnet 4.5
1