cerebro-vip INEMA.CLUB
inícioINEMA.N8N

Tutorial sobre como usar Firecrawl com n8n para extrair dados…

INEMA.N8N · 2025-04-14 · ~3 min · ver no Telegram ↗

INEMA

youtube.com/watch ↗

Resumo completo "Transforme qualquer site em dados prontos para LLM em segundos com n8n e Firecrawl":

Como transformar qualquer site em dados prontos para modelos de linguagem (LLMs), usando o Firecrawl em conjunto com o n8n, automatizando a coleta de dados estruturados de múltiplas páginas web.

Etapas principais abordadas:

  1. Introdução ao Firecrawl: - Plataforma open-source para scrape, crawl, map e extract. - A função extract permite usar prompts para extrair dados específicos de uma URL.

  2. Diferença entre Scrape e Extract: - Scrape: retorna HTML ou Markdown da página. - Extract: permite usar um prompt para extrair informações específicas, como nome da empresa e serviços.

  3. Exemplo prático com o site “Quotes to Scrape”: - Teste manual do HTTP GET no n8n para ver o HTML bruto. - Uso do Firecrawl com prompt para extrair todas as citações e seus autores do site inteiro. - Resultado: JSON com campos text (citação) e author.

  4. Integração no n8n: - Uso de HTTP Request com método POST. - Importação automática do curl a partir da documentação do Firecrawl. - Criação de credencial genérica no n8n com header Authorization: Bearer <API_KEY>.

  5. Configuração do corpo da requisição: - Inserção da URL com * para rastrear todas as páginas do domínio. - Definição do prompt e schema JSON (estrutura esperada: text e author). - Correção de erros de formatação do JSON usando o ChatGPT.

  6. Verificação do status da extração (Polling): - Segundo HTTP Request verifica se a extração foi concluída (GET /extract/:id). - Se ainda estiver processando (data vazia), aguarda 5 segundos e tenta novamente. - Quando pronto, retorna os dados extraídos.

  7. Tratamento de diferentes tipos de retorno: - Tratamento de mudança de tipo (array vazio → objeto preenchido). - Estratégia com ramo de erro para continuar o fluxo caso o dado não esteja pronto.

  8. Resultado com ou sem asterisco na URL: - Com * → varre todo o site. - Sem * → apenas a página inicial é lida (menos resultados).

  9. Exportação e reuso do fluxo: - Workflow pode ser salvo e reutilizado. - Possível aplicar em massa para múltiplas URLs (ex: planilhas).

  10. Possibilidades futuras:

    • Criação de campanhas de prospecção automatizadas.
    • Geração de dados estruturados para alimentar modelos LLM automaticamente.
    • Participação na comunidade para mais exemplos práticos e suporte.

Tópicos listados com exemplos:

  1. Firecrawl funcionalidades:
    - Scrape: Retorna HTML
    - Extract: URL + Prompt → JSON estruturado

  2. Prompt de extração: - Exemplo: “Extraia todas as citações e seus autores do site.”

  3. Schema esperado pelo LLM: - {"quotes": [{"text": "Citação", "author": "Autor"}]}

  4. Importação no n8n via curl: - Comando do Firecrawl gera automaticamente configuração completa.

  5. Autenticação genérica com header: - Authorization: Bearer <API_KEY>

  6. Polling com verificação de status: - Se data estiver vazio → esperar → repetir até completar.

  7. Uso do * na URL: - "https://quotes.toscrape.com/*" → varre todas as páginas.

  8. Tratamento de erro no fluxo do n8n: - Se data muda de array para objeto → criar fluxo com erro controlado.

  9. Casos de uso aplicáveis: - Extração de dados para prospecção, análise de concorrentes, SEO, etc.

  10. Reaproveitamento com planilhas: - Input com várias URLs → automação completa com n8n.

Transforme Qualquer Site em Dados Prontos para LLM em Segundos com n8n & Firecrawl

Como usar o n8n e o Firecrawl para ir além da raspagem básica da web. Você aprenderá a criar um extrator de site inteligente que pesquisa várias páginas e extrai informações relevantes com base em seu prompt personalizado.

.ap15 - Raspe Site e leve para LLM - FireCrawl

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗