Tutorial sobre como usar Firecrawl com n8n para extrair dados…
INEMA
Resumo completo "Transforme qualquer site em dados prontos para LLM em segundos com n8n e Firecrawl":
Como transformar qualquer site em dados prontos para modelos de linguagem (LLMs), usando o Firecrawl em conjunto com o n8n, automatizando a coleta de dados estruturados de múltiplas páginas web.
Etapas principais abordadas:⌗
-
Introdução ao Firecrawl: - Plataforma open-source para scrape, crawl, map e extract. - A função extract permite usar prompts para extrair dados específicos de uma URL.
-
Diferença entre Scrape e Extract: - Scrape: retorna HTML ou Markdown da página. - Extract: permite usar um prompt para extrair informações específicas, como nome da empresa e serviços.
-
Exemplo prático com o site “Quotes to Scrape”: - Teste manual do HTTP GET no n8n para ver o HTML bruto. - Uso do Firecrawl com prompt para extrair todas as citações e seus autores do site inteiro. - Resultado: JSON com campos
text(citação) eauthor. -
Integração no n8n: - Uso de HTTP Request com método POST. - Importação automática do
curla partir da documentação do Firecrawl. - Criação de credencial genérica no n8n com headerAuthorization: Bearer <API_KEY>. -
Configuração do corpo da requisição: - Inserção da URL com
*para rastrear todas as páginas do domínio. - Definição do prompt e schema JSON (estrutura esperada:texteauthor). - Correção de erros de formatação do JSON usando o ChatGPT. -
Verificação do status da extração (Polling): - Segundo HTTP Request verifica se a extração foi concluída (
GET /extract/:id). - Se ainda estiver processando (datavazia), aguarda 5 segundos e tenta novamente. - Quando pronto, retorna os dados extraídos. -
Tratamento de diferentes tipos de retorno: - Tratamento de mudança de tipo (array vazio → objeto preenchido). - Estratégia com ramo de erro para continuar o fluxo caso o dado não esteja pronto.
-
Resultado com ou sem asterisco na URL: - Com
*→ varre todo o site. - Sem*→ apenas a página inicial é lida (menos resultados). -
Exportação e reuso do fluxo: - Workflow pode ser salvo e reutilizado. - Possível aplicar em massa para múltiplas URLs (ex: planilhas).
-
Possibilidades futuras:
- Criação de campanhas de prospecção automatizadas.
- Geração de dados estruturados para alimentar modelos LLM automaticamente.
- Participação na comunidade para mais exemplos práticos e suporte.
Tópicos listados com exemplos:
-
Firecrawl funcionalidades:
- Scrape: Retorna HTML
- Extract:URL + Prompt→ JSON estruturado -
Prompt de extração: - Exemplo: “Extraia todas as citações e seus autores do site.”
-
Schema esperado pelo LLM: -
{"quotes": [{"text": "Citação", "author": "Autor"}]} -
Importação no n8n via
curl: - Comando do Firecrawl gera automaticamente configuração completa. -
Autenticação genérica com header: -
Authorization: Bearer <API_KEY> -
Polling com verificação de status: - Se
dataestiver vazio → esperar → repetir até completar. -
Uso do
*na URL: -"https://quotes.toscrape.com/*"→ varre todas as páginas. -
Tratamento de erro no fluxo do n8n: - Se
datamuda de array para objeto → criar fluxo com erro controlado. -
Casos de uso aplicáveis: - Extração de dados para prospecção, análise de concorrentes, SEO, etc.
-
Reaproveitamento com planilhas: - Input com várias URLs → automação completa com n8n.
Transforme Qualquer Site em Dados Prontos para LLM em Segundos com n8n & Firecrawl
Como usar o n8n e o Firecrawl para ir além da raspagem básica da web. Você aprenderá a criar um extrator de site inteligente que pesquisa várias páginas e extrai informações relevantes com base em seu prompt personalizado.
.ap15 - Raspe Site e leve para LLM - FireCrawl
1