Tutorial sobre como usar Firecrawl com n8n para extrair dados…

INEMA

Resumo completo "Transforme qualquer site em dados prontos para LLM em segundos com n8n e Firecrawl":

Como transformar qualquer site em dados prontos para modelos de linguagem (LLMs), usando o Firecrawl em conjunto com o n8n, automatizando a coleta de dados estruturados de múltiplas páginas web.

Etapas principais abordadas:⌗

Introdução ao Firecrawl: - Plataforma open-source para scrape, crawl, map e extract. - A função extract permite usar prompts para extrair dados específicos de uma URL.
Diferença entre Scrape e Extract: - Scrape: retorna HTML ou Markdown da página. - Extract: permite usar um prompt para extrair informações específicas, como nome da empresa e serviços.
Exemplo prático com o site “Quotes to Scrape”: - Teste manual do HTTP GET no n8n para ver o HTML bruto. - Uso do Firecrawl com prompt para extrair todas as citações e seus autores do site inteiro. - Resultado: JSON com campos text (citação) e author.
Integração no n8n: - Uso de HTTP Request com método POST. - Importação automática do curl a partir da documentação do Firecrawl. - Criação de credencial genérica no n8n com header Authorization: Bearer <API_KEY>.
Configuração do corpo da requisição: - Inserção da URL com * para rastrear todas as páginas do domínio. - Definição do prompt e schema JSON (estrutura esperada: text e author). - Correção de erros de formatação do JSON usando o ChatGPT.
Verificação do status da extração (Polling): - Segundo HTTP Request verifica se a extração foi concluída (GET /extract/:id). - Se ainda estiver processando (data vazia), aguarda 5 segundos e tenta novamente. - Quando pronto, retorna os dados extraídos.
Tratamento de diferentes tipos de retorno: - Tratamento de mudança de tipo (array vazio → objeto preenchido). - Estratégia com ramo de erro para continuar o fluxo caso o dado não esteja pronto.
Resultado com ou sem asterisco na URL: - Com * → varre todo o site. - Sem * → apenas a página inicial é lida (menos resultados).
Exportação e reuso do fluxo: - Workflow pode ser salvo e reutilizado. - Possível aplicar em massa para múltiplas URLs (ex: planilhas).
Possibilidades futuras:
- Criação de campanhas de prospecção automatizadas.
- Geração de dados estruturados para alimentar modelos LLM automaticamente.
- Participação na comunidade para mais exemplos práticos e suporte.

Tópicos listados com exemplos:

Firecrawl funcionalidades:
- Scrape: Retorna HTML
- Extract: URL + Prompt → JSON estruturado
Prompt de extração: - Exemplo: “Extraia todas as citações e seus autores do site.”
Schema esperado pelo LLM: - {"quotes": [{"text": "Citação", "author": "Autor"}]}
Importação no n8n via curl: - Comando do Firecrawl gera automaticamente configuração completa.
Autenticação genérica com header: - Authorization: Bearer <API_KEY>
Polling com verificação de status: - Se data estiver vazio → esperar → repetir até completar.
Uso do * na URL: - "https://quotes.toscrape.com/*" → varre todas as páginas.
Tratamento de erro no fluxo do n8n: - Se data muda de array para objeto → criar fluxo com erro controlado.
Casos de uso aplicáveis: - Extração de dados para prospecção, análise de concorrentes, SEO, etc.
Reaproveitamento com planilhas: - Input com várias URLs → automação completa com n8n.

Transforme Qualquer Site em Dados Prontos para LLM em Segundos com n8n & Firecrawl

Como usar o n8n e o Firecrawl para ir além da raspagem básica da web. Você aprenderá a criar um extrator de site inteligente que pesquisa várias páginas e extrai informações relevantes com base em seu prompt personalizado.

.ap15 - Raspe Site e leve para LLM - FireCrawl

chatgpt.com ↗

Tutorial sobre como usar Firecrawl com n8n para extrair dados…

Etapas principais abordadas:⌗

Recursos