Aula sobre web scraping com Make.com, cobrindo extração de dados via…
INEMA
Essas expressões seguem a lógica de manipulação de strings no Make.com, utilizando funções como get(), split(), e manipulando partes do texto extraído.
- Explicação de cada função Vamos dividir cada expressão em partes e entender como elas funcionam.
1️⃣ Expressão:
``{{get(split(get(split(3.IMTMATCH`; ".es/"); 2); "/"); 1)}}
O que ela faz?
Essa expressão trabalha com a variável 3.__IMTMATCH__, que provavelmente contém uma URL.
O objetivo é extrair um trecho específico da URL, removendo partes desnecessárias.
Passo a passo da execução:
split(3.__IMTMATCH__; ".es/")
Divide o texto no ponto onde aparece .es/.
Isso gera um array onde o segundo elemento (índice 2) contém a parte desejada.
get(...; 2)
Obtém a segunda parte do array (após ".es/").
split(...; "/")
Divide novamente a string resultante com base na / (barra), criando um novo array.
get(...; 1)
Obtém o primeiro elemento do novo array.
Exemplo prático de entrada e saída:
Entrada: "https://padelzoom.es/nox-at10-luxury-genius-18k-2023/"
Divisão por .es/ → ["https://padelzoom", "nox-at10-luxury-genius-18k-2023/"]
Pegamos a segunda parte: "nox-at10-luxury-genius-18k-2023/"
Divisão por / → ["nox-at10-luxury-genius-18k-2023", ""]
Pegamos o primeiro elemento: "nox-at10-luxury-genius-18k-2023"
✅ Saída final: "nox-at10-luxury-genius-18k-2023"
2️⃣ Expressão:
```{{get(split(get(split(5.text; "Total:"); 2); "Potencia:"); 1)}}
O que ela faz?
Essa expressão processa um texto (5.text) para extrair o valor que está entre "Total:" e "Potencia:".
Passo a passo da execução:
split(5.text; "Total:")
Divide o texto na palavra "Total:". O segundo elemento do array (índice 2) contém tudo que vem depois de "Total:".
get(...; 2)
Pega o segundo pedaço do array resultante.
split(...; "Potencia:")
Divide novamente essa string pelo termo "Potencia:".
get(...; 1)
Obtém a primeira parte, que contém o valor entre "Total:" e "Potencia:".
Exemplo prático de entrada e saída:
Entrada: "Total: 100 Potencia: 80 Control: 70" Divisão por "Total:" → ["", " 100 Potencia: 80 Control: 70"] Pegamos o segundo elemento: "100 Potencia: 80 Control: 70" Divisão por "Potencia:" → ["100 ", "80 Control: 70"] Pegamos o primeiro elemento: "100"
✅ Saída final: "100"
3️⃣ Expressão: ```{{get(split(get(split(5.text; "Potencia:"); 2); "Control:"); 1)}}
O que ela faz?
Essa expressão extrai o valor entre "Potencia:" e "Control:" do texto 5.text.
Passo a passo da execução:
split(5.text; "Potencia:")
Divide o texto no ponto "Potencia:", isolando a parte que vem depois.
get(...; 2)
Obtém a segunda parte do array gerado.
split(...; "Control:")
Divide novamente usando "Control:" como delimitador.
get(...; 1)
Obtém a primeira parte, que contém o valor entre "Potencia:" e "Control:".
Exemplo prático de entrada e saída:
Entrada: "Total: 100 Potencia: 80 Control: 70"
Divisão por "Potencia:" → ["Total: 100 ", "80 Control: 70"]
Pegamos o segundo elemento: "80 Control: 70"
Divisão por "Control:" → ["80 ", "70"]
Pegamos o primeiro elemento: "80"
✅ Saída final: "80"
Resumo das saídas
Expressão
Saída esperada
{{get(split(get(split(3.__IMTMATCH__; ".es/"); 2); "/"); 1)}}`
"nox-at10-luxury-genius-18k-2023"
{{get(split(get(split(5.text; "Total:"); 2); "Potencia:"); 1)}}
"100"
{{get(split(get(split(5.text; "Potencia:"); 2); "Control:"); 1)}}
"80"
Conclusão
Essas expressões são úteis para extrair valores específicos dentro de um texto estruturado. O Make.com permite dividir strings e acessar partes delas com split() e get(), possibilitando a manipulação de dados de forma eficiente.
FallBack Match já faz o papel do interador, ou seja busca o conteudo individual de cada uma informacao
### O que é Regex?
**Regex (Expressões Regulares)** é um conjunto de regras usadas para **buscar, identificar e manipular padrões de texto**. Ele permite encontrar palavras, frases ou sequências de caracteres que sigam um padrão específico dentro de um texto.
### Para que serve Regex?
Regex é muito útil para:
- **Extrair informações** específicas de textos (como e-mails, URLs, números de telefone, etc.).
- **Validar dados** (como formatos de CPF, CNPJ, CEP, e-mails).
- **Substituir ou modificar texto** de forma automatizada.
- **Filtrar e classificar** dados rapidamente.
---
### Exemplo de uso:
#### 1. Extração de URLs:
O regex abaixo identifica URLs que começam com **"https://"** e continuam com um domínio válido:
```regex
https:\/\/[\w.-]+\/[\w\/.-]+\/ ```
- `https:\/\/` → Garante que a URL comece com "https://".
- `[\w.-]+` → Captura o domínio (letras, números, hífens, pontos).
- `\/` → Captura a barra `/` após o domínio.
- `[\w\/.-]+` → Captura o restante da URL (subdiretórios e arquivos).
- `\/` → Finaliza a correspondência com uma barra.
**Exemplo de correspondência:**
padelzoom.es ↗ ```
Onde Regex é usado?⌗
- Programação: Python, JavaScript, PHP, etc.
- Automação: Make.com, Zapier.
- Análise de Dados: Planilhas, logs de servidores, web scraping.
- Edição de Texto: Sublime Text, Notepad++, VS Code.
"Você é um especialista em make.com. Crie um código regex para fazer um padrão de correspondência. Quero que você crie um código para extrair as URLs do xxxxx."
pode coloca o texto q foi extraido da pagina e transformado em texto para q o chatgpt4 posso extrar um padrao REGEX para ser colocadno no proximo modulo de match Pattern
Aqui está um resumo sobre o tema "Web Scraping usando a plataforma Make":
Introdução ao Web Scraping com Make
Apresentado como realizar web scraping utilizando a plataforma Make. Apesar de Make não ser especificamente projetado para essa finalidade, foi mostrado como aproveitar suas ferramentas para extrair dados de sites. O exemplo prático demonstrou a extração de informações de uma página de produtos de padel.
Conceitos-chave - Web Scraping: Processo de extração de informações de um site. É útil quando não há APIs disponíveis para obter dados específicos.
Passos do Processo
-
Configuração Inicial: - Escolha de uma URL específica de onde se deseja realizar o scraping. - Utilização do módulo "HTTP Make a Request" no Make para se conectar à página e extrair o código HTML.
-
Transformação de HTML para Texto: - Uso do módulo "HTML to Text" para converter o HTML em texto, facilitando a manipulação de dados.
-
Extração de URLs: - Utilização do módulo "Match Pattern" para identificar e extrair URLs dos produtos na página. - Auxílio do ChatGPT para criar expressões regulares (regex) que ajudam a filtrar as URLs desejadas.
-
Iteração sobre URLs: - Processamento de cada URL extraída para extrair informações detalhadas de cada produto. - Repetição do processo de conversão de HTML para texto em cada página de produto.
-
Extração de Dados Específicos: - Uso da função "Get Split" para separar e obter informações específicas, como potência, controle, manuseabilidade, etc., a partir do texto extraído.
-
Armazenamento de Dados: - Os dados extraídos foram armazenados em um arquivo Excel, organizando cada variável (modelo, pontuação, etc.) em seus respectivos campos.
Ferramentas Utilizadas - ChatGPT: Usado para gerar expressões regulares para filtrar dados específicos. - Excel: Utilizado para armazenar os dados extraídos de forma organizada.
Considerações Finais - Limitações: Não é recomendado usar o Make para grandes projetos de scraping devido a limitações com tecnologias anti-scraping em sites complexos. - Precisão no Texto: É importante ter atenção com a exatidão do texto que se deseja extrair, pois discrepâncias como letras maiúsculas ou minúsculas podem gerar erros.
Recursos - Blueprint para Web Scraping
e9
e9
e9 - Raspagem Web
Estude RegEX
1