Tutorial sobre criação de agentes RAG usando Pinecone Assistant…
INEMA
= true no body da requisição; ajuste o system prompt para instruir o agente a devolver: nome do documento, página e quote. Teste copiando o quote e fazendo Ctrl+F no PDF para validar.
- Como reduzir custo de tokens?
- Use modelos menores no lado do assistant quando aceitável; prefira Pinecone Assistant em protótipos porque costuma consumir menos tokens que enviar muitos chunks para um LLM; limite contextos retornados; faça post-processamento local para resumir antes de chamar o modelo.
- E se o assistant retornar uma resposta errada ou sem fonte?
- Verifique o payload de retorno do Pinecone (campos de metadata/pages/highlights). Se não houver highlights, habilite include_highlights. Se a resposta estiver incorreta, refine o system prompt e forçe verificação (ex: "Se não achar citação exata, responda 'não encontrado'").
- Posso automatizar upload de PDFs?
- Sim. Use o endpoint de upload do Pinecone Assistant (API) para enviar arquivos programaticamente e depois chame o endpoint de chat; também crie um webhook em n8n para confirmar quando o documento é indexado.
- Quais cuidados de segurança?
- Não exponha a chave em código. Use credenciais protegidas no n8n. Limite quem acessa o assistant (roles/permissions). Se documentos contém dados sensíveis, avalie criptografia em repouso e políticas de retenção.
- Quanto custa um assistant ativo?
- No vídeo dizem US\$0,05 por hora por assistant ativo; confirme no painel Pinecone pois preços podem mudar. (Dica: ative/desative assistentes em testes para não acumular custo.)
Checklist rápido para deploy em minutos⌗
- [ ] Criar Pinecone Assistant e fazer upload dos PDFs
- [ ] Criar API key e guardar em n8n Credentials
- [ ] Em n8n: criar nó HTTP Request → Import curl do Pinecone
- [ ] Substituir query estática por expressão dinâmica (search_query)
- [ ] Adicionar system prompt que exige citações e páginas
- [ ] Ativar include_highlights no body do request
- [ ] Testar com perguntas simples e validar via Ctrl+F nos PDFs
- [ ] Monitorar tokens/custos e ajustar modelo se necessário
Hacks práticos (rápido e aplicável)⌗
- Use Pinecone Assistant em vez do fluxo de vetores bruto quando quiser prototipar rápido
- Por que: ingestion, chunking e indexação são feitos automaticamente.
- Exemplo: arraste PDFs direto no painel do Pinecone Assistant e teste perguntas no playground.
- Conecte no n8n via um nó HTTP importando o curl do playground do Pinecone
- Por que: o curl já monta cabeçalho, body e endpoint; evita erro de formatação.
- Exemplo: em n8n → HTTP Request → Import curl → cole o curl gerado pelo Pinecone.
- Gere e mantenha chaves de API temporárias com cuidado (backup seguro)
- Por que: Pinecone mostra a chave uma vez. Se perder, crie nova.
- Dica: armazene em n8n Credentials ou em .env protegido.
- Faça a query dinâmica: deixe o corpo da requisição buscar a variável de query do agente
- Por que: o agente decide quantas buscas e o texto da busca.
- Exemplo de expressão (pseudocódigo n8n): {"query": {{\$json["search_query"]}}}
- Ative include_highlights (ou equivalente) para obter citação textual exata
- Por que: o campo padrão costuma retornar resumo, não citação literal.
- Exemplo de payload: "include_highlights": true
- Use um system prompt para forçar citações com fonte, página e trecho exato
- Por que: o agente pode chamar o Pinecone, mas precisa ser instruído a apresentar fontes.
- Exemplo de instrução: seja analítico, cite: nome do documento, número da página e quote exato.
- Teste com queries comparativas (duas buscas) quando precisar comparar períodos/anos
- Por que: o agente pode disparar múltiplas buscas e agregar resultados automaticamente.
- Dica: peça explicitamente comparações no prompt.
- Monitore tokens e custo: compare respostas de Assistant vs Vector Store
- Por que: Assistant pode ser muito mais barato (menos tokens) para respostas encadeadas.
- Como medir: logue token_count de cada requisição e custos por modelo.
- Caso a citação não bata, use include_highlights + extração direta do campo content
- Por que: alguns endpoints retornam resumo no campo principal e a citação exata em outro campo.
-
Ajuste o modelo do Assistant via payload (model param) para balancear custo/qualidade
- Por que: modelos menores são mais baratos; modelos maiores podem gerar melhores instruções de extração.
-
Automatize ingestão de documentos no Pinecone Assistant via API para evitar trabalho manual
- Por que: para escalabilidade, envie PDFs por upload de arquivo via API e faça webhooks para confirmar ingestão.
-
Crie um template n8n exportável / shareable para replicar a solução rapidamente em clientes
- Por que: facilita demos e entrega de proof-of-concept; inclua passos: credenciais, nó HTTP, system prompt, testes.
Exemplos concretos (trechos e payloads úteis)⌗
- Import curl → HTTP Request (n8n)
- Cole o curl do Pinecone Assistant no import do HTTP Request do n8n; ele gera headers e body automaticamente.
- Exemplo de JSON para chat com highlights (simplificado)
{
"model": "assistant-chat-1",
"input": "How many vehicles did Tesla deliver in Q2 2025?",
"include_highlights": true
}
- Exemplo de system prompt (texto que coloca no agente) Você é um agente especializado em relatórios financeiros. Use a ferramenta Pinecone para buscar informações em PDFs e, ao responder, sempre inclua:
- nome do documento
- número da página
- trecho textual exato (entre aspas)
- pequena linha indicando confiança (ex: "Citação encontrada em página X").
- Expressão dinâmica no corpo (n8n expression)
{{ $json["ai_function"]["search_query"] }}(use conforme estrutura do seu nó que gera a query)
Perguntas prováveis — respostas diretas⌗
- Como conectar Pinecone Assistant ao n8n?
- Crie um assistant no painel Pinecone → vá em "connect" / "API" e copie o curl do endpoint de chat → em n8n adicione HTTP Request → Import curl → cole → substitua a API key por referência segura (credential ou variável).
- Como garantir citações exatas (não só resumo)?
- Ative include_highlights
Aqui está o resumo do vídeo:
Resumo⌗
O vídeo mostra como criar agentes RAG em poucos minutos usando o Pinecone Assistant integrado ao n8n, sem necessidade de pipelines de pré-processamento, chunking manual ou fluxos de embedding personalizados.
O criador demonstra:
- Como carregar documentos (ex.: relatórios de Tesla, Nvidia e Nike) diretamente no Pinecone Assistant.
- Como o agente retorna respostas corretas, com citações no nível da página e trechos exatos do PDF, aumentando a confiabilidade.
- A configuração passo a passo no n8n, usando requisições HTTP para se conectar ao Pinecone Assistant via API.
- Ajustes no system prompt para garantir que o agente cite corretamente documentos, páginas e trechos originais.
- Como habilitar a opção include highlights na API para trazer citações textuais exatas em vez de resumos.
- Comparação com Pinecone Vector Store e Supabase Vector Store: o Pinecone Assistant gera respostas mais rápidas, corretas e baratas em tokens, enquanto as abordagens tradicionais exigem mais trabalho e custam mais processamento.
Principais pontos⌗
- Velocidade e simplicidade: basta arrastar documentos, sem pré-processamento.
- Citações confiáveis: páginas e trechos exatos dos documentos originais.
- Integração n8n: feita por HTTP request, usando a API do Pinecone Assistant.
- Customização: uso de system prompt e parâmetros da API (como highlights e modelo).
- Comparação de custos: Pinecone Assistant se mostra mais barato e eficiente do que vetores tradicionais.
- Custo fixo: US\$ 0,05 por hora por assistente ativo no Pinecone.
ap63 - RAG Agente - Pinecone Assistente
1