Análise detalhada do conceito de **Agent Harnesses** (orquestradores…
INEMA
5. Por que isso funciona (e prompts comuns não)⌗
| Prompt comum | Harness |
|---|---|
| “Crie um app” | Plano + estado + validação |
| Memória frágil | Memória persistente |
| Criatividade solta | Ordem rígida |
| Um erro quebra tudo | Erros são detectados |
6. A frase mais importante⌗
O agente não é inteligente porque pensa bem. Ele funciona porque é obrigado a seguir regras.
Vou explicar como ele estrutura o sistema para continuar funcionando e quais instruções o agente realmente recebe, de forma prática e explícita, sem abstração excessiva.
1. A ideia-chave antes das instruções⌗
👉 O sistema NÃO confia na memória do modelo. Ele confia em artefatos externos obrigatórios.
O agente só “continua” porque:
- existe estado persistente
- existe ordem rígida
- existe checagem antes de avançar
O agente não decide livremente o que fazer.
2. A estrutura que mantém o sistema funcionando⌗
O harness é construído com 4 pilares obrigatórios:
① Artefatos persistentes (memória real)⌗
Sempre existem arquivos que devem ser lidos e atualizados:
FEATURE_LIST.json→ fonte da verdadePROGRESS.md→ resumo da última sessão- Repositório Git → histórico real
- Testes automatizados → verdade objetiva
⚠️ Regra:
Nenhum agente começa sem ler esses artefatos
② Ordem fixa de execução (o agente não escolhe)⌗
Todo ciclo segue sempre a mesma sequência:
1. Ler estado atual
2. Validar ambiente
3. Escolher próxima tarefa
4. Implementar
5. Testar
6. Atualizar memória
7. Commitar
8. Encerrar sessão
👉 Se pular um passo → o harness interrompe.
③ Reset de contexto (isso é crítico)⌗
Após cada sessão:
- o contexto do LLM é apagado
- um novo agente inicia do zero
- ele só sabe o que está nos arquivos
Isso evita:
- context rot
- deriva criativa
- alucinação progressiva
④ Checkpoints obrigatórios⌗
Antes de avançar:
- testes precisam passar
- arquivos precisam estar atualizados
- estado precisa estar consistente
Se falhar:
- o agente não avança
- ele entra em modo correção
3. Agora: quais instruções ele realmente dá ao agente⌗
Abaixo está um exemplo realista (simplificado, mas fiel ao vídeo).
🔹 Instruções do Initializer Agent⌗
```Você é o Initializer Agent.
Objetivo: - Transformar o AppSpec em um plano executável.
Instruções obrigatórias: 1. Leia completamente o AppSpec fornecido. 2. Gere um arquivo FEATURE_LIST.json contendo: - lista ordenada de funcionalidades - critérios de validação para cada feature 3. Crie a estrutura inicial do projeto. 4. Inicialize o repositório Git. 5. Gere testes básicos de sanidade. 6. Não implemente funcionalidades completas. 7. Finalize criando um arquivo PROGRESS.md explicando: - o que foi criado - como o sistema deve continuar```
👉 Ele não programa tudo. Ele prepara o terreno.
🔹 Instruções do Task Agent (loop)⌗
Esse é o coração do sistema.
```Você é o Task Agent.
Regras imutáveis: - Nunca confie em memória implícita. - Sempre leia: - FEATURE_LIST.json - PROGRESS.md - Git log recente
Ciclo obrigatório: 1. Execute testes existentes. - Se falharem, corrija antes de qualquer nova feature. 2. Identifique a próxima feature NÃO concluída no FEATURE_LIST.json. 3. Implemente apenas essa feature. 4. Atualize testes. 5. Execute testes novamente. 6. Se falhar, corrija até passar. 7. Atualize FEATURE_LIST.json marcando a feature como concluída. 8. Atualize PROGRESS.md com: - o que foi feito - erros encontrados - decisões técnicas 9. Faça commit no Git. 10. Finalize a sessão imediatamente.```
⚠️ Regra crítica:
Nunca implemente mais de uma feature por sessão.
🔹 Instruções de handoff (fim da sessão)⌗
Antes de encerrar:
- PROGRESS.md deve permitir que um novo agente
entenda o estado do projeto em menos de 2 minutos.
- Se algo não estiver claro, escreva.
- Não confie que o próximo agente "vai deduzir".
4. Onde entra o humano (e por que isso é essencial)⌗
O sistema inclui interrupções estratégicas, por exemplo:
Se uma feature:
- altera arquitetura
- cria dependências novas
- muda UX
→ pause e solicite validação humana.
O humano não:
- escreve código
- executa tarefas repetitivas
Ele apenas:
- valida decisões
- autoriza avanço
erros recorrentes * Prever qual informação será crucial no futuro (predictive context) é extremamente difícil
❌ 2. Confiabilidade composta⌗
- Um agente com 95% de acerto parece bom…
-
Mas em 20 etapas:
-
Confiabilidade total ≈ 36%
- Em 200 etapas, é inviável sem controle
- Precisaríamos de algo como 99,9% de confiabilidade, o que é irreal hoje
🔑 Solução parcial:
- Checkpoints inteligentes
- Rollback automático
- Intervenções humanas estratégicas
8. E o “Vibe Coding”, afinal?⌗
Conclusão importante do vídeo:
- ❌ Vibe coding puro (dar tudo para a IA e confiar cegamente) não é viável
-
✅ Vibe coding estruturado, com:
-
Harness bem projetado
- Validação
- Human in the loop → pode se tornar viável
Ou seja:
Não é “não pensar e deixar a IA fazer tudo”. É engenheirar o sistema para que a IA faça quase tudo.
9. Visão de futuro⌗
- 2025 → ano dos agentes e do hype do vibe coding
- 2026 → ano dos agent harnesses
-
Expectativa:
-
Delegar 90–99% do trabalho operacional para agentes
-
Humanos focam em:
- Arquitetura
- Decisões críticas
- Validação estratégica
10. Conclusão final⌗
Agent harnesses representam:
- A próxima grande evolução dos agentes de IA
- Um caminho realista para tarefas longas e complexas
- Um meio-termo entre autonomia total e controle humano
Vibe coding não morre — ele amadurece.
1. Ideia central Agent Harnes⌗
Discute uma mudança importante na arquitetura de agentes de IA: a ascensão dos agent harnesses (estruturas de controle/orquestração de agentes).
Esses harnesses prometem tornar tarefas longas e complexas (especialmente programação) mais confiáveis, reacendendo parcialmente a ideia de “vibe coding” — ou seja, delegar grandes partes do desenvolvimento diretamente para agentes de IA.
No entanto, o autor deixa claro: 👉 isso ainda não é simples, automático ou totalmente confiável.
2. Evolução histórica: de prompts a harnesses⌗
O vídeo apresenta uma linha do tempo clara:
🔹 Prompt Engineering (2020)⌗
- Surgiu com o GPT-3.
- Foco: otimizar uma única interação com o LLM.
- Objetivo: obter a melhor resposta possível em uma chamada isolada.
🔹 Context Engineering⌗
- Evolução natural do prompt engineering.
- Foco: sessões completas, não apenas uma pergunta.
- Desafio principal: equilibrar contexto suficiente sem causar context rot (contexto excessivo que degrada a qualidade do modelo).
🔹 Agent Harnesses (fase atual)⌗
- Conectam múltiplas sessões e agentes.
- Permitem lidar com tarefas longas e contínuas.
- Não substituem prompt/context engineering — dependem deles.
- Funcionam como uma infraestrutura externa que coordena agentes, memória, validações e humanos.
3. Por que agent harnesses estão se tornando essenciais?⌗
O autor destaca um ponto-chave:
🔴 O poder bruto dos LLMs não está mais crescendo de forma explosiva. Apesar de benchmarks melhores (Claude Opus, Gemini etc.), o verdadeiro avanço agora vem de:
- Arquitetura
- Orquestração
- Memória
- Validação
- Ferramentas
- Integração com sistemas externos
Ou seja: o diferencial não é mais o modelo, mas o que construímos em cima dele.
4. O que é um Agent Harness, na prática?⌗
Um agent harness é uma camada de controle que:
- Coordena múltiplos agentes ou sessões
- Evita context rot reiniciando contextos
- Mantém continuidade via artefatos de memória
- Introduz validação automática
- Permite intervenção humana estratégica
Arquitetura mais comum:⌗
- Initializer Agent
- Lê o escopo (PRD/AppSpec)
- Planeja o trabalho
- Cria lista de features
- Inicializa o projeto (repo, estrutura, scripts)
- Task / Coding Agent
- Trabalha de forma incremental
- Implementa uma feature por vez
- Testa, valida, corrige erros
- Atualiza memória e progresso
- Loop de sessões
- Contexto é reiniciado
- Novo agente lê os artefatos
- Continua de onde parou
5. Elementos fundamentais de um harness⌗
🧠 Memória⌗
- Sistema de arquivos
- Git (commits como memória)
- Logs de progresso
- Bases externas (Linear, Jira, Slack, DBs)
🔄 Handoffs⌗
-
Artefatos claros para que o próximo agente entenda:
-
O que foi feito
- O que deu errado
- O que falta fazer
✅ Checkpoints e guardrails⌗
- Testes automáticos
- Validação do ambiente
- Verificações antes e depois de cada sessão
👤 Human in the Loop⌗
- Pontos estratégicos para intervenção humana
- Aprovação rápida (ex: “ok, continue”)
- Essencial para confiabilidade real
6. Exemplo prático (coding harness)⌗
Fluxo típico:
- Novo agente inicia sem memória
- Faz priming:
- Lê arquivos de progresso
- Analisa o código
- Consulta git log 3. Roda testes e validações 4. Escolhe a próxima feature 5. Implementa e testa 6. Atualiza progresso e faz commit 7. Encerra sessão → próximo agente continua
O autor mostra um experimento real onde:
- Um harness rodou por 24 horas
- Criou um clone funcional do Claude.ai
- Cometeu erros, detectou, corrigiu e avançou sozinho
- Ainda assim, não recomenda rodar sem humanos no loop
7. Os dois grandes problemas ainda não resolvidos⌗
❌ 1. Atenção limitada (bounded attention)⌗
- Mesmo com harnesses, o problema de contexto não está totalmente resolvido
-
Resumos frequentemente:
-
Omitam erros importantes
- Ignoram validações falhas
- Isso causa
💡 Ideia de Agent Harnesses⌗
Em geral, Agent Harness significa um mecanismo de suporte, controle ou orquestração para agentes (humanos ou de software).
Ele costuma envolver:
- Coordenação de agentes
- Controle de execução
- Monitoramento e validação
- Ambiente estruturado para testes ou operação
O termo harness vem da ideia de arreio / arnês, algo que “segura”, “guia” ou “canaliza” a força de alguém ou algo.
🔁 Termos equivalentes ou similares em português⌗
1️⃣ Em contexto técnico / software / IA⌗
Se for sobre agentes de software ou agentes de IA, os termos mais adequados são:
- Estrutura de controle de agentes
- Orquestrador de agentes
- Framework de agentes
- Ambiente de execução de agentes
- Sistema de gerenciamento de agentes
- Camada de orquestração de agentes
- Infraestrutura de agentes
👉 O mais usado e natural:
Orquestrador de agentes
2️⃣ Em contexto de testes⌗
Se Agent Harness for algo usado para testar agentes:
- Ambiente de testes para agentes
- Plataforma de validação de agentes
- Estrutura de testes de agentes
- Harness de testes (muito usado mesmo em português técnico)
3️⃣ Em contexto organizacional / humano⌗
Se o termo se referir a pessoas, equipes ou representantes:
- Sistema de coordenação de agentes
- Modelo de supervisão de agentes
- Estrutura de apoio a agentes
- Mecanismo de governança de agentes
📌 Traduções diretas (menos recomendadas, mas possíveis)⌗
- Arnês de agentes ❌ (literal, pouco natural)
- Estrutura de contenção de agentes (só em contextos específicos)
✅ Resumo prático⌗
| Inglês | Melhor equivalente em português |
|---|---|
| Agent Harness | Orquestrador de agentes |
| Agent Harness (testes) | Ambiente de testes de agentes |
| Agent Harness (infraestrutura) | Framework de agentes |
Agent Harness - Orquestrador de Agentes
1