cerebro-vip INEMA.CLUB
inícioINEMA.IA CONCEITOS

Análise detalhada do conceito de **Agent Harnesses** (orquestradores…

INEMA.IA CONCEITOS · 2025-12-21 · ~8 min · ver no Telegram ↗

INEMA

5. Por que isso funciona (e prompts comuns não)

Prompt comum Harness
“Crie um app” Plano + estado + validação
Memória frágil Memória persistente
Criatividade solta Ordem rígida
Um erro quebra tudo Erros são detectados

6. A frase mais importante

O agente não é inteligente porque pensa bem. Ele funciona porque é obrigado a seguir regras.

Vou explicar como ele estrutura o sistema para continuar funcionando e quais instruções o agente realmente recebe, de forma prática e explícita, sem abstração excessiva.


1. A ideia-chave antes das instruções

👉 O sistema NÃO confia na memória do modelo. Ele confia em artefatos externos obrigatórios.

O agente só “continua” porque:

  • existe estado persistente
  • existe ordem rígida
  • existe checagem antes de avançar

O agente não decide livremente o que fazer.


2. A estrutura que mantém o sistema funcionando

O harness é construído com 4 pilares obrigatórios:

① Artefatos persistentes (memória real)

Sempre existem arquivos que devem ser lidos e atualizados:

  • FEATURE_LIST.json → fonte da verdade
  • PROGRESS.md → resumo da última sessão
  • Repositório Git → histórico real
  • Testes automatizados → verdade objetiva

⚠️ Regra:

Nenhum agente começa sem ler esses artefatos


② Ordem fixa de execução (o agente não escolhe)

Todo ciclo segue sempre a mesma sequência:

1. Ler estado atual 2. Validar ambiente 3. Escolher próxima tarefa 4. Implementar 5. Testar 6. Atualizar memória 7. Commitar 8. Encerrar sessão

👉 Se pular um passo → o harness interrompe.


③ Reset de contexto (isso é crítico)

Após cada sessão:

  • o contexto do LLM é apagado
  • um novo agente inicia do zero
  • ele só sabe o que está nos arquivos

Isso evita:

  • context rot
  • deriva criativa
  • alucinação progressiva

④ Checkpoints obrigatórios

Antes de avançar:

  • testes precisam passar
  • arquivos precisam estar atualizados
  • estado precisa estar consistente

Se falhar:

  • o agente não avança
  • ele entra em modo correção

3. Agora: quais instruções ele realmente dá ao agente

Abaixo está um exemplo realista (simplificado, mas fiel ao vídeo).


🔹 Instruções do Initializer Agent

```Você é o Initializer Agent.

Objetivo: - Transformar o AppSpec em um plano executável.

Instruções obrigatórias: 1. Leia completamente o AppSpec fornecido. 2. Gere um arquivo FEATURE_LIST.json contendo: - lista ordenada de funcionalidades - critérios de validação para cada feature 3. Crie a estrutura inicial do projeto. 4. Inicialize o repositório Git. 5. Gere testes básicos de sanidade. 6. Não implemente funcionalidades completas. 7. Finalize criando um arquivo PROGRESS.md explicando: - o que foi criado - como o sistema deve continuar```

👉 Ele não programa tudo. Ele prepara o terreno.


🔹 Instruções do Task Agent (loop)

Esse é o coração do sistema.

```Você é o Task Agent.

Regras imutáveis: - Nunca confie em memória implícita. - Sempre leia: - FEATURE_LIST.json - PROGRESS.md - Git log recente

Ciclo obrigatório: 1. Execute testes existentes. - Se falharem, corrija antes de qualquer nova feature. 2. Identifique a próxima feature NÃO concluída no FEATURE_LIST.json. 3. Implemente apenas essa feature. 4. Atualize testes. 5. Execute testes novamente. 6. Se falhar, corrija até passar. 7. Atualize FEATURE_LIST.json marcando a feature como concluída. 8. Atualize PROGRESS.md com: - o que foi feito - erros encontrados - decisões técnicas 9. Faça commit no Git. 10. Finalize a sessão imediatamente.```

⚠️ Regra crítica:

Nunca implemente mais de uma feature por sessão.


🔹 Instruções de handoff (fim da sessão)

Antes de encerrar: - PROGRESS.md deve permitir que um novo agente entenda o estado do projeto em menos de 2 minutos. - Se algo não estiver claro, escreva. - Não confie que o próximo agente "vai deduzir".


4. Onde entra o humano (e por que isso é essencial)

O sistema inclui interrupções estratégicas, por exemplo:

Se uma feature: - altera arquitetura - cria dependências novas - muda UX → pause e solicite validação humana.

O humano não:

  • escreve código
  • executa tarefas repetitivas

Ele apenas:

  • valida decisões
  • autoriza avanço

erros recorrentes * Prever qual informação será crucial no futuro (predictive context) é extremamente difícil

❌ 2. Confiabilidade composta

  • Um agente com 95% de acerto parece bom…
  • Mas em 20 etapas:

  • Confiabilidade total ≈ 36%

  • Em 200 etapas, é inviável sem controle
  • Precisaríamos de algo como 99,9% de confiabilidade, o que é irreal hoje

🔑 Solução parcial:

  • Checkpoints inteligentes
  • Rollback automático
  • Intervenções humanas estratégicas

8. E o “Vibe Coding”, afinal?

Conclusão importante do vídeo:

  • Vibe coding puro (dar tudo para a IA e confiar cegamente) não é viável
  • Vibe coding estruturado, com:

  • Harness bem projetado

  • Validação
  • Human in the loop → pode se tornar viável

Ou seja:

Não é “não pensar e deixar a IA fazer tudo”. É engenheirar o sistema para que a IA faça quase tudo.


9. Visão de futuro

  • 2025 → ano dos agentes e do hype do vibe coding
  • 2026 → ano dos agent harnesses
  • Expectativa:

  • Delegar 90–99% do trabalho operacional para agentes

  • Humanos focam em:

    • Arquitetura
    • Decisões críticas
    • Validação estratégica

10. Conclusão final

Agent harnesses representam:

  • A próxima grande evolução dos agentes de IA
  • Um caminho realista para tarefas longas e complexas
  • Um meio-termo entre autonomia total e controle humano

Vibe coding não morre — ele amadurece.

1. Ideia central Agent Harnes

Discute uma mudança importante na arquitetura de agentes de IA: a ascensão dos agent harnesses (estruturas de controle/orquestração de agentes).

Esses harnesses prometem tornar tarefas longas e complexas (especialmente programação) mais confiáveis, reacendendo parcialmente a ideia de “vibe coding” — ou seja, delegar grandes partes do desenvolvimento diretamente para agentes de IA.

No entanto, o autor deixa claro: 👉 isso ainda não é simples, automático ou totalmente confiável.


2. Evolução histórica: de prompts a harnesses

O vídeo apresenta uma linha do tempo clara:

🔹 Prompt Engineering (2020)

  • Surgiu com o GPT-3.
  • Foco: otimizar uma única interação com o LLM.
  • Objetivo: obter a melhor resposta possível em uma chamada isolada.

🔹 Context Engineering

  • Evolução natural do prompt engineering.
  • Foco: sessões completas, não apenas uma pergunta.
  • Desafio principal: equilibrar contexto suficiente sem causar context rot (contexto excessivo que degrada a qualidade do modelo).

🔹 Agent Harnesses (fase atual)

  • Conectam múltiplas sessões e agentes.
  • Permitem lidar com tarefas longas e contínuas.
  • Não substituem prompt/context engineering — dependem deles.
  • Funcionam como uma infraestrutura externa que coordena agentes, memória, validações e humanos.

3. Por que agent harnesses estão se tornando essenciais?

O autor destaca um ponto-chave:

🔴 O poder bruto dos LLMs não está mais crescendo de forma explosiva. Apesar de benchmarks melhores (Claude Opus, Gemini etc.), o verdadeiro avanço agora vem de:

  • Arquitetura
  • Orquestração
  • Memória
  • Validação
  • Ferramentas
  • Integração com sistemas externos

Ou seja: o diferencial não é mais o modelo, mas o que construímos em cima dele.


4. O que é um Agent Harness, na prática?

Um agent harness é uma camada de controle que:

  • Coordena múltiplos agentes ou sessões
  • Evita context rot reiniciando contextos
  • Mantém continuidade via artefatos de memória
  • Introduz validação automática
  • Permite intervenção humana estratégica

Arquitetura mais comum:

  1. Initializer Agent
  • Lê o escopo (PRD/AppSpec)
  • Planeja o trabalho
  • Cria lista de features
  • Inicializa o projeto (repo, estrutura, scripts)
  1. Task / Coding Agent
  • Trabalha de forma incremental
  • Implementa uma feature por vez
  • Testa, valida, corrige erros
  • Atualiza memória e progresso
  1. Loop de sessões
  • Contexto é reiniciado
  • Novo agente lê os artefatos
  • Continua de onde parou

5. Elementos fundamentais de um harness

🧠 Memória

  • Sistema de arquivos
  • Git (commits como memória)
  • Logs de progresso
  • Bases externas (Linear, Jira, Slack, DBs)

🔄 Handoffs

  • Artefatos claros para que o próximo agente entenda:

  • O que foi feito

  • O que deu errado
  • O que falta fazer

✅ Checkpoints e guardrails

  • Testes automáticos
  • Validação do ambiente
  • Verificações antes e depois de cada sessão

👤 Human in the Loop

  • Pontos estratégicos para intervenção humana
  • Aprovação rápida (ex: “ok, continue”)
  • Essencial para confiabilidade real

6. Exemplo prático (coding harness)

Fluxo típico:

  1. Novo agente inicia sem memória
  2. Faz priming:
  • Lê arquivos de progresso
  • Analisa o código
  • Consulta git log 3. Roda testes e validações 4. Escolhe a próxima feature 5. Implementa e testa 6. Atualiza progresso e faz commit 7. Encerra sessão → próximo agente continua

O autor mostra um experimento real onde:

  • Um harness rodou por 24 horas
  • Criou um clone funcional do Claude.ai
  • Cometeu erros, detectou, corrigiu e avançou sozinho
  • Ainda assim, não recomenda rodar sem humanos no loop

7. Os dois grandes problemas ainda não resolvidos

❌ 1. Atenção limitada (bounded attention)

  • Mesmo com harnesses, o problema de contexto não está totalmente resolvido
  • Resumos frequentemente:

  • Omitam erros importantes

  • Ignoram validações falhas
  • Isso causa

💡 Ideia de Agent Harnesses

Em geral, Agent Harness significa um mecanismo de suporte, controle ou orquestração para agentes (humanos ou de software).

Ele costuma envolver:

  • Coordenação de agentes
  • Controle de execução
  • Monitoramento e validação
  • Ambiente estruturado para testes ou operação

O termo harness vem da ideia de arreio / arnês, algo que “segura”, “guia” ou “canaliza” a força de alguém ou algo.


🔁 Termos equivalentes ou similares em português

1️⃣ Em contexto técnico / software / IA

Se for sobre agentes de software ou agentes de IA, os termos mais adequados são:

  • Estrutura de controle de agentes
  • Orquestrador de agentes
  • Framework de agentes
  • Ambiente de execução de agentes
  • Sistema de gerenciamento de agentes
  • Camada de orquestração de agentes
  • Infraestrutura de agentes

👉 O mais usado e natural:

Orquestrador de agentes


2️⃣ Em contexto de testes

Se Agent Harness for algo usado para testar agentes:

  • Ambiente de testes para agentes
  • Plataforma de validação de agentes
  • Estrutura de testes de agentes
  • Harness de testes (muito usado mesmo em português técnico)

3️⃣ Em contexto organizacional / humano

Se o termo se referir a pessoas, equipes ou representantes:

  • Sistema de coordenação de agentes
  • Modelo de supervisão de agentes
  • Estrutura de apoio a agentes
  • Mecanismo de governança de agentes

📌 Traduções diretas (menos recomendadas, mas possíveis)

  • Arnês de agentes ❌ (literal, pouco natural)
  • Estrutura de contenção de agentes (só em contextos específicos)

✅ Resumo prático

Inglês Melhor equivalente em português
Agent Harness Orquestrador de agentes
Agent Harness (testes) Ambiente de testes de agentes
Agent Harness (infraestrutura) Framework de agentes

Agent Harness - Orquestrador de Agentes

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗