Discussão sobre a grande atualização do **Skill Creator** do Claude…

INEMA

Fiz uma dublagem do Nate q fala do assunto

youtu.be/BSjXJAYWXPw ↗

github.com ↗

github.com/anthropics/skills ↗

A Anthropic descreve exatamente isso: escrever evals, rodar benchmarks e guardar resultados localmente/CI.

Como eu rodo na prática (Claude Code)⌗

1) Instale o Skill Creator (plugin)⌗

Instale o plugin Skill Creator no Claude Code. Ele é “Anthropic Verified” e funciona por modos: Create, Eval, Improve, Benchmark.

2) Rode o Skill Creator via comando⌗

No Claude Code, você usa:

****/skill****-creator e escolhe o modo (Eval / Benchmark / Improve).

Dica: qualquer skill pode ser chamada manualmente com ****/nome****-da-skill.

Validar uma skill (fluxo recomendado)⌗

A) Rodar Evals (validação funcional)⌗

Digite: ****/skill****-creator
Escolha Eval
Peça algo do tipo: “Run evals on my ” (o plugin sugere esse exemplo)
O fluxo te guia para:

definir prompts de teste (e arquivos, se precisar)
dizer “o que é bom” (critérios)
rodar e ver se passa/falha

O plugin faz isso com agentes internos (Executor/Grader/Comparator/Analyzer) para executar e julgar os resultados.

B) Rodar Benchmark (validação com números)⌗

Depois que os evals existem, faça:

****/skill****-creator → Benchmark
Peça: “Benchmark my skill across 10 runs and show variance.”

O benchmark mede:

pass rate
tempo
tokens

“O creator skill fica ativo e ele avalia?”⌗

Ele não fica avaliando “em background” automaticamente. Você chama o Skill Creator quando quer avaliar/otimizar.
O que dá pra fazer é: depois de criar seus evals, você pode guardar os evals/resultados localmente, integrar num dashboard ou plugar em CI (a própria notícia sugere isso).

Quando vale a pena rodar?⌗

Sempre que você editar a skill → rode evals + benchmark.
Quando sair modelo novo (ou atualizar infra) → rode benchmark para pegar regressões.
Se for “capability uplift”, rode evals sem a skill também: se o modelo base passar, talvez a skill ficou redundante.

O que a Anthropic melhorou no skill-creator⌗

A ideia central é: skills agora podem ser tratadas como software, com testes, métricas e iteração, sem você precisar programar. A própria Anthropic diz que isso ajuda autores a verificar que a skill funciona, pegar regressões e melhorar descrições para disparar melhor. ([Claude][1])

1) Dois tipos de skills (e por que isso importa)⌗

A Anthropic separa skills em duas categorias: ([Claude][1])

A) Capability uplift⌗

É quando a skill “ensina técnica” para o Claude fazer algo melhor do que só no prompt (ex.: skills de criação de documentos). ([Claude][1]) Risco: com modelos novos, isso pode virar desnecessário (o modelo “aprende sozinho”).

B) Encoded preference⌗

É quando o Claude já sabe fazer as partes, mas a skill organiza o workflow no jeito do seu time (sequência, critérios, formato, fontes de dados). ([Claude][1]) Risco: não é “obsoleta” tão fácil, mas pode parar de refletir seu processo real.

➡️ Por isso os testes (evals) são úteis para motivos diferentes em cada tipo: ver quando o modelo “ultrapassou” a uplift, ou checar fidelidade do workflow na encoded preference. ([Claude][1])

2) “Evals”: testes para saber se a skill funciona mesmo⌗

O skill-creator agora ajuda você a escrever evals, que são testes do tipo: ([Claude][1])

defina prompts de teste (e arquivos, se precisar)
descreva o que é um resultado bom
rode e veja se a skill passa/falha

Dois usos principais dos evals⌗

Pegar regressões: algo que funcionava mês passado pode mudar com modelo/infra e começar a falhar — eval te dá sinal cedo. ([Claude][1])
Saber quando a skill ficou desnecessária: se o modelo base começa a passar nos testes sem a skill, a skill não está quebrada — só ficou redundante. ([Claude][1])

Exemplo do post: PDF skill⌗

Eles citam que a skill de PDF tinha dificuldade em formulários “não preenchíveis” (sem campos), porque precisava colocar texto em coordenadas. Com evals, isolaram a falha e corrigiram ancorando posição em coordenadas extraídas do texto. ([Claude][1])

3) “Benchmark mode”: medir com números (não só “parece melhor”)⌗

Além de testar, agora dá para rodar benchmark padronizado usando seus evals, e medir:

pass rate (quantos testes passaram)
tempo total
tokens

Isso é ótimo quando:

saiu um modelo novo
você editou a skill e quer provar que melhorou

4) Multi-agent evals: mais rápido e mais “limpo”⌗

Rodar eval um por um pode:

ser lento
“vazar contexto” (um teste influenciar o outro)

Agora o skill-creator pode rodar evals em paralelo, cada um com contexto limpo, com métricas de tokens e tempo por agente.

E tem comparators para A/B:

versão A vs versão B
com skill vs sem skill Eles julgam sem saber qual é qual, para evitar viés.

5) Trigger tuning: fazer a skill disparar na hora certa⌗

Mesmo uma skill perfeita é inútil se não dispara.

O post diz que, conforme você tem muitas skills, a descrição precisa ser calibrada:

muito ampla → dispara errado (false triggers)
muito estreita → nunca dispara (false negatives)

O skill-creator agora analisa a descrição com prompts de exemplo e sugere ajustes para reduzir ambos. Eles testaram em skills públicas de criação de documentos e viram melhoria em 5 de 6.

6) “O futuro”: skill vs especificação pode virar a mesma coisa⌗

A Anthropic sugere que hoje um SKILL.md é quase um “plano de implementação” com passos detalhados. No futuro, uma descrição em linguagem natural pode ser suficiente e o modelo “descobre como fazer”. E eles dizem que o framework de evals é um passo nessa direção.

A notícia oficial no blog da Anthropic/Claude, publicada em 3 de março de 2026.

Resumo da notícia (o que mudou no Skill Creator)⌗

O skill-creator agora ajuda autores a escrever evals, rodar benchmarks e manter skills funcionando conforme os modelos evoluem. As atualizações já estão disponíveis no Claude.ai e Cowork, e também como plugin para Claude Code e no repo oficial.
A Anthropic percebeu que a maioria dos autores de skills são especialistas no assunto (SMEs), não engenheiros, e por isso faltavam ferramentas para saber se a skill ainda funciona, se dispara na hora certa, e se melhorou após uma edição.
A notícia reforça os dois tipos de skills:
Capability uplift (melhora uma capacidade do modelo; pode ficar desnecessária conforme o modelo melhora)
Encoded preference (documenta um workflow/processo do time; tende a ser mais durável)
Evals: agora o skill-creator ajuda a criar testes (prompts + critérios do que é “bom”) para verificar se a skill está correta. O post cita o caso da PDF skill, que melhorou ao “ancorar” posicionamento em coordenadas extraídas de texto.
Benchmarks: modo que roda uma avaliação padronizada e mede taxa de sucesso (pass rate), tempo decorrido e tokens — útil após updates do modelo ou iterações da skill.
Multi-agent evals: para acelerar e evitar “contaminação” de contexto, o skill-creator roda evals em paralelo com agentes independentes; e adiciona agentes “comparadores” para A/B (ex.: versão A vs versão B, ou com skill vs sem skill).
Trigger tuning: como disparar a skill na hora certa depende muito da descrição, o skill-creator agora ajuda a ajustar descrições para reduzir falsos positivos e falsos negativos (disparar errado vs não disparar).
Visão de futuro: a Anthropic sugere que a linha entre “skill” e “especificação” pode se misturar; no futuro, uma descrição em linguagem natural pode bastar, e os evals seriam um passo nessa direção.

claude.com ↗

As habilidades do Claude Code ficaram ainda melhores

O Claude Code acabou de lançar uma grande atualização na forma como as habilidades (skills) funcionam. O novo Skill Creator ajuda você a criar habilidades melhores do zero, executar avaliações (evals) para testar o desempenho delas, otimizar habilidades existentes para maior precisão e acioná-las de forma mais confiável.

Olha tudo o que mudou e uma a criação completa de uma nova habilidade , para que você possa ver exatamente como funciona.

Se você está começando agora no Claude Code ou já vem criando habilidades, essa atualização torna todo o fluxo de trabalho muito melhor. 🚀

Novas Skills - Habilidades do Claude Code

chatgpt.com ↗

Discussão sobre a grande atualização do Skill Creator do Claude…