Análise e explicação do método **Plan Tuning** do Google AI, que…

INEMA

dublado

Vou explicar cada um dos tópicos de forma bem simples, como se fosse para uma pessoa leiga entender facilmente.

1. O que é o Plan Tuning?⌗

Imagine que você tem um amigo muito inteligente (os Titans, como GPT-5) que sabe resolver qualquer problema difícil. O Google está ensinando os modelos menores (que cabem até num celular) a aprender com esses amigos gigantes. Eles pegam o “passo a passo” (o plano) que o gigante faria e ensinam o pequeno a fazer igual. Assim, o modelo pequeno já sabe o caminho certo antes mesmo de começar.

2. Como funciona?⌗

São duas etapas:

Primeira (SFT – Treinamento supervisionado)
Ensina o modelo pequeno com exemplos prontos de “como resolver problemas”.
Duas formas de fazer isso:
✅ M1: Ensina o plano, a execução e a resposta juntos.
✅ M2: Ensina só o plano (mais simples e dá resultados melhores).
Segunda (Reforço com GRPO)
Aqui o modelo aprende sozinho, recebendo “pontos” quando acerta.
O Google usa uma maneira mais inteligente de dar esses pontos (com números claros) para o modelo melhorar.

3. O que mudou?⌗

✅ Antes: modelos pequenos pensavam passo a passo durante o uso (isso era lento e errava muito).
✅ Agora: eles já vêm treinados com os melhores planos, como se tivessem um “mapa” na cabeça.

4. Funciona mesmo?⌗

Nos testes do Google:
📈 Melhorou de 31% para 34% nas tarefas mais simples.
📈 Em tarefas mais difíceis, a melhora foi menor (às vezes só de 0% para 3%).
Nos modelos pequenos, funciona melhor em tarefas simples. Para tarefas complexas, ainda falta “memória” e poder.

5. Por que isso é legal?⌗

👉 O modelo pequeno já sabe o que fazer sem precisar pensar muito.
👉 Ele evita dar respostas absurdas, porque tem um plano para seguir.
👉 Pode funcionar em celulares, relógios e dispositivos com pouca potência.

6. Tem algum problema?⌗

⚠️ Sim. Modelos pequenos ainda não conseguem fazer tudo o que os gigantes fazem.
⚠️ Melhorias são boas, mas não são um milagre – precisam de mais trabalho para tarefas complexas.

7. Qual é o próximo passo?⌗

🚀 Os futuros modelos do Google (como Gemini Pro 3) devem vir treinados com essa nova técnica.
🚀 Isso pode deixar até os modelos pequenos muito mais inteligentes e úteis no dia a dia.

O vídeo “TITAN AI to Create Clever & Small LM? Context Engineering!” explica um novo método do Google AI para transferir capacidades avançadas de raciocínio e planejamento de modelos gigantes (Titans como GPT-5 e Gemini 3 Pro) para modelos pequenos (1B-8B parâmetros), usando o conceito de Plan Tuning. Aqui está o resumo completo:

1. Ideia central: Plan Tuning⌗

Objetivo: tornar pequenos LLMs (1-8 bilhões de parâmetros) mais inteligentes e capazes de planejamento complexo.
Como: extrair dos Titans as estratégias de decomposição de tarefas em subobjetivos e “bakear” isso nos pesos do modelo pequeno com pós-treinamento.
Isso evita que o modelo precise fazer raciocínio em tempo de inferência (como no Chain of Thought) e já incorpora o conhecimento no modelo.

2. Duas fases principais⌗

Supervised Fine-Tuning (SFT):
Treina o modelo pequeno com exemplos detalhados de planos (do Titan) para resolver tarefas.
Duas variantes:
- M1 (joint tuning): treina plano + execução + resposta final.
- M2 (plan only): foca apenas no plano, ignorando execução/resposta. Mais rápido e eficaz.
- Reinforcement Learning com GRPO (Generalized Reward Policy Optimization):
Google usa recompensa explícita numérica (diferente do DPO com recompensas implícitas).
Avalia a qualidade do plano e a correção da resposta (binária: 2 para correto, 0 para errado).

3. Resultados⌗

Modelos pequenos (1B):
SFT vanilla → 31.4% (baseline no benchmark Olympiad).
M1 → 32.2%
M2 → 34.2% (+3%)
GRPO vanilla → 20%
GRPO com Plan Tuning → 28% (+8%)
Generalização fora do domínio:
Melhorias modestas (ex.: de 0% para 3% em alguns benchmarks).
Plan Tuning ajuda, mas tamanho do modelo ainda é limitante.
Modelos maiores (4B) mostraram queda de desempenho com GRPO em tarefas complexas.

4. Principais vantagens⌗

Planos estratégicos extraídos dos Titans fornecem um "roteiro" para pequenos LLMs, reduzindo a carga cognitiva.
Evita alucinações e caminhos errados, atuando como uma “guarda de trilho” lógico.
Melhora o raciocínio multi-etapas e a capacidade de decompor problemas.

5. Limitações e observações⌗

Melhorias foram relativas (3-8%), mas ainda pequenas em tarefas fora do domínio.
Tamanho importa: modelos pequenos não conseguem absorver toda a complexidade dos Titans.
Implementação do GRPO pode ser dependente demais das funções de recompensa.

6. Conclusão e futuro⌗

O Plan Tuning é um passo além do Chain of Thought, trazendo raciocínio estratégico para os pesos do modelo.
Pequenos LLMs podem se tornar muito mais úteis com esse método.
Nenhum modelo atual foi treinado completamente com essa nova abordagem (ainda estamos nos primeiros testes).
Expectativa de ver próximos Gemini Pro e outros aplicando essa metodologia.

Exemplos do vídeo:⌗

✅ Antes: modelo pequeno fazia raciocínio linear (Chain of Thought) e errava no resultado final.
✅ Depois: com Plan Tuning, seguia o plano estratégico do Titan e acertava.

kkk

esta recompensa implicita q perde qualidade pelo gradiente acendente

os Modelos generalizados tende a perder qualidade fora do contexto

LLMs Titans

chatgpt.com ↗

Análise e explicação do método Plan Tuning do Google AI, que…