Análise e explicação do método **Plan Tuning** do Google AI, que…
INEMA
dublado
Vou explicar cada um dos tópicos de forma bem simples, como se fosse para uma pessoa leiga entender facilmente.
1. O que é o Plan Tuning?⌗
Imagine que você tem um amigo muito inteligente (os Titans, como GPT-5) que sabe resolver qualquer problema difícil. O Google está ensinando os modelos menores (que cabem até num celular) a aprender com esses amigos gigantes. Eles pegam o “passo a passo” (o plano) que o gigante faria e ensinam o pequeno a fazer igual. Assim, o modelo pequeno já sabe o caminho certo antes mesmo de começar.
2. Como funciona?⌗
São duas etapas:
-
Primeira (SFT – Treinamento supervisionado)
-
Ensina o modelo pequeno com exemplos prontos de “como resolver problemas”.
-
Duas formas de fazer isso:
-
✅ M1: Ensina o plano, a execução e a resposta juntos.
-
✅ M2: Ensina só o plano (mais simples e dá resultados melhores).
-
Segunda (Reforço com GRPO)
-
Aqui o modelo aprende sozinho, recebendo “pontos” quando acerta.
- O Google usa uma maneira mais inteligente de dar esses pontos (com números claros) para o modelo melhorar.
3. O que mudou?⌗
- ✅ Antes: modelos pequenos pensavam passo a passo durante o uso (isso era lento e errava muito).
- ✅ Agora: eles já vêm treinados com os melhores planos, como se tivessem um “mapa” na cabeça.
4. Funciona mesmo?⌗
-
Nos testes do Google:
-
📈 Melhorou de 31% para 34% nas tarefas mais simples.
-
📈 Em tarefas mais difíceis, a melhora foi menor (às vezes só de 0% para 3%).
-
Nos modelos pequenos, funciona melhor em tarefas simples. Para tarefas complexas, ainda falta “memória” e poder.
5. Por que isso é legal?⌗
- 👉 O modelo pequeno já sabe o que fazer sem precisar pensar muito.
- 👉 Ele evita dar respostas absurdas, porque tem um plano para seguir.
- 👉 Pode funcionar em celulares, relógios e dispositivos com pouca potência.
6. Tem algum problema?⌗
- ⚠️ Sim. Modelos pequenos ainda não conseguem fazer tudo o que os gigantes fazem.
- ⚠️ Melhorias são boas, mas não são um milagre – precisam de mais trabalho para tarefas complexas.
7. Qual é o próximo passo?⌗
- 🚀 Os futuros modelos do Google (como Gemini Pro 3) devem vir treinados com essa nova técnica.
- 🚀 Isso pode deixar até os modelos pequenos muito mais inteligentes e úteis no dia a dia.
O vídeo “TITAN AI to Create Clever & Small LM? Context Engineering!” explica um novo método do Google AI para transferir capacidades avançadas de raciocínio e planejamento de modelos gigantes (Titans como GPT-5 e Gemini 3 Pro) para modelos pequenos (1B-8B parâmetros), usando o conceito de Plan Tuning. Aqui está o resumo completo:
1. Ideia central: Plan Tuning⌗
- Objetivo: tornar pequenos LLMs (1-8 bilhões de parâmetros) mais inteligentes e capazes de planejamento complexo.
- Como: extrair dos Titans as estratégias de decomposição de tarefas em subobjetivos e “bakear” isso nos pesos do modelo pequeno com pós-treinamento.
- Isso evita que o modelo precise fazer raciocínio em tempo de inferência (como no Chain of Thought) e já incorpora o conhecimento no modelo.
2. Duas fases principais⌗
-
Supervised Fine-Tuning (SFT):
-
Treina o modelo pequeno com exemplos detalhados de planos (do Titan) para resolver tarefas.
-
Duas variantes:
- M1 (joint tuning): treina plano + execução + resposta final.
- M2 (plan only): foca apenas no plano, ignorando execução/resposta. Mais rápido e eficaz.
- Reinforcement Learning com GRPO (Generalized Reward Policy Optimization):
-
Google usa recompensa explícita numérica (diferente do DPO com recompensas implícitas).
- Avalia a qualidade do plano e a correção da resposta (binária: 2 para correto, 0 para errado).
3. Resultados⌗
-
Modelos pequenos (1B):
-
SFT vanilla → 31.4% (baseline no benchmark Olympiad).
- M1 → 32.2%
- M2 → 34.2% (+3%)
- GRPO vanilla → 20%
- GRPO com Plan Tuning → 28% (+8%)
-
Generalização fora do domínio:
-
Melhorias modestas (ex.: de 0% para 3% em alguns benchmarks).
- Plan Tuning ajuda, mas tamanho do modelo ainda é limitante.
- Modelos maiores (4B) mostraram queda de desempenho com GRPO em tarefas complexas.
4. Principais vantagens⌗
- Planos estratégicos extraídos dos Titans fornecem um "roteiro" para pequenos LLMs, reduzindo a carga cognitiva.
- Evita alucinações e caminhos errados, atuando como uma “guarda de trilho” lógico.
- Melhora o raciocínio multi-etapas e a capacidade de decompor problemas.
5. Limitações e observações⌗
- Melhorias foram relativas (3-8%), mas ainda pequenas em tarefas fora do domínio.
- Tamanho importa: modelos pequenos não conseguem absorver toda a complexidade dos Titans.
- Implementação do GRPO pode ser dependente demais das funções de recompensa.
6. Conclusão e futuro⌗
- O Plan Tuning é um passo além do Chain of Thought, trazendo raciocínio estratégico para os pesos do modelo.
- Pequenos LLMs podem se tornar muito mais úteis com esse método.
- Nenhum modelo atual foi treinado completamente com essa nova abordagem (ainda estamos nos primeiros testes).
- Expectativa de ver próximos Gemini Pro e outros aplicando essa metodologia.
Exemplos do vídeo:⌗
- ✅ Antes: modelo pequeno fazia raciocínio linear (Chain of Thought) e errava no resultado final.
- ✅ Depois: com Plan Tuning, seguia o plano estratégico do Titan e acertava.
kkk
esta recompensa implicita q perde qualidade pelo gradiente acendente
os Modelos generalizados tende a perder qualidade fora do contexto
LLMs Titans
1