cerebro-vip INEMA.CLUB
inícioINEMA.LLMS

Análise e explicação do método **Plan Tuning** do Google AI, que…

INEMA.LLMS · 2025-07-15 · ~4 min · ver no Telegram ↗

INEMA

dublado

youtube.com/watch ↗

Vou explicar cada um dos tópicos de forma bem simples, como se fosse para uma pessoa leiga entender facilmente.


1. O que é o Plan Tuning?

Imagine que você tem um amigo muito inteligente (os Titans, como GPT-5) que sabe resolver qualquer problema difícil. O Google está ensinando os modelos menores (que cabem até num celular) a aprender com esses amigos gigantes. Eles pegam o “passo a passo” (o plano) que o gigante faria e ensinam o pequeno a fazer igual. Assim, o modelo pequeno já sabe o caminho certo antes mesmo de começar.


2. Como funciona?

São duas etapas:

  • Primeira (SFT – Treinamento supervisionado)

  • Ensina o modelo pequeno com exemplos prontos de “como resolver problemas”.

  • Duas formas de fazer isso:

  • ✅ M1: Ensina o plano, a execução e a resposta juntos.

  • ✅ M2: Ensina só o plano (mais simples e dá resultados melhores).

  • Segunda (Reforço com GRPO)

  • Aqui o modelo aprende sozinho, recebendo “pontos” quando acerta.

  • O Google usa uma maneira mais inteligente de dar esses pontos (com números claros) para o modelo melhorar.

3. O que mudou?

  • ✅ Antes: modelos pequenos pensavam passo a passo durante o uso (isso era lento e errava muito).
  • ✅ Agora: eles já vêm treinados com os melhores planos, como se tivessem um “mapa” na cabeça.

4. Funciona mesmo?

  • Nos testes do Google:

  • 📈 Melhorou de 31% para 34% nas tarefas mais simples.

  • 📈 Em tarefas mais difíceis, a melhora foi menor (às vezes só de 0% para 3%).

  • Nos modelos pequenos, funciona melhor em tarefas simples. Para tarefas complexas, ainda falta “memória” e poder.


  • 👉 O modelo pequeno já sabe o que fazer sem precisar pensar muito.
  • 👉 Ele evita dar respostas absurdas, porque tem um plano para seguir.
  • 👉 Pode funcionar em celulares, relógios e dispositivos com pouca potência.

6. Tem algum problema?

  • ⚠️ Sim. Modelos pequenos ainda não conseguem fazer tudo o que os gigantes fazem.
  • ⚠️ Melhorias são boas, mas não são um milagre – precisam de mais trabalho para tarefas complexas.

7. Qual é o próximo passo?

  • 🚀 Os futuros modelos do Google (como Gemini Pro 3) devem vir treinados com essa nova técnica.
  • 🚀 Isso pode deixar até os modelos pequenos muito mais inteligentes e úteis no dia a dia.

O vídeo “TITAN AI to Create Clever & Small LM? Context Engineering!” explica um novo método do Google AI para transferir capacidades avançadas de raciocínio e planejamento de modelos gigantes (Titans como GPT-5 e Gemini 3 Pro) para modelos pequenos (1B-8B parâmetros), usando o conceito de Plan Tuning. Aqui está o resumo completo:


1. Ideia central: Plan Tuning

  • Objetivo: tornar pequenos LLMs (1-8 bilhões de parâmetros) mais inteligentes e capazes de planejamento complexo.
  • Como: extrair dos Titans as estratégias de decomposição de tarefas em subobjetivos e “bakear” isso nos pesos do modelo pequeno com pós-treinamento.
  • Isso evita que o modelo precise fazer raciocínio em tempo de inferência (como no Chain of Thought) e já incorpora o conhecimento no modelo.

2. Duas fases principais

  • Supervised Fine-Tuning (SFT):

  • Treina o modelo pequeno com exemplos detalhados de planos (do Titan) para resolver tarefas.

  • Duas variantes:

    • M1 (joint tuning): treina plano + execução + resposta final.
    • M2 (plan only): foca apenas no plano, ignorando execução/resposta. Mais rápido e eficaz.
    • Reinforcement Learning com GRPO (Generalized Reward Policy Optimization):
  • Google usa recompensa explícita numérica (diferente do DPO com recompensas implícitas).

  • Avalia a qualidade do plano e a correção da resposta (binária: 2 para correto, 0 para errado).

3. Resultados

  • Modelos pequenos (1B):

  • SFT vanilla → 31.4% (baseline no benchmark Olympiad).

  • M1 → 32.2%
  • M2 → 34.2% (+3%)
  • GRPO vanilla → 20%
  • GRPO com Plan Tuning → 28% (+8%)
  • Generalização fora do domínio:

  • Melhorias modestas (ex.: de 0% para 3% em alguns benchmarks).

  • Plan Tuning ajuda, mas tamanho do modelo ainda é limitante.
  • Modelos maiores (4B) mostraram queda de desempenho com GRPO em tarefas complexas.

4. Principais vantagens

  • Planos estratégicos extraídos dos Titans fornecem um "roteiro" para pequenos LLMs, reduzindo a carga cognitiva.
  • Evita alucinações e caminhos errados, atuando como uma “guarda de trilho” lógico.
  • Melhora o raciocínio multi-etapas e a capacidade de decompor problemas.

5. Limitações e observações

  • Melhorias foram relativas (3-8%), mas ainda pequenas em tarefas fora do domínio.
  • Tamanho importa: modelos pequenos não conseguem absorver toda a complexidade dos Titans.
  • Implementação do GRPO pode ser dependente demais das funções de recompensa.

6. Conclusão e futuro

  • O Plan Tuning é um passo além do Chain of Thought, trazendo raciocínio estratégico para os pesos do modelo.
  • Pequenos LLMs podem se tornar muito mais úteis com esse método.
  • Nenhum modelo atual foi treinado completamente com essa nova abordagem (ainda estamos nos primeiros testes).
  • Expectativa de ver próximos Gemini Pro e outros aplicando essa metodologia.

Exemplos do vídeo:

  • ✅ Antes: modelo pequeno fazia raciocínio linear (Chain of Thought) e errava no resultado final.
  • ✅ Depois: com Plan Tuning, seguia o plano estratégico do Titan e acertava.

kkk

esta recompensa implicita q perde qualidade pelo gradiente acendente

os Modelos generalizados tende a perder qualidade fora do contexto

LLMs Titans

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗