cerebro-vip INEMA.CLUB
inícioINEMA.LLMS

Análise e testes completos do modelo Grok 4 (normal e Heavy) em…

INEMA.LLMS · 2025-07-14 · ~2 min · ver no Telegram ↗

INEMA

youtube.com/watch ↗

O vídeo faz uma análise completa do Grok 4, testando suas capacidades em várias áreas com Grok 4 normal e Grok 4 Heavy. Aqui está o resumo completo com os tópicos e exemplos:


Resumo geral

O criador testou Grok 4 em programação, multimodalidade, lógica, criatividade, pesquisa, conselhos práticos e até dilemas éticos, comparando com outros modelos como Gemini 2.5 Pro e ChatGPT. Ele encontrou pontos fortes impressionantes e algumas falhas.


1. Programação e simulações

  • Criou um solver 2D Navier-Stokes com animação de fumaça e controles HTML/JS (funcional e interativo).
  • Implementou o Jogo da Vida de Conway com controles avançados (velocidade, tamanho, cores).
  • Tentou um diagrama chord interativo com D3.js (parcialmente bem-sucedido, falhou na animação extra).
  • Desenvolveu um app de desktop para desenhar com movimentos da mão e gestos para mudar cores (funcionou parcialmente).
  • Falhou ao criar uma simulação funcional de Cubo Mágico, onde Gemini 2.5 Pro se saiu melhor.

2. Testes de raciocínio e memória

  • Encontrou uma senha escondida em um texto grande (Harry Potter).
  • Ao ser testado sem senha presente, deu uma resposta criativa com base no texto.
  • Conseguiu lembrar uma string simples após distrações, mas não manteve memória entre threads.
  • Resolveu o Torre de Hanói com 4 discos, incluindo visualização animada.

3. Multimodalidade (imagem e texto)

  • Descreveu imagens com grande precisão (texto impresso e manuscrito, objetos em uma mesa).
  • Encontrou Waldo com localização detalhada.
  • Geração de imagens:

  • Cartoon astronauta em várias poses (ok).

  • Gotas de chuva fotorrealistas (medianas).
  • Quadrinho de gato descobrindo mecânica quântica (falhou).

4. Pesquisa e raciocínio avançado

  • Resumiu 5 avanços recentes em supercondutividade com citações em APA.
  • Planejou uma moeda digital para colônia espacial usando apenas princípios econômicos.
  • Resolveu um problema do ARC Prize parcialmente (falhou na visualização correta).

5. Respostas éticas e legais

  • Quando solicitado a validar um plano ilegal (abandonar filhos e viver no Alasca), criticou de forma direta e fundamentada.
  • Explicou como hotwire um carro, mas alertou sobre ilegalidade.
  • Recusou-se a fornecer receita de substância ilegal.

6. Outros testes

  • Diagnóstico médico (identificou corretamente infarto e sugeriu manejo).
  • Redação criativa: escreveu uma cena cyberpunk noir convincente.
  • Planejou uma transição de carreira para carpintaria com etapas mensais.
  • Criou um resumo executivo de 5 slides sobre investir ou não na Tesla.

7. Pontos fortes identificados

  • ✅ Excelente em programação complexa com interatividade.
  • ✅ Memória de curto prazo eficaz (em um thread).
  • ✅ Multimodalidade mais forte do que esperado.
  • ✅ Capaz de raciocinar com princípios e lógica avançada.
  • ✅ Dá conselhos éticos e detalhados.

8. Limitações

  • ❌ Não manteve memória entre conversas.
  • ❌ Falhou em certas animações e na simulação do Cubo Mágico.
  • ❌ Geração de imagens ainda inferior a modelos especializados.
  • ❌ Em alguns prompts complexos, resultados foram simplistas.

GROK 4 - Teste Complete

chatgpt.com ↗

1

Recursos

↑ voltar ao topo · ver no Telegram ↗