Análise e testes completos do modelo Grok 4 (normal e Heavy) em…

INEMA

O vídeo faz uma análise completa do Grok 4, testando suas capacidades em várias áreas com Grok 4 normal e Grok 4 Heavy. Aqui está o resumo completo com os tópicos e exemplos:

Resumo geral⌗

O criador testou Grok 4 em programação, multimodalidade, lógica, criatividade, pesquisa, conselhos práticos e até dilemas éticos, comparando com outros modelos como Gemini 2.5 Pro e ChatGPT. Ele encontrou pontos fortes impressionantes e algumas falhas.

1. Programação e simulações⌗

Criou um solver 2D Navier-Stokes com animação de fumaça e controles HTML/JS (funcional e interativo).
Implementou o Jogo da Vida de Conway com controles avançados (velocidade, tamanho, cores).
Tentou um diagrama chord interativo com D3.js (parcialmente bem-sucedido, falhou na animação extra).
Desenvolveu um app de desktop para desenhar com movimentos da mão e gestos para mudar cores (funcionou parcialmente).
Falhou ao criar uma simulação funcional de Cubo Mágico, onde Gemini 2.5 Pro se saiu melhor.

2. Testes de raciocínio e memória⌗

Encontrou uma senha escondida em um texto grande (Harry Potter).
Ao ser testado sem senha presente, deu uma resposta criativa com base no texto.
Conseguiu lembrar uma string simples após distrações, mas não manteve memória entre threads.
Resolveu o Torre de Hanói com 4 discos, incluindo visualização animada.

3. Multimodalidade (imagem e texto)⌗

Descreveu imagens com grande precisão (texto impresso e manuscrito, objetos em uma mesa).
Encontrou Waldo com localização detalhada.
Geração de imagens:
Cartoon astronauta em várias poses (ok).
Gotas de chuva fotorrealistas (medianas).
Quadrinho de gato descobrindo mecânica quântica (falhou).

4. Pesquisa e raciocínio avançado⌗

Resumiu 5 avanços recentes em supercondutividade com citações em APA.
Planejou uma moeda digital para colônia espacial usando apenas princípios econômicos.
Resolveu um problema do ARC Prize parcialmente (falhou na visualização correta).

5. Respostas éticas e legais⌗

Quando solicitado a validar um plano ilegal (abandonar filhos e viver no Alasca), criticou de forma direta e fundamentada.
Explicou como hotwire um carro, mas alertou sobre ilegalidade.
Recusou-se a fornecer receita de substância ilegal.

6. Outros testes⌗

Diagnóstico médico (identificou corretamente infarto e sugeriu manejo).
Redação criativa: escreveu uma cena cyberpunk noir convincente.
Planejou uma transição de carreira para carpintaria com etapas mensais.
Criou um resumo executivo de 5 slides sobre investir ou não na Tesla.

7. Pontos fortes identificados⌗

✅ Excelente em programação complexa com interatividade.
✅ Memória de curto prazo eficaz (em um thread).
✅ Multimodalidade mais forte do que esperado.
✅ Capaz de raciocinar com princípios e lógica avançada.
✅ Dá conselhos éticos e detalhados.

8. Limitações⌗

❌ Não manteve memória entre conversas.
❌ Falhou em certas animações e na simulação do Cubo Mágico.
❌ Geração de imagens ainda inferior a modelos especializados.
❌ Em alguns prompts complexos, resultados foram simplistas.

GROK 4 - Teste Complete

chatgpt.com ↗