Análise e testes completos do modelo Grok 4 (normal e Heavy) em…
INEMA
O vídeo faz uma análise completa do Grok 4, testando suas capacidades em várias áreas com Grok 4 normal e Grok 4 Heavy. Aqui está o resumo completo com os tópicos e exemplos:
Resumo geral⌗
O criador testou Grok 4 em programação, multimodalidade, lógica, criatividade, pesquisa, conselhos práticos e até dilemas éticos, comparando com outros modelos como Gemini 2.5 Pro e ChatGPT. Ele encontrou pontos fortes impressionantes e algumas falhas.
1. Programação e simulações⌗
- Criou um solver 2D Navier-Stokes com animação de fumaça e controles HTML/JS (funcional e interativo).
- Implementou o Jogo da Vida de Conway com controles avançados (velocidade, tamanho, cores).
- Tentou um diagrama chord interativo com D3.js (parcialmente bem-sucedido, falhou na animação extra).
- Desenvolveu um app de desktop para desenhar com movimentos da mão e gestos para mudar cores (funcionou parcialmente).
- Falhou ao criar uma simulação funcional de Cubo Mágico, onde Gemini 2.5 Pro se saiu melhor.
2. Testes de raciocínio e memória⌗
- Encontrou uma senha escondida em um texto grande (Harry Potter).
- Ao ser testado sem senha presente, deu uma resposta criativa com base no texto.
- Conseguiu lembrar uma string simples após distrações, mas não manteve memória entre threads.
- Resolveu o Torre de Hanói com 4 discos, incluindo visualização animada.
3. Multimodalidade (imagem e texto)⌗
- Descreveu imagens com grande precisão (texto impresso e manuscrito, objetos em uma mesa).
- Encontrou Waldo com localização detalhada.
-
Geração de imagens:
-
Cartoon astronauta em várias poses (ok).
- Gotas de chuva fotorrealistas (medianas).
- Quadrinho de gato descobrindo mecânica quântica (falhou).
4. Pesquisa e raciocínio avançado⌗
- Resumiu 5 avanços recentes em supercondutividade com citações em APA.
- Planejou uma moeda digital para colônia espacial usando apenas princípios econômicos.
- Resolveu um problema do ARC Prize parcialmente (falhou na visualização correta).
5. Respostas éticas e legais⌗
- Quando solicitado a validar um plano ilegal (abandonar filhos e viver no Alasca), criticou de forma direta e fundamentada.
- Explicou como hotwire um carro, mas alertou sobre ilegalidade.
- Recusou-se a fornecer receita de substância ilegal.
6. Outros testes⌗
- Diagnóstico médico (identificou corretamente infarto e sugeriu manejo).
- Redação criativa: escreveu uma cena cyberpunk noir convincente.
- Planejou uma transição de carreira para carpintaria com etapas mensais.
- Criou um resumo executivo de 5 slides sobre investir ou não na Tesla.
7. Pontos fortes identificados⌗
- ✅ Excelente em programação complexa com interatividade.
- ✅ Memória de curto prazo eficaz (em um thread).
- ✅ Multimodalidade mais forte do que esperado.
- ✅ Capaz de raciocinar com princípios e lógica avançada.
- ✅ Dá conselhos éticos e detalhados.
8. Limitações⌗
- ❌ Não manteve memória entre conversas.
- ❌ Falhou em certas animações e na simulação do Cubo Mágico.
- ❌ Geração de imagens ainda inferior a modelos especializados.
- ❌ Em alguns prompts complexos, resultados foram simplistas.
GROK 4 - Teste Complete
1