Apresentação técnica detalhada do modelo Kimi K2, da Moonshot AI, um…
INEMA
🗂️ Resumo técnico⌗
| Item | Detalhes |
|---|---|
| Arquitetura | Mixture-of-Experts (384 experts, 8 ativos/token, MoE) |
| Parâmetros | 1 trilhão total / 32 bilhões ativos |
| Camadas/Cabeças | 61 camadas / 64 cabeças |
| Otimizador | Muon + MuonClip (estabilidade, eficiência) |
| Dados de treino | 15.500 bilhões de tokens |
| Janela de contexto | 128 000 tokens |
| Performance (SWE-bench) | 65,8 % Pass\@1 |
| Performance (LiveCodeBench) | 53,7 % Pass\@1 |
| Outros benchmarks | MATH-500 (97,4 %), MMLU (89,5 %), Tau2 (70,6 %) |
| Deploy & APIs | Groq, SiliconFlow, OpenRouter, Together AI, local |
| Licença | MIT modificada (open-source) |
| Interfaces & ferramentas | VS Code, Cline, Roo Code |
| Não multimodal | Sem suporte nativo para visão ou áudio (VL/Audio modelos separados) |
Veja abaixo todas as informações técnicas confirmadas sobre o modelo Kimi K2, da Moonshot AI:
📐 Arquitetura e parâmetros⌗
- Arquitetura Mixture-of-Experts (MoE) com 1 trilhão de parâmetros totais, sendo 32 bilhões ativados por token ([console.groq.com][1]).
- A rede conta com 384 experts, dos quais 8 são ativados para cada token, além de um expert geral ([Hugging Face][2]).
- Modelo com 61 camadas e 64 cabeças de atenção ([Hugging Face][2]).
- Utiliza funções de ativação SwiGLU (conforme descrito nos papers) ([Medium][3]).
🎯 Otimizador Muon / MuonClip⌗
- Implementação do Muon optimizer para modelos massivos, com estabilização por MuonClip, incluindo “qk‑clip” para prevenir instabilidades na atenção ([Hugging Face][2]).
- Treinamento realizou 15.5 trilhões de tokens, sem falhas, com ganho de 2× eficiência e redução de 50 % no uso de memória ([Hugging Face][2]).
🧠 Janela de contexto⌗
- Context window de 128 mil tokens (\~equivalente a 150‑200 páginas) ([Medium][3]).
📊 Desempenho e benchmarks⌗
- SWE‑bench (engenharia de software): 65,8 % de acerto na primeira tentativa ([console.groq.com][1]).
- LiveCodeBench: 53,7 % Pass\@1 ([console.groq.com][1]).
- MATH‑500: 97,4 % de precisão ([Hugging Face][2]).
- MMLU (language understanding): 89,5 % ([console.groq.com][1]).
- Tau2 retail tasks: 70,6 % Avg\@4 ([console.groq.com][1]).
- Outrora destacou-se em benchmarks de razão lógica (ZebraLogic), GPQA, entre outros ([Hugging Face][4]).
🤖 Capacidades agente⌗
- Projetado para capacidades agenticas, incluindo fluxos multi‑etapas e orquestração de ferramentas ([console.groq.com][1]).
- Foi treinado com Large-Scale Agentic Data Synthesis, simulações com centenas de ferramentas, uso de RL e auto-crítica ([Medium][3]).
⚙️ Implementação e deployment⌗
- Disponível como modelo Kimi‑K2‑Base (pré-treinado) e Kimi‑K2‑Instruct (ajustado para chat/uso geral) ([Reddit][5]).
-
Context window e limites de inferência (K2‑Instruct):
-
Janela de contexto: 131.072 tokens
- Máximo de saída: 16.384 tokens ([console.groq.com][1]).
- Velocidade estimada: \~200 tokens por segundo via Groq ([console.groq.com][1]).
- Também disponível via Groq Cloud, SiliconFlow e plataformas como OpenRouter e Together AI ([Hugging Face][4]).
💾 Licença e acesso open‑source⌗
- Código e pesos abertos no GitHub e Hugging Face, sob licença MIT modificada (com requisito de citação “Kimi K2” em produtos comerciais) ([console.groq.com][1]).
- Pode ser executado localmente (pesos \~1 TB) ou via nuvem .
🧩 Recursos avançados⌗
- Serviço Mooncake: arquitetura KV‑Cache disaggregated para alto throughput em long‑context ([arXiv][6]).
- Interfaces compatíveis: VS Code, Cline, Roo Code, etc. ([AIxploria][7]).
- Drift visual: ainda não suportado multimodal (não há Kimi‑VL ou Kimi‑Audio nesta versão) ([arXiv][8]).
KIMI2 - Moonshot.ai - Alibaba
1