Apresentação técnica detalhada do modelo Kimi K2, da Moonshot AI, um…

INEMA

Item	Detalhes
Arquitetura	Mixture-of-Experts (384 experts, 8 ativos/token, MoE)
Parâmetros	1 trilhão total / 32 bilhões ativos
Camadas/Cabeças	61 camadas / 64 cabeças
Otimizador	Muon + MuonClip (estabilidade, eficiência)
Dados de treino	15.500 bilhões de tokens
Janela de contexto	128 000 tokens
Performance (SWE-bench)	65,8 % Pass\@1
Performance (LiveCodeBench)	53,7 % Pass\@1
Outros benchmarks	MATH-500 (97,4 %), MMLU (89,5 %), Tau2 (70,6 %)
Deploy & APIs	Groq, SiliconFlow, OpenRouter, Together AI, local
Licença	MIT modificada (open-source)
Interfaces & ferramentas	VS Code, Cline, Roo Code
Não multimodal	Sem suporte nativo para visão ou áudio (VL/Audio modelos separados)

Veja abaixo todas as informações técnicas confirmadas sobre o modelo Kimi K2, da Moonshot AI:

📐 Arquitetura e parâmetros⌗

Arquitetura Mixture-of-Experts (MoE) com 1 trilhão de parâmetros totais, sendo 32 bilhões ativados por token ([console.groq.com][1]).
A rede conta com 384 experts, dos quais 8 são ativados para cada token, além de um expert geral ([Hugging Face][2]).
Modelo com 61 camadas e 64 cabeças de atenção ([Hugging Face][2]).
Utiliza funções de ativação SwiGLU (conforme descrito nos papers) ([Medium][3]).

Implementação do Muon optimizer para modelos massivos, com estabilização por MuonClip, incluindo “qk‑clip” para prevenir instabilidades na atenção ([Hugging Face][2]).
Treinamento realizou 15.5 trilhões de tokens, sem falhas, com ganho de 2× eficiência e redução de 50 % no uso de memória ([Hugging Face][2]).

Context window de 128 mil tokens (\~equivalente a 150‑200 páginas) ([Medium][3]).

SWE‑bench (engenharia de software): 65,8 % de acerto na primeira tentativa ([console.groq.com][1]).
LiveCodeBench: 53,7 % Pass\@1 ([console.groq.com][1]).
MATH‑500: 97,4 % de precisão ([Hugging Face][2]).
MMLU (language understanding): 89,5 % ([console.groq.com][1]).
Tau2 retail tasks: 70,6 % Avg\@4 ([console.groq.com][1]).
Outrora destacou-se em benchmarks de razão lógica (ZebraLogic), GPQA, entre outros ([Hugging Face][4]).

Projetado para capacidades agenticas, incluindo fluxos multi‑etapas e orquestração de ferramentas ([console.groq.com][1]).
Foi treinado com Large-Scale Agentic Data Synthesis, simulações com centenas de ferramentas, uso de RL e auto-crítica ([Medium][3]).

Disponível como modelo Kimi‑K2‑Base (pré-treinado) e Kimi‑K2‑Instruct (ajustado para chat/uso geral) ([Reddit][5]).
Context window e limites de inferência (K2‑Instruct):
Janela de contexto: 131.072 tokens
Máximo de saída: 16.384 tokens ([console.groq.com][1]).
Velocidade estimada: \~200 tokens por segundo via Groq ([console.groq.com][1]).
Também disponível via Groq Cloud, SiliconFlow e plataformas como OpenRouter e Together AI ([Hugging Face][4]).

Código e pesos abertos no GitHub e Hugging Face, sob licença MIT modificada (com requisito de citação “Kimi K2” em produtos comerciais) ([console.groq.com][1]).
Pode ser executado localmente (pesos \~1 TB) ou via nuvem .

Serviço Mooncake: arquitetura KV‑Cache disaggregated para alto throughput em long‑context ([arXiv][6]).
Interfaces compatíveis: VS Code, Cline, Roo Code, etc. ([AIxploria][7]).
Drift visual: ainda não suportado multimodal (não há Kimi‑VL ou Kimi‑Audio nesta versão) ([arXiv][8]).

KIMI2 - Moonshot.ai - Alibaba