cerebro-vip INEMA.CLUB
inícioINEMA.LLMS

Apresentação técnica detalhada do modelo Kimi K2, da Moonshot AI, um…

INEMA.LLMS · 2025-07-18 · ~3 min · ver no Telegram ↗

INEMA

🗂️ Resumo técnico

Item Detalhes
Arquitetura Mixture-of-Experts (384 experts, 8 ativos/token, MoE)
Parâmetros 1 trilhão total / 32 bilhões ativos
Camadas/Cabeças 61 camadas / 64 cabeças
Otimizador Muon + MuonClip (estabilidade, eficiência)
Dados de treino 15.500 bilhões de tokens
Janela de contexto 128 000 tokens
Performance (SWE-bench) 65,8 % Pass\@1
Performance (LiveCodeBench) 53,7 % Pass\@1
Outros benchmarks MATH-500 (97,4 %), MMLU (89,5 %), Tau2 (70,6 %)
Deploy & APIs Groq, SiliconFlow, OpenRouter, Together AI, local
Licença MIT modificada (open-source)
Interfaces & ferramentas VS Code, Cline, Roo Code
Não multimodal Sem suporte nativo para visão ou áudio (VL/Audio modelos separados)

Veja abaixo todas as informações técnicas confirmadas sobre o modelo Kimi K2, da Moonshot AI:


📐 Arquitetura e parâmetros

  • Arquitetura Mixture-of-Experts (MoE) com 1 trilhão de parâmetros totais, sendo 32 bilhões ativados por token ([console.groq.com][1]).
  • A rede conta com 384 experts, dos quais 8 são ativados para cada token, além de um expert geral ([Hugging Face][2]).
  • Modelo com 61 camadas e 64 cabeças de atenção ([Hugging Face][2]).
  • Utiliza funções de ativação SwiGLU (conforme descrito nos papers) ([Medium][3]).

🎯 Otimizador Muon / MuonClip

  • Implementação do Muon optimizer para modelos massivos, com estabilização por MuonClip, incluindo “qk‑clip” para prevenir instabilidades na atenção ([Hugging Face][2]).
  • Treinamento realizou 15.5 trilhões de tokens, sem falhas, com ganho de 2× eficiência e redução de 50 % no uso de memória ([Hugging Face][2]).

🧠 Janela de contexto

  • Context window de 128 mil tokens (\~equivalente a 150‑200 páginas) ([Medium][3]).

📊 Desempenho e benchmarks

  • SWE‑bench (engenharia de software): 65,8 % de acerto na primeira tentativa ([console.groq.com][1]).
  • LiveCodeBench: 53,7 % Pass\@1 ([console.groq.com][1]).
  • MATH‑500: 97,4 % de precisão ([Hugging Face][2]).
  • MMLU (language understanding): 89,5 % ([console.groq.com][1]).
  • Tau2 retail tasks: 70,6 % Avg\@4 ([console.groq.com][1]).
  • Outrora destacou-se em benchmarks de razão lógica (ZebraLogic), GPQA, entre outros ([Hugging Face][4]).

🤖 Capacidades agente

  • Projetado para capacidades agenticas, incluindo fluxos multi‑etapas e orquestração de ferramentas ([console.groq.com][1]).
  • Foi treinado com Large-Scale Agentic Data Synthesis, simulações com centenas de ferramentas, uso de RL e auto-crítica ([Medium][3]).

⚙️ Implementação e deployment

  • Disponível como modelo Kimi‑K2‑Base (pré-treinado) e Kimi‑K2‑Instruct (ajustado para chat/uso geral) ([Reddit][5]).
  • Context window e limites de inferência (K2‑Instruct):

  • Janela de contexto: 131.072 tokens

  • Máximo de saída: 16.384 tokens ([console.groq.com][1]).
  • Velocidade estimada: \~200 tokens por segundo via Groq ([console.groq.com][1]).
  • Também disponível via Groq Cloud, SiliconFlow e plataformas como OpenRouter e Together AI ([Hugging Face][4]).

💾 Licença e acesso open‑source

  • Código e pesos abertos no GitHub e Hugging Face, sob licença MIT modificada (com requisito de citação “Kimi K2” em produtos comerciais) ([console.groq.com][1]).
  • Pode ser executado localmente (pesos \~1 TB) ou via nuvem .

🧩 Recursos avançados

  • Serviço Mooncake: arquitetura KV‑Cache disaggregated para alto throughput em long‑context ([arXiv][6]).
  • Interfaces compatíveis: VS Code, Cline, Roo Code, etc. ([AIxploria][7]).
  • Drift visual: ainda não suportado multimodal (não há Kimi‑VL ou Kimi‑Audio nesta versão) ([arXiv][8]).

KIMI2 - Moonshot.ai - Alibaba

1

↑ voltar ao topo · ver no Telegram ↗