cerebro-vip INEMA.CLUB
inícioINEMA.VIDEOS

Discussão sobre o **Goku AI** da ByteDance, modelo de geração de…

INEMA.VIDEOS · 2025-02-12 · ~3 min · ver no Telegram ↗

INEMA

aqui estava gratuito e nao esta mais

oficialmente nao esta liberado.

nao sei se este site é confiavel

gokuai.top ↗

github.com/Saiyan-World/goku ↗

bytedancegoku.com ↗

gokuvideoai.com ↗

.Aqui estão os dados técnicos do Goku AI da ByteDance, conforme o artigo:

1. Base de Dados de Treinamento

  • 160 milhões de pares de imagem-texto
  • 36 milhões de pares de vídeo-texto
  • Fontes: repositórios acadêmicos, conteúdos da internet e organizações parceiras
  • Filtragem rigorosa para garantir qualidade e relevância do conteúdo gerado

2. Arquitetura do Modelo

  • Transformador com 2 a 8 bilhões de parâmetros
  • Suporte para geração de imagens e vídeos a partir de texto
  • Utiliza Rectified Flow em vez de técnicas tradicionais de difusão
  • Maior consistência visual e menos artefatos visuais
  • Elimina ruído excessivo nas iterações de geração

3. Compressão e Processamento de Dados

  • Baseado em Variational Autoencoder (VAE)
  • Conversão de imagens e vídeos para um espaço latente unificado
  • Menor carga computacional sem perda significativa de qualidade
  • Uso de transformadores customizados para otimizar saídas de alta resolução

4. Fases de Treinamento

  • Fase 1: Associação de descrições textuais com imagens
  • Fase 2: Expansão para dados de imagem e vídeo para treinar coerência temporal
  • Fase 3: Otimização para geração de imagens e vídeos de alta qualidade

5. Infraestrutura de Treinamento

  • Arquitetura escalável e otimizada para processamento paralelo
  • Clusters de computação em larga escala
  • Salvamento incremental de progresso para evitar perda de dados
  • Treinamento estável e eficiente, reduzindo downtime

6. Desempenho e Benchmarks

  • Goku-T2V (Text-to-Video) alcançou 84.85 no VBench
  • Supera Kling e Pika em testes de qualidade de vídeo
  • Melhorias significativas em relação ao modelo anterior da ByteDance (Jimeng)
  • Maior resolução, melhor consistência de quadros e reprodução de detalhes mais refinada

7. Restrições Técnicas Atuais

  • Duração máxima dos vídeos: 4 segundos
  • Taxa de quadros: 24 FPS
  • Resolução máxima: 720p
  • Foco na otimização futura para vídeos mais longos e em 4K

8. Aplicações Práticas

  • Criação de publicidade digital: Vídeos realistas de produtos sem necessidade de atores
  • Geração de avatares digitais para campanhas de marketing
  • Animações para jogos e produção de mídia
  • Potencial integração com TikTok para vídeos gerados por IA

9. Eficiência de Custos

  • Redução de até 99% nos custos de produção publicitária
  • Elimina necessidade de influenciadores e atores
  • Geração rápida de vídeos promocionais de alta qualidade e realismo

.O Goku AI é um modelo de inteligência artificial desenvolvido pela ByteDance, projetado para gerar vídeos realistas de pessoas interagindo com produtos sem a necessidade de atores. Utilizando uma arquitetura avançada baseada em transformadores com até 8 bilhões de parâmetros, ele cria imagens e vídeos a partir de descrições textuais com alta fidelidade visual. O modelo foi treinado em um extenso conjunto de 160 milhões de pares imagem-texto e 36 milhões de pares vídeo-texto, garantindo qualidade e coerência. Diferente de modelos tradicionais baseados em difusão, o Goku AI emprega o Rectified Flow, que melhora a consistência e reduz ruídos visuais. Suas principais aplicações incluem publicidade digital, criação de avatares e produção de mídia interativa, permitindo a geração de vídeos promocionais realistas com custos reduzidos em até 99%. Atualmente, suas limitações incluem duração máxima de 4 segundos em 720p a 24 FPS, mas futuras atualizações prometem maior resolução e vídeos mais longos.

1

Recursos

↑ voltar ao topo · ver no Telegram ↗