Discussão sobre o **Goku AI** da ByteDance, modelo de geração de…
INEMA
aqui estava gratuito e nao esta mais
oficialmente nao esta liberado.
nao sei se este site é confiavel
github.com/Saiyan-World/goku ↗
.Aqui estão os dados técnicos do Goku AI da ByteDance, conforme o artigo:
1. Base de Dados de Treinamento⌗
- 160 milhões de pares de imagem-texto
- 36 milhões de pares de vídeo-texto
- Fontes: repositórios acadêmicos, conteúdos da internet e organizações parceiras
- Filtragem rigorosa para garantir qualidade e relevância do conteúdo gerado
2. Arquitetura do Modelo⌗
- Transformador com 2 a 8 bilhões de parâmetros
- Suporte para geração de imagens e vídeos a partir de texto
- Utiliza Rectified Flow em vez de técnicas tradicionais de difusão
- Maior consistência visual e menos artefatos visuais
- Elimina ruído excessivo nas iterações de geração
3. Compressão e Processamento de Dados⌗
- Baseado em Variational Autoencoder (VAE)
- Conversão de imagens e vídeos para um espaço latente unificado
- Menor carga computacional sem perda significativa de qualidade
- Uso de transformadores customizados para otimizar saídas de alta resolução
4. Fases de Treinamento⌗
- Fase 1: Associação de descrições textuais com imagens
- Fase 2: Expansão para dados de imagem e vídeo para treinar coerência temporal
- Fase 3: Otimização para geração de imagens e vídeos de alta qualidade
5. Infraestrutura de Treinamento⌗
- Arquitetura escalável e otimizada para processamento paralelo
- Clusters de computação em larga escala
- Salvamento incremental de progresso para evitar perda de dados
- Treinamento estável e eficiente, reduzindo downtime
6. Desempenho e Benchmarks⌗
- Goku-T2V (Text-to-Video) alcançou 84.85 no VBench
- Supera Kling e Pika em testes de qualidade de vídeo
- Melhorias significativas em relação ao modelo anterior da ByteDance (Jimeng)
- Maior resolução, melhor consistência de quadros e reprodução de detalhes mais refinada
7. Restrições Técnicas Atuais⌗
- Duração máxima dos vídeos: 4 segundos
- Taxa de quadros: 24 FPS
- Resolução máxima: 720p
- Foco na otimização futura para vídeos mais longos e em 4K
8. Aplicações Práticas⌗
- Criação de publicidade digital: Vídeos realistas de produtos sem necessidade de atores
- Geração de avatares digitais para campanhas de marketing
- Animações para jogos e produção de mídia
- Potencial integração com TikTok para vídeos gerados por IA
9. Eficiência de Custos⌗
- Redução de até 99% nos custos de produção publicitária
- Elimina necessidade de influenciadores e atores
- Geração rápida de vídeos promocionais de alta qualidade e realismo
.O Goku AI é um modelo de inteligência artificial desenvolvido pela ByteDance, projetado para gerar vídeos realistas de pessoas interagindo com produtos sem a necessidade de atores. Utilizando uma arquitetura avançada baseada em transformadores com até 8 bilhões de parâmetros, ele cria imagens e vídeos a partir de descrições textuais com alta fidelidade visual. O modelo foi treinado em um extenso conjunto de 160 milhões de pares imagem-texto e 36 milhões de pares vídeo-texto, garantindo qualidade e coerência. Diferente de modelos tradicionais baseados em difusão, o Goku AI emprega o Rectified Flow, que melhora a consistência e reduz ruídos visuais. Suas principais aplicações incluem publicidade digital, criação de avatares e produção de mídia interativa, permitindo a geração de vídeos promocionais realistas com custos reduzidos em até 99%. Atualmente, suas limitações incluem duração máxima de 4 segundos em 720p a 24 FPS, mas futuras atualizações prometem maior resolução e vídeos mais longos.
1