cerebro-vip INEMA.CLUB
inícioINEMA.VOZ

Apresentação do Omnilingual ASR da Meta FAIR, sistema open-source de…

INEMA.VOZ · 2025-11-11 · ~2 min · ver no Telegram ↗

INEMA

🧠 Visão Geral

A equipe FAIR da Meta lançou o Omnilingual ASR, um sistema de reconhecimento de fala de código aberto que suporta mais de 1.600 idiomas, incluindo 500+ idiomas nunca antes compatíveis com qualquer outro sistema ASR. Ele oferece 16 vezes mais cobertura linguística que o Whisper da OpenAI, com taxas de erro menores em benchmarks compartilhados.


🗣️ Adição de Idiomas em Zero-Shot

  • Permite adicionar novos idiomas durante a inferência com apenas 5 a 10 exemplos de áudio.
  • Não requer re-treinamento, ajuste fino ou conhecimento em IA.
  • O decodificador LLM-ASR usa aprendizado em contexto para se adaptar dinamicamente, ampliando o suporte para mais de 5.400 idiomas adicionais.
  • Isso possibilita a preservação de idiomas orais e ameaçados, ajudando comunidades locais a registrar suas tradições sem depender de grandes empresas de tecnologia.

⚡ Arquitetura em Escala

  • Baseado em um codificador do tipo wav2vec 2.0 com 7 bilhões de parâmetros, treinado em 4,3 milhões de horas de áudio não rotulado cobrindo milhares de idiomas.
  • Inclui duas famílias de decodificadores:

  • CTC leves → voltados para transcrição móvel em tempo real.

  • LLM-ASR com Transformers → otimizados para maior precisão em idiomas com poucos recursos.

📊 Desempenho de Última Geração

  • O modelo principal (7B) obtém taxa de erro de caracteres (CER) inferior a 10% em 78% dos idiomas suportados.
  • Para idiomas com muitos dados (como inglês e espanhol): menos de 5% CER.
  • Para adições zero-shot (novos idiomas com poucos exemplos): 10–20% CER.
  • A Meta afirma reduzir pela metade os erros do Whisper em benchmarks FLEURS.

🌍 Impacto no Mundo Real

  • Facilita assistentes de voz, tradução em tempo real, legendagem automática e ferramentas educacionais para comunidades que falam idiomas indígenas como Quéchua, Yoruba e Khmer.
  • Profissionais de saúde poderão transcrever consultas em dialetos locais.

💻 Código Aberto e Licenciamento

  • Instalação simples:

pip install omnilingual-asr * Construído sobre PyTorch e fairseq2. * Licenciamento:

  • Apache 2.0 (para modelos e código)
  • CC-BY-4.0 (para conjuntos de dados)

🌐 Visão de Futuro

O lançamento marca um passo em direção à “omniligualidade” — uma IA capaz de compreender e suportar todos os idiomas humanos, ajudando a preservar o patrimônio cultural e linguístico de comunidades historicamente excluídas da tecnologia.


Omnilingual ASR - Meta

1

↑ voltar ao topo · ver no Telegram ↗