Apresentação do Omnilingual ASR da Meta FAIR, sistema open-source de…
INEMA
🧠 Visão Geral⌗
A equipe FAIR da Meta lançou o Omnilingual ASR, um sistema de reconhecimento de fala de código aberto que suporta mais de 1.600 idiomas, incluindo 500+ idiomas nunca antes compatíveis com qualquer outro sistema ASR. Ele oferece 16 vezes mais cobertura linguística que o Whisper da OpenAI, com taxas de erro menores em benchmarks compartilhados.
🗣️ Adição de Idiomas em Zero-Shot⌗
- Permite adicionar novos idiomas durante a inferência com apenas 5 a 10 exemplos de áudio.
- Não requer re-treinamento, ajuste fino ou conhecimento em IA.
- O decodificador LLM-ASR usa aprendizado em contexto para se adaptar dinamicamente, ampliando o suporte para mais de 5.400 idiomas adicionais.
- Isso possibilita a preservação de idiomas orais e ameaçados, ajudando comunidades locais a registrar suas tradições sem depender de grandes empresas de tecnologia.
⚡ Arquitetura em Escala⌗
- Baseado em um codificador do tipo wav2vec 2.0 com 7 bilhões de parâmetros, treinado em 4,3 milhões de horas de áudio não rotulado cobrindo milhares de idiomas.
-
Inclui duas famílias de decodificadores:
-
CTC leves → voltados para transcrição móvel em tempo real.
- LLM-ASR com Transformers → otimizados para maior precisão em idiomas com poucos recursos.
📊 Desempenho de Última Geração⌗
- O modelo principal (7B) obtém taxa de erro de caracteres (CER) inferior a 10% em 78% dos idiomas suportados.
- Para idiomas com muitos dados (como inglês e espanhol): menos de 5% CER.
- Para adições zero-shot (novos idiomas com poucos exemplos): 10–20% CER.
- A Meta afirma reduzir pela metade os erros do Whisper em benchmarks FLEURS.
🌍 Impacto no Mundo Real⌗
- Facilita assistentes de voz, tradução em tempo real, legendagem automática e ferramentas educacionais para comunidades que falam idiomas indígenas como Quéchua, Yoruba e Khmer.
- Profissionais de saúde poderão transcrever consultas em dialetos locais.
💻 Código Aberto e Licenciamento⌗
- Instalação simples:
pip install omnilingual-asr
* Construído sobre PyTorch e fairseq2.
* Licenciamento:
- Apache 2.0 (para modelos e código)
- CC-BY-4.0 (para conjuntos de dados)
🌐 Visão de Futuro⌗
O lançamento marca um passo em direção à “omniligualidade” — uma IA capaz de compreender e suportar todos os idiomas humanos, ajudando a preservar o patrimônio cultural e linguístico de comunidades historicamente excluídas da tecnologia.
Omnilingual ASR - Meta
1