Os modelos de linguagem em larga escala, sistemas de processamento de linguagem natural (NLP) com mais de 100 bilhões de parâmetros, têm transformado a pesquisa em NLP e IA nos últimos anos. Treinados em um volume massivo e variado de texto, eles mostram novas capacidades surpreendentes para gerar texto criativo, resolver problemas matemáticos básicos, responder a perguntas de compreensão de leitura e muito mais. Embora em alguns casos o público possa interagir com esses modelos por meio de APIs pagas, o acesso total à pesquisa ainda é limitado a apenas alguns laboratórios altamente equipados. Este acesso restrito limitou a capacidade dos pesquisadores de entender como e por que esses grandes modelos de linguagem funcionam, prejudicando o progresso nos esforços para melhorar sua robustez e mitigar problemas conhecidos, como viés e toxicidade.
Em linha com o compromisso da Meta AI com a ciência aberta, a empresa esta compartilhando o Open Pretrained Transformer (OPT-175B), um modelo de linguagem com 175 bilhões de parâmetros treinados em conjuntos de dados publicamente disponíveis, para permitir um maior envolvimento da comunidade na compreensão desta nova tecnologia fundamental. Pela primeira vez para um sistema de tecnologia de linguagem deste tamanho, o lançamento inclui tanto os modelos pré-treinados quanto o código necessário para treiná-los e usá-los. Para manter a integridade e prevenir o uso indevido, a META esta lançando o modelo sob uma licença não comercial para focar em casos de uso de pesquisa. O acesso ao modelo será concedido a pesquisadores acadêmicos; aqueles afiliados a organizações governamentais, sociedade civil e academia; juntamente com laboratórios de pesquisa da indústria ao redor do mundo.
A Meta acredita que toda a comunidade de IA – pesquisadores acadêmicos, sociedade civil, formuladores de políticas e indústria – deve trabalhar juntos para desenvolver diretrizes claras em torno da IA responsável em geral e dos grandes modelos de linguagem responsáveis em particular, dado seu papel central em muitas aplicações de linguagem downstream. Um segmento muito mais amplo da comunidade de IA precisa ter acesso a esses modelos para conduzir pesquisas reprodutíveis e impulsionar coletivamente o campo. Com o lançamento do OPT-175B e das linhas de base de menor escala, a META espera aumentar a diversidade de vozes definindo as considerações éticas de tais tecnologias.
A Empresa desenvolveu o OPT-175B com a eficiência energética em mente, treinando com sucesso um modelo deste tamanho usando apenas 1/7 da pegada de carbono do GPT-3. Isso foi alcançado combinando a API Fully Sharded Data Parallel (FSDP) de código aberto da Meta e a abstração de tensor paralelo da NVIDIA dentro do Megatron-LM. A Empresa conseguiu uma utilização de ~147 TFLOP/s/GPU nos GPUs A100 de 80 GB da NVIDIA, cerca de 17% maior do que o publicado pelos pesquisadores da NVIDIA em hardware similar.
Para a pesquisa em IA avançar, a comunidade científica mais ampla deve ser capaz de trabalhar em conjunto com modelos de ponta para explorar efetivamente seu potencial, ao mesmo tempo que procura suas vulnerabilidades. Como em iniciativas anteriores de ciência aberta, como o Desafio de Similaridade de Imagem, o Desafio de Detecção de Deepfake e o Desafio de Memes Odiosos, a Meta AI acredita que a colaboração entre organizações de pesquisa é fundamental para o desenvolvimento responsável de tecnologias de IA.
Embora existam muitos desenvolvimentos emocionantes no espaço dos grandes modelos de linguagem, as limitações e riscos que esses modelos apresentam ainda não são bem compreendidos. Sem acesso direto a esses modelos, os pesquisadores também são limitados em sua capacidade de projetar estratégias de detecção e mitigação para possíveis danos, o que deixa a detecção e mitigação nas mãos de apenas aqueles com capital suficiente para acessar modelos desta escala. A Meta espera que o OPT-175B traga mais vozes para a fronteira da criação de modelos de linguagem em larga escala, ajude a comunidade a projetar coletivamente estratégias de lançamento responsáveis e adicione um nível sem precedentes de transparência e abertura ao desenvolvimento de grandes modelos de linguagem no campo.
O trabalho em pré-treinamento em larga escala está sendo realizado por uma equipe multidisciplinar que inclui Stephen Roller, Naman Goyal, Anjali Sridhar, Punit Singh Koura, Moya Chen, Kurt Shuster, Mikel Artetxe, Daniel Simig e Tianlu Wang. Os assessores para a conduta responsável em IA também incluem Adina Williams, Eric Smith, Emily Dinan, Y-Lan Boureau, Melanie Kambadur e Joelle Pineau.
Impactos Tecnológicos e Relevância Futura
O anúncio do OPT-175B representa um marco significativo na democratização do acesso a modelos de linguagem em larga escala. Ao disponibilizar um modelo de linguagem com 175 bilhões de parâmetros para a comunidade de pesquisa de IA, a Meta AI está permitindo um maior envolvimento e compreensão desta tecnologia fundamental. Isso tem o potencial de acelerar a pesquisa em IA, permitindo que um segmento mais amplo da comunidade de IA conduza pesquisas reprodutíveis e impulsione coletivamente o campo.
Além disso, o lançamento do OPT-175B também destaca a importância da IA responsável. Ao disponibilizar o modelo sob uma licença não comercial e focar em casos de uso de pesquisa, a Meta AI está promovendo o uso responsável da IA. Isso é particularmente relevante no contexto atual, onde questões de viés e toxicidade em modelos de IA estão recebendo cada vez mais atenção.
O desenvolvimento do OPT-175B com eficiência energética em mente também é um passo importante. Com a crescente preocupação sobre o impacto ambiental da computação intensiva em IA, a capacidade de treinar um modelo de linguagem em larga escala com uma fração da pegada de carbono de modelos comparáveis é um avanço significativo.
O anúncio do OPT-175B tem implicações significativas para o futuro da tecnologia. Ao democratizar o acesso a modelos de linguagem em larga escala, a Meta AI está permitindo que um segmento mais amplo da comunidade de IA conduza pesquisas reprodutíveis e impulsione coletivamente o campo. Isso tem o potencial de acelerar a pesquisa em IA, permitindo que um segmento mais amplo da comunidade de IA conduza pesquisas reprodutíveis e impulsione coletivamente o campo.
Comments are closed