{"id":116,"date":"2023-05-14T19:41:32","date_gmt":"2023-05-14T19:41:32","guid":{"rendered":"https:\/\/rodrigocremer.com.br\/index\/?p=116"},"modified":"2023-06-30T21:15:27","modified_gmt":"2023-06-30T21:15:27","slug":"meta-democratiza-o-acesso-a-modelos-de-linguagem-em-larga-escala-com-o-opt-175b","status":"publish","type":"post","link":"https:\/\/rodrigocremer.com.br\/index\/meta-democratiza-o-acesso-a-modelos-de-linguagem-em-larga-escala-com-o-opt-175b\/","title":{"rendered":"META democratiza o acesso a modelos de linguagem em larga escala com o OPT-175B"},"content":{"rendered":"<p>Os modelos de linguagem em larga escala, sistemas de processamento de linguagem natural (NLP) com mais de 100 bilh\u00f5es de par\u00e2metros, t\u00eam transformado a pesquisa em NLP e IA nos \u00faltimos anos. Treinados em um volume massivo e variado de texto, eles mostram novas capacidades surpreendentes para gerar texto criativo, resolver problemas matem\u00e1ticos b\u00e1sicos, responder a perguntas de compreens\u00e3o de leitura e muito mais. Embora em alguns casos o p\u00fablico possa interagir com esses modelos por meio de APIs pagas, o acesso total \u00e0 pesquisa ainda \u00e9 limitado a apenas alguns laborat\u00f3rios altamente equipados. Este acesso restrito limitou a capacidade dos pesquisadores de entender como e por que esses grandes modelos de linguagem funcionam, prejudicando o progresso nos esfor\u00e7os para melhorar sua robustez e mitigar problemas conhecidos, como vi\u00e9s e toxicidade.<\/p>\n<p>Em linha com o compromisso da Meta AI com a ci\u00eancia aberta, a empresa esta compartilhando o Open Pretrained Transformer (OPT-175B), um modelo de linguagem com 175 bilh\u00f5es de par\u00e2metros treinados em conjuntos de dados publicamente dispon\u00edveis, para permitir um maior envolvimento da comunidade na compreens\u00e3o desta nova tecnologia fundamental. Pela primeira vez para um sistema de tecnologia de linguagem deste tamanho, o lan\u00e7amento inclui tanto os modelos pr\u00e9-treinados quanto o c\u00f3digo necess\u00e1rio para trein\u00e1-los e us\u00e1-los. Para manter a integridade e prevenir o uso indevido, a META esta lan\u00e7ando o modelo sob uma licen\u00e7a n\u00e3o comercial para focar em casos de uso de pesquisa. O acesso ao modelo ser\u00e1 concedido a pesquisadores acad\u00eamicos; aqueles afiliados a organiza\u00e7\u00f5es governamentais, sociedade civil e academia; juntamente com laborat\u00f3rios de pesquisa da ind\u00fastria ao redor do mundo.<\/p>\n<p>A Meta acredita que toda a comunidade de IA &#8211; pesquisadores acad\u00eamicos, sociedade civil, formuladores de pol\u00edticas e ind\u00fastria &#8211; deve trabalhar juntos para desenvolver diretrizes claras em torno da IA respons\u00e1vel em geral e dos grandes modelos de linguagem respons\u00e1veis em particular, dado seu papel central em muitas aplica\u00e7\u00f5es de linguagem downstream. Um segmento muito mais amplo da comunidade de IA precisa ter acesso a esses modelos para conduzir pesquisas reprodut\u00edveis e impulsionar coletivamente o campo. Com o lan\u00e7amento do OPT-175B e das linhas de base de menor escala, a META espera aumentar a diversidade de vozes definindo as considera\u00e7\u00f5es \u00e9ticas de tais tecnologias.<\/p>\n<p>A Empresa desenvolveu o OPT-175B com a efici\u00eancia energ\u00e9tica em mente, treinando com sucesso um modelo deste tamanho usando apenas 1\/7 da pegada de carbono do GPT-3. Isso foi alcan\u00e7ado combinando a API Fully Sharded Data Parallel (FSDP) de c\u00f3digo aberto da Meta e a abstra\u00e7\u00e3o de tensor paralelo da NVIDIA dentro do Megatron-LM. A Empresa conseguiu uma utiliza\u00e7\u00e3o de ~147 TFLOP\/s\/GPU nos GPUs A100 de 80 GB da NVIDIA, cerca de 17% maior do que o publicado pelos pesquisadores da NVIDIA em hardware similar.<\/p>\n<p>Para a pesquisa em IA avan\u00e7ar, a comunidade cient\u00edfica mais ampla deve ser capaz de trabalhar em conjunto com modelos de ponta para explorar efetivamente seu potencial, ao mesmo tempo que procura suas vulnerabilidades. Como em iniciativas anteriores de ci\u00eancia aberta, como o Desafio de Similaridade de Imagem, o Desafio de Detec\u00e7\u00e3o de Deepfake e o Desafio de Memes Odiosos, a Meta AI acredita que a colabora\u00e7\u00e3o entre organiza\u00e7\u00f5es de pesquisa \u00e9 fundamental para o desenvolvimento respons\u00e1vel de tecnologias de IA.<\/p>\n<p>Embora existam muitos desenvolvimentos emocionantes no espa\u00e7o dos grandes modelos de linguagem, as limita\u00e7\u00f5es e riscos que esses modelos apresentam ainda n\u00e3o s\u00e3o bem compreendidos. Sem acesso direto a esses modelos, os pesquisadores tamb\u00e9m s\u00e3o limitados em sua capacidade de projetar estrat\u00e9gias de detec\u00e7\u00e3o e mitiga\u00e7\u00e3o para poss\u00edveis danos, o que deixa a detec\u00e7\u00e3o e mitiga\u00e7\u00e3o nas m\u00e3os de apenas aqueles com capital suficiente para acessar modelos desta escala. A Meta espera que o OPT-175B traga mais vozes para a fronteira da cria\u00e7\u00e3o de modelos de linguagem em larga escala, ajude a comunidade a projetar coletivamente estrat\u00e9gias de lan\u00e7amento respons\u00e1veis e adicione um n\u00edvel sem precedentes de transpar\u00eancia e abertura ao desenvolvimento de grandes modelos de linguagem no campo.<\/p>\n<p>O trabalho em pr\u00e9-treinamento em larga escala est\u00e1 sendo realizado por uma equipe multidisciplinar que inclui Stephen Roller, Naman Goyal, Anjali Sridhar, Punit Singh Koura, Moya Chen, Kurt Shuster, Mikel Artetxe, Daniel Simig e Tianlu Wang. Os assessores para a conduta respons\u00e1vel em IA tamb\u00e9m incluem Adina Williams, Eric Smith, Emily Dinan, Y-Lan Boureau, Melanie Kambadur e Joelle Pineau.<\/p>\n<p>Impactos Tecnol\u00f3gicos e Relev\u00e2ncia Futura<\/p>\n<p>O an\u00fancio do OPT-175B representa um marco significativo na democratiza\u00e7\u00e3o do acesso a modelos de linguagem em larga escala. Ao disponibilizar um modelo de linguagem com 175 bilh\u00f5es de par\u00e2metros para a comunidade de pesquisa de IA, a Meta AI est\u00e1 permitindo um maior envolvimento e compreens\u00e3o desta tecnologia fundamental. Isso tem o potencial de acelerar a pesquisa em IA, permitindo que um segmento mais amplo da comunidade de IA conduza pesquisas reprodut\u00edveis e impulsione coletivamente o campo.<\/p>\n<p>Al\u00e9m disso, o lan\u00e7amento do OPT-175B tamb\u00e9m destaca a import\u00e2ncia da IA respons\u00e1vel. Ao disponibilizar o modelo sob uma licen\u00e7a n\u00e3o comercial e focar em casos de uso de pesquisa, a Meta AI est\u00e1 promovendo o uso respons\u00e1vel da IA. Isso \u00e9 particularmente relevante no contexto atual, onde quest\u00f5es de vi\u00e9s e toxicidade em modelos de IA est\u00e3o recebendo cada vez mais aten\u00e7\u00e3o.<\/p>\n<p>O desenvolvimento do OPT-175B com efici\u00eancia energ\u00e9tica em mente tamb\u00e9m \u00e9 um passo importante. Com a crescente preocupa\u00e7\u00e3o sobre o impacto ambiental da computa\u00e7\u00e3o intensiva em IA, a capacidade de treinar um modelo de linguagem em larga escala com uma fra\u00e7\u00e3o da pegada de carbono de modelos compar\u00e1veis \u00e9 um avan\u00e7o significativo.<\/p>\n<p>O an\u00fancio do OPT-175B tem implica\u00e7\u00f5es significativas para o futuro da tecnologia. Ao democratizar o acesso a modelos de linguagem em larga escala, a Meta AI est\u00e1 permitindo que um segmento mais amplo da comunidade de IA conduza pesquisas reprodut\u00edveis e impulsione coletivamente o campo. Isso tem o potencial de acelerar a pesquisa em IA, permitindo que um segmento mais amplo da comunidade de IA conduza pesquisas reprodut\u00edveis e impulsione coletivamente o campo.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Os modelos de linguagem em larga escala, sistemas de processamento de linguagem natural (NLP) com mais de 100 bilh\u00f5es de par\u00e2metros, t\u00eam transformado a pesquisa em NLP e IA nos \u00faltimos anos. Treinados em um volume massivo e variado de texto, eles mostram novas capacidades surpreendentes para gerar texto criativo, resolver problemas matem\u00e1ticos b\u00e1sicos, responder&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-116","post","type-post","status-publish","format-standard","hentry","category-uncategorized","th-blog blog-single"],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/posts\/116","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/comments?post=116"}],"version-history":[{"count":6,"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/posts\/116\/revisions"}],"predecessor-version":[{"id":122,"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/posts\/116\/revisions\/122"}],"wp:attachment":[{"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/media?parent=116"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/categories?post=116"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/rodrigocremer.com.br\/index\/wp-json\/wp\/v2\/tags?post=116"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}