banner
Centro de notícias
Matéria-prima de boa qualidade, rigoroso controle de qualidade

Pesquisadores de Stanford e Google propõem DoReMi: um algoritmo de IA que repondera domínios de dados para modelos de linguagem de treinamento

Sep 02, 2023

Os conjuntos de dados geralmente são extraídos de vários domínios durante o treinamento de modelos de linguagem (LMs). Por exemplo, um conjunto de dados considerável acessível ao público chamado The Pile tem 24% de dados online, 9% Wikipedia, 4% GitHub, etc. A composição dos dados pré-treinamento afeta significativamente o desempenho de um LM. Precisa ficar claro quanto de cada domínio deve ser incluído para criar um modelo que se destaque em uma variedade de tarefas posteriores. Os estudos existentes usam a intuição ou uma série de tarefas a jusante para estabelecer pesos de domínio ou probabilidades de amostragem para cada domínio. Por exemplo, The Pile emprega pesos de domínio selecionados heuristicamente, o que pode não ser a melhor escolha.

Neste estudo, pesquisadores do Google e da Universidade de Stanford tentam identificar pesos de domínio que forneçam modelos com bom desempenho em todos os domínios, minimizando a perda de pior caso nos domínios, em vez de otimizar os pesos de domínio com base em uma coleção de tarefas downstream. Dado que cada domínio tem uma perda ótima única (também conhecida como entropia), uma estratégia ingênua de pior caso daria mais peso aos domínios com os dados mais ruidosos. No entanto, treinar possivelmente milhares de LMs em vários pesos de domínio e a possibilidade de sobreajuste para um conjunto específico de tarefas downstream está envolvido com LMs existentes como PaLM e GLaM, que ajustam os pesos de domínio com base em um conjunto de atividades downstream.

Isso serve como a força motriz por trás de sua técnica, Domain Reweighting with Minimax Optimization (DoReMi), que usa otimização distribucional robusta (DRO) para ajustar os pesos do domínio sem estar ciente das tarefas que serão executadas posteriormente (Figura 1). O DoReMi começa treinando convencionalmente um pequeno modelo de referência com parâmetros de 280M. Para reduzir a perda de excesso de pior caso (em comparação com a perda do modelo de referência), eles também introduzem um minúsculo modelo de linguagem resistente à distribuição (DRO-LM). Notavelmente, eles usam os pesos de domínio gerados pelo treinamento DRO em vez do LM robusto. Em vez de criar um modelo robusto, sua estratégia usa a estrutura DRO-LM para otimizar os pesos de domínio. Um LM grande (8B) é então treinado em um novo conjunto de dados especificado por esses pesos de domínio.

Em vez de subselecionar instâncias de um minilote, eles usam o otimizador baseado em aprendizado on-line do Group DRO, que altera dinamicamente os pesos de domínio de acordo com a perda em cada domínio para redimensionar a meta de treinamento. O DoReMi então usa os pesos de domínio calculados em média ao longo dos estágios de treinamento do DRO. Para otimizar os pesos de domínio no The Pile e no conjunto de dados GLaM, eles executam o DoReMi em proxy de 280M e modelos de referência. Um parâmetro 8B LM que é mais de 30 vezes maior é treinado usando os pesos de domínio DoReMi. Mesmo quando um domínio é reduzido, o DoReMi reduz a perplexidade no The Pile em todos os domínios em relação aos pesos de domínio de linha de base.

Em tarefas produtivas de poucos tiros, o DoReMi atinge a precisão da linha de base downstream 2,6 vezes mais rápido do que um modelo de linha de base treinado nos pesos de domínio padrão do The Pile, melhorando a precisão downstream média em 6,5%. Eles liberam os pesos de domínio ajustados para aprimorar futuros LMs aprendidos usando The Pile. Eles descobrem que o DoReMi aprimora consistentemente o treinamento LM quando os tamanhos do modelo principal treinado com pesos de domínio otimizados e o modelo proxy são alterados. DoReMi ainda supera o ajuste de peso de domínio no desempenho de tarefas downstream no conjunto de dados GLaM, onde é possível obter pesos de domínio ajustados em tarefas downstream.

Confira aPapel.Não se esqueça de participarnosso SubReddit de 22k+ ML,Canal do Discord, eNoticiário por e-mail , onde compartilhamos as últimas notícias de pesquisa de IA, projetos interessantes de IA e muito mais. Se você tiver alguma dúvida sobre o artigo acima ou se esquecemos de algo, sinta-se à vontade para nos enviar um e-mail para[email protected]

🚀 Confira as 100's AI Tools no AI Tools Club

Aneesh Tickoo é estagiária de consultoria na MarktechPost. Atualmente, ele está cursando graduação em Ciência de Dados e Inteligência Artificial no Instituto Indiano de Tecnologia (IIT), Bhilai. Ele passa a maior parte do tempo trabalhando em projetos que visam aproveitar o poder do aprendizado de máquina. Seu interesse de pesquisa é o processamento de imagens e é apaixonado por construir soluções em torno disso. Ele adora se conectar com as pessoas e colaborar em projetos interessantes.