Como um modelo grande é refinado
Atualizado em: 20-0-0 0:0:0

Todo mundo entra em contato com muitos modelos grandes e ferramentas de IA diariamente, você já pensou em como eles fazem isso? Conhecer o princípio é muito útil para trabalharmos com modelos grandes e métodos de ajuste.

Em grandes modelos de linguagem (LLMs), o aprendizado não supervisionado, o aprendizado supervisionado e o aprendizado por reforço são os três componentes do aprendizado de máquina e também são os três estágios básicos do treinamento de um grande modelo. Cada um deles desempenha um papel diferente e é aplicado a diferentes fases e tarefas de treinamento.

Etapa 1: Fase de aprendizado não supervisionado

O aprendizado não supervisionado é o estágio de pré-treinamento do modelo, o que significa simplesmente alimentar o modelo com uma grande quantidade de texto e pré-treinar o aprendizado não supervisionado, para que obtenhamos uma base que possa gerar texto.

在预训练中,需要大量的文本作为原料,让模型从中学习,比如gpt-3这个基座模型的训练数据,就有非常多的互联网文本语料库,包含有新闻、图书和文献、科学论文、特定领域的数据集、社交媒体和论坛等等。训练数据的整体规模有三千亿的Token(具体什么是token我们将在下一个帖子中详细解释。先简单来理解的话就是基本文本单位)。

No final do pré-treinamento, obtemos um modelo de pedestal, e esse modelo de pedestal não é muito bom em diálogo, você faz uma pergunta a ele, e ele pode imitar o acima e ajudá-lo a continuar gerando mais perguntas, mas não responde à sua pergunta. É aí que passamos para a segunda etapa, o aprendizado supervisionado

Etapa 2: Fase de aprendizado supervisionado

Uma vez que tenhamos uma grande quantidade de texto de treinamento, precisamos adotar uma abordagem de "aprendizado supervisionado", que é supervisionar e ajustar o modelo base com alguns dados de diálogo de alta qualidade escritos por humanos.

Nesta fase, precisamos mostrar mais dados de diálogo para o modelo base, incluindo dados de diálogo de rodada única e dados de diálogo de várias rodadas, etc., para treinar um assistente de IA que seja bom em diálogo.

O custo do ajuste fino é muito menor do que o do pré-treinamento, pois a escala dos dados de treinamento necessários é relativamente pequena e o tempo de treinamento é menor, nesta etapa, o modelo não precisa aprender com uma grande quantidade de texto, mas com alguns diálogos profissionais e de alta qualidade escritos por humanos (nesta fase, uma profissão chamada instrutor de IA ou anotador de dados, sobre o qual falaremos lentamente no post mais tarde), o que equivale a dar ao modelo perguntas e respostas que nós, humanos, gostamos, que pertence ao aprendizado supervisionado.

Esse processo é chamado:监督微调(Supervised Fine-Tuning)简称:SFT。

Quando terminar, você obterá um modelo SFT.

Etapa 3: Fase de aprendizado por reforço

Na fase de aprendizado por reforço, o modelo é otimizado ainda mais para melhorar seu desempenho em aplicativos do mundo real, para que o modelo possa aprender de forma autônoma.

Esta etapa consiste nas duas etapas a seguir:

um.人类反馈强化学习(Aprendizado por reforço com feedback humano, RLHF)

Esta seção contém: avaliações humanas,奖励模型(Modelo de Recompensa), otimização de políticas

b.Feedback e ajustes

Por meio de várias iterações de feedback e ajustes, o modelo aprende gradualmente a gerar respostas de maior qualidade. Esse processo normalmente envolve geração, avaliação, ajuste e otimização iterativos.

Estes são relativamente fáceis de entender, mas o que vou focar é o seguinte奖励模型(Modelo de Recompensa)

Para fazer com que um modelo atue obedientemente como um assistente de IA útil, podemos fazer com que o modelo responda à pergunta e, em seguida, deixar o avaliador humano pontuar a resposta, e os critérios de pontuação são baseados principalmente em:Princípio 3H (utilidade, autenticidade, inocuidade)

  • Útil: A saída do modelo deve ser realmente útil para o usuário, capaz de resolver o problema do usuário ou atender às necessidades do usuário.
  • Autenticidade honesta: a saída do modelo deve ser verdadeira e confiável e não deve fabricar fatos ou enganar os usuários.
  • inofensivo: determine se a saída do modelo é apropriada e se contém informações tendenciosas e prejudiciais

Se a pontuação for alta, o modelo pode aprender e fazer esforços persistentes e, se a pontuação for baixa, o modelo aprende a melhorar.

Mas confiar em humanos para pontuar as respostas uma a uma é extremamente caro e ineficiente. Então, vamos treinar outro modelo e deixar que o modelo pontue o modelo. Nesta etapa, você precisa treinar um modelo de recompensa. Ele aprende com as respostas e as classificações que correspondem a elas.

A maneira como o modelo obtém os dados de pontuação é que usamos modelos diferentes para construir respostas diferentes para a mesma pergunta e, em seguida, fazemos com que um anotador humano compare e classifique a qualidade das respostas e, em alguns casos, as respostas são complementadas com notas máximas por humanos. Deixe o modelo saber qual é a melhor resposta.

Embora ainda seja inevitável contar com o trabalho humano. Mas depois de ter dados classificados suficientes, você pode usá-los para treinar o modelo de recompensa. Deixe o modelo de recompensa aprender a prever a pontuação da resposta.

Depois que o modelo de recompensa é treinado, ele pode ser usado no aprendizado por reforço, no aprendizado por reforço, os parâmetros iniciais do modelo grande vêm do modelo SFT obtido anteriormente, mas serão atualizados com o treinamento, os parâmetros do modelo de recompensa não serão atualizados, sua tarefa é pontuar o conteúdo gerado pelo modelo, após rodadas de iterações, o modelo continuará a otimizar a estratégia e a qualidade da resposta será melhorada ainda mais.

No final, um modelo tão grande foi refinado por meio do aprendizado contínuo. 🎉

Este artigo foi publicado originalmente por @Belin_belin em Todos são gerentes de produto. É proibida a reprodução sem a permissão do autor

A imagem do título é do Unsplash e está licenciada sob CC0

As visualizações neste artigo representam apenas as do autor, todos são gerentes de produto e a plataforma fornece apenas serviços de espaço de armazenamento de informações