O trabalho inovador da Meta AI apresenta um modelo de linguagem autônomo que se aprimora constantemente, pioneiro na geração e uso de seus próprios dados de treinamento. Esse método autônomo permite que o modelo melhore suas habilidades de forma iterativa, superando notáveis concorrentes como Claude 2, Gemini Pro e GPT-4 0613 nas classificações do AlpacaEval 2.0.
Veja como ele opera:
-
Inicialização: Começa com um modelo de linguagem pré-treinado e habilidoso, e um conjunto de dados de treinamento rotulados por humanos.
-
Criação de Autoinstrução: O modelo autonomamente cria novos estímulos a partir dos dados iniciais e formula uma variedade de respostas possíveis.
-
Autoavaliação: Cada resposta é cuidadosamente avaliada e pontuada pelo modelo, com base em critérios como relevância e precisão factual.
-
Geração de Dados de Treinamento: Respostas ótimas e inadequadas são selecionadas para criar um conjunto de treinamento diversificado, que ensina o modelo a distinguir entre respostas de alta e baixa qualidade.
-
Treinamento Iterativo: Com o novo conjunto de treinamento, o modelo se re-treina, repetindo esse ciclo continuamente para aprimorar-se cada vez mais.
Aproveitando essa abordagem inovadora, o modelo se beneficia de insights gerados por si mesmo, minimizando a dependência de recursos externos e aprimorando suas capacidades de autoavaliação. Cada iteração aprimora sua competência, revelando um caminho em direção a sistemas de linguagem de IA mais autônomos.
Descubra a metodologia completa no artigo de pesquisa aqui.