El trabajo innovador de Meta AI presenta un modelo de lenguaje de mejora propia que lidera la generación y el uso de sus propios datos de entrenamiento. Este método autónomo permite al modelo mejorar sus capacidades de manera iterativa, superando destacados competidores como Claude 2, Gemini Pro y GPT-4 0613 en las clasificaciones de AlpacaEval 2.0.
Así es como funciona:
-
Inicialización: Comienza con un modelo de lenguaje pre-entrenado hábil y un conjunto inicial de datos de entrenamiento etiquetados por humanos.
-
Creación de Auto-Instrucciones: El modelo crea de forma autónoma nuevas consignas a partir de los datos iniciales, luego formula una serie de posibles respuestas.
-
Auto-Evaluación: Cada respuesta es examinada y evaluada por el modelo, basándose en criterios como la relevancia y la precisión factual.
-
Generación de Datos de Entrenamiento: Selecciona las respuestas óptimas y las de calidad inferior para crear un conjunto de entrenamiento diverso, que enseña al modelo a distinguir entre respuestas de alta y baja calidad.
-
Entrenamiento Iterativo: Con el nuevo conjunto de entrenamiento, el modelo se re-entrena, iterando continuamente este ciclo para mejorar su capacidad por sí mismo.
Aprovechando este enfoque innovador, el modelo prospera con sus conocimientos generados internamente, reduciendo la dependencia de recursos externos y afinando sus capacidades de autoevaluación. Cada iteración mejora su habilidad, revelando un camino hacia sistemas de lenguaje de IA más autónomos.
Descubre la metodología completa en el artículo de investigación aquí.