Le travail révolutionnaire de Meta AI présente un modèle linguistique auto-améliorant, qui innove dans la génération et l’utilisation de ses propres données d’entraînement. Cette méthode autonome permet au modèle d’améliorer ses compétences de manière itérative, surpassant des homologues notables tels que Claude 2, Gemini Pro et GPT-4 0613 dans les classements AlpacaEval 2.0.
Voici comment il fonctionne :
-
Initialisation : Il commence avec un modèle linguistique pré-entraîné et un ensemble de données d’entraînement étiquetées par des humains.
-
Création d’instructions auto-générées : Le modèle crée de manière autonome de nouvelles consignes à partir des données sources, puis formule une gamme de réponses possibles.
-
Auto-évaluation : Chaque réponse est examinée et évaluée par le modèle, en se basant sur des critères tels que la pertinence et l’exactitude factuelle.
-
Génération de données d’entraînement : Les réponses optimales et médiocres sont sélectionnées pour créer un ensemble d’entraînement varié, ce qui permet d’apprendre au modèle à distinguer les réponses de haute et de basse qualité.
-
Entraînement itératif : Avec le nouvel ensemble d’entraînement, le modèle se ré-entraîne, en répétant continuellement ce cycle pour une amélioration progressive de lui-même.
En exploitant cette approche innovante, le modèle progresse grâce à ses propres connaissances générées, réduisant ainsi sa dépendance aux ressources externes et améliorant ses capacités d’auto-évaluation. Chaque itération améliore sa compétence, dévoilant ainsi une voie vers des systèmes de langage IA plus autonomes.
Découvrez l’intégralité de la méthodologie dans le document de recherche disponible ici.