Die bahnbrechende Arbeit von Meta AI führt ein selbstverbesserndes Sprachmodell ein, das die Erzeugung und Verwendung eigener Trainingsdaten vorantreibt. Diese autonome Methode ermöglicht es dem Modell, seine Fähigkeiten iterativ zu verbessern und bemerkenswerte Konkurrenten wie Claude 2, Gemini Pro und GPT-4 0613 in den AlpacaEval 2.0-Rankings zu übertreffen.
So funktioniert es:
-
Initialisierung: Es beginnt mit einem kompetenten, vorab trainierten Sprachmodell und einem Samen menschenbeschrifteter Trainingsdaten.
-
Selbstinstruktionsbildung: Das Modell erstellt autonom neue Aufforderungen auf Basis der Samendaten und formuliert dann eine Reihe möglicher Antworten.
-
Selbstbewertung: Jede Antwort wird vom Modell anhand von Kriterien wie Relevanz und faktischer Genauigkeit untersucht und bewertet.
-
Generierung von Trainingsdaten: Optimale und weniger gute Antworten werden ausgewählt, um einen vielfältigen Trainingssatz zu erstellen, der das Modell lehrt, zwischen qualitativ hochwertigen und minderwertigen Antworten zu unterscheiden.
-
Iteratives Training: Mit dem neuen Trainingssatz trainiert sich das Modell selbst neu und wiederholt diesen Zyklus kontinuierlich zur fortschreitenden Selbstverbesserung.
Durch den Einsatz dieser innovativen Methode gedeiht das Modell auf seinen selbstgenerierten Erkenntnissen, minimiert die Abhängigkeit von externen Ressourcen und verfeinert seine Selbstbewertungsfähigkeiten. Jede Iteration schärft seine Fertigkeiten und zeigt den Weg zu autonomeren KI-Sprachsystemen auf.
Die vollständige Methodik finden Sie in der Forschungsarbeit hier.