Il lavoro innovativo di Meta AI introduce un modello di linguaggio autocorrettivo che è all’avanguardia nella generazione e utilizzo dei propri dati di addestramento. Questo metodo autonomo permette al modello di migliorare progressivamente le sue capacità, superando illustri concorrenti come Claude 2, Gemini Pro e GPT-4 0613 nelle classifiche di AlpacaEval 2.0.
Ecco come funziona:
-
Inizializzazione: Inizia con un modello di linguaggio pre-addestrato ottimamente competente e un insieme di dati di addestramento etichettati da esseri umani.
-
Creazione Autoistruzione: Il modello crea autonomamente nuovi stimoli dai dati iniziali, formulando una serie di possibili risposte.
-
Autovalutazione: Ogni risposta viene scrutinata e valutata dal modello, basandosi su criteri come la pertinenza e l’accuratezza dei fatti.
-
Generazione dei Dati di Addestramento: Le risposte ottimali e quelle meno valide vengono selezionate per creare un insieme di addestramento diversificato, che insegna al modello a distinguere tra risposte di alta e bassa qualità.
-
Addestramento Iterativo: Con il nuovo insieme di addestramento, il modello si addestra nuovamente, iterando continuamente questo ciclo per migliorarsi progressivamente.
Sfruttando questo approccio innovativo, il modello si basa sulle sue intuizioni autogenerate, riducendo la dipendenza dalle risorse esterne e affinando le sue capacità di autovalutazione. Ogni iterazione affina la sua competenza, rivelando una strada verso sistemi di linguaggio basati sull’IA sempre più autonomi.
Scopri la metodologia completa nel paper di ricerca qui.