Meta AIの画期的な研究では、自己改善型の言語モデルを導入し、独自のトレーニングデータの生成と使用を先導しています。この自律的な方法により、Claude 2、Gemini Pro、GPT-4 0613などの有名な競合モデルを凌ぐ能力をAlpacaEval 2.0ランキングでも達成しています。
以下は、その動作方法です:
-
初期化: まず、熟練したプリトレーニング済みの言語モデルと、人間によってラベル付けされたトレーニングデータのシードを用意します。
-
自己説明作成: モデルはシードデータから自動的に新しいプロンプトを作成し、幅広い可能な回答を構築します。
-
自己評価: モデルは回答を精査し、関連性や事実の正確さなどの基準に基づいてスコアリングします。
-
トレーニングデータ生成: 最適な回答と劣る回答が選ばれ、高品質な回答と低品質な回答の区別をモデルに教える多様なトレーニングセットが作成されます。
-
反復トレーニング: 新しいトレーニングセットを使用してモデルは自己再トレーニングを行い、このサイクルを繰り返すことで徐々に能力を向上させます。
この革新的なアプローチを活用することで、モデルは自己生成された洞察に基づき、外部リソースへの依存を最小限に抑え、自己評価能力を向上させます。各反復では能力が磨かれ、より自律的なAI言語システムへの道筋を示しています。
研究論文の詳細な方法については、こちらをご覧ください。