Meta AIの画期的な研究では、自己改善型の言語モデルを導入し、独自のトレーニングデータの生成と使用を先導しています。この自律的な方法により、Claude 2、Gemini Pro、GPT-4 0613などの有名な競合モデルを凌ぐ能力をAlpacaEval 2.0ランキングでも達成しています。

以下は、その動作方法です:

  • 初期化: まず、熟練したプリトレーニング済みの言語モデルと、人間によってラベル付けされたトレーニングデータのシードを用意します。

  • 自己説明作成: モデルはシードデータから自動的に新しいプロンプトを作成し、幅広い可能な回答を構築します。

  • 自己評価: モデルは回答を精査し、関連性や事実の正確さなどの基準に基づいてスコアリングします。

  • トレーニングデータ生成: 最適な回答と劣る回答が選ばれ、高品質な回答と低品質な回答の区別をモデルに教える多様なトレーニングセットが作成されます。

  • 反復トレーニング: 新しいトレーニングセットを使用してモデルは自己再トレーニングを行い、このサイクルを繰り返すことで徐々に能力を向上させます。

この革新的なアプローチを活用することで、モデルは自己生成された洞察に基づき、外部リソースへの依存を最小限に抑え、自己評価能力を向上させます。各反復では能力が磨かれ、より自律的なAI言語システムへの道筋を示しています。

研究論文の詳細な方法については、こちらをご覧ください。

Official Website

メタAIの自己学習言語モデルは自らのトレーニングデータを生成しています。 (Meta AI no jiko-gakushū gengo moderu wa mizukara no torēningu dēta o seisei shiteimasu.)

Official Website