AlpacaEval 2.0

Meta AIの画期的な研究では、自己改善型の言語モデルを導入し、独自のトレーニングデータの生成と使用を先導しています。この自律的な方法により、Claude 2、Gemini Pro、GPT-4 0613などの有名な競合モデルを凌ぐ能力をAlpacaEval 2.0ランキングでも達成しています。 以下は、その動作方法です: 初期化: まず、熟練したプリトレーニング済みの言語モデルと、人間によってラベル付けされたトレーニングデータのシードを用意します。 自己説明作成: モデルはシードデータから自動的に新しいプロンプトを作成し、幅広い可能な回答を構築します。 自己評価: モデルは回答を精査し、関連性や事実の正確さなどの基準に基づいてスコアリングします。 トレーニングデータ生成: 最適な回答と劣る回答が選ばれ、高品質な回答と低品質な回答の区別をモデルに教える多様なトレーニングセットが作成されます。 反復トレーニング: 新しいトレーニングセットを使用してモデルは自己再トレーニングを行い、このサイクルを繰り返すことで徐々に能力を向上させます。 この革新的なアプローチを活用することで、モデルは自己生成された洞察に基づき、外部リソースへの依存を最小限に抑え、自己評価能力を向上させます。各反復では能力が磨かれ、より自律的なAI言語システムへの道筋を示しています。 研究論文の詳細な方法については、こちらをご覧ください。 Official Website Official Website

<span title='2024-01-20 04:19:03 +0000 UTC'>1月 20, 2024</span>&nbsp;·&nbsp;1 分&nbsp;·&nbsp;mychatgpt.net