Meta AI的突破性工作引入了一种自我改进的语言模型,该模型开创性地生成和使用自己的训练数据。这种自主方法使模型能够通过迭代提升自己的能力,在AlpacaEval 2.0排名中超过了著名的同类产品,如Claude 2、Gemini Pro和GPT-4 0613。
下面是它的工作原理:
-
**初始化:**它从一个熟练的预训练语言模型和一组人工标注的训练数据开始。
-
**自我指导创建:**模型自主从种子数据中创建新的提示,然后制定一系列可能的答案。
-
**自我评估:**模型根据相关性和事实准确性等标准对每个回答进行审核和打分。
-
**训练数据生成:**选择最佳和次优的答案创建一个多样化的训练集,教会模型区分高质量和低质量的回答。
-
**迭代训练:**使用新的训练集,模型进行自我训练,不断迭代该循环以逐步提升自身能力。
通过利用这种创新方法,该模型依靠自我生成的见解,最大限度地减少对外部资源的依赖,并改善自我评估能力。每次迭代都提高了其熟练程度,揭示了向更自主的AI语言系统迈进的路径。
在研究论文此处中了解完整的方法论。