Meta AI的突破性工作引入了一种自我改进的语言模型,该模型开创性地生成和使用自己的训练数据。这种自主方法使模型能够通过迭代提升自己的能力,在AlpacaEval 2.0排名中超过了著名的同类产品,如Claude 2、Gemini Pro和GPT-4 0613。

下面是它的工作原理:

  • **初始化:**它从一个熟练的预训练语言模型和一组人工标注的训练数据开始。

  • **自我指导创建:**模型自主从种子数据中创建新的提示,然后制定一系列可能的答案。

  • **自我评估:**模型根据相关性和事实准确性等标准对每个回答进行审核和打分。

  • **训练数据生成:**选择最佳和次优的答案创建一个多样化的训练集,教会模型区分高质量和低质量的回答。

  • **迭代训练:**使用新的训练集,模型进行自我训练,不断迭代该循环以逐步提升自身能力。

通过利用这种创新方法,该模型依靠自我生成的见解,最大限度地减少对外部资源的依赖,并改善自我评估能力。每次迭代都提高了其熟练程度,揭示了向更自主的AI语言系统迈进的路径。

在研究论文此处中了解完整的方法论。

Official Website

Meta AI 的自主改善语言模型生成自己的训练数据。

Official Website