AlpacaEval 2.0

메타 AI의 혁신적인 작업은 자체 훈련 데이터의 생성과 활용을 선도하는 자가 개선 언어 모델을 소개합니다. 이 자율적인 방법은 Claude 2, Gemini Pro 및 GPT-4 0613와 같은 주목할만한 상대들을 AlpacaEval 2.0 순위에서 능가하는 능력을 모델에게 제공합니다.

작동 방식은 다음과 같습니다:

초기화: 능숙하게 사전 훈련된 언어 모델과 인간이 레이블을 지정한 훈련 데이터의 씨앗으로 시작합니다.
자체 지시어 생성: 모델은 씨앗 데이터로부터 자동으로 새로운 지시어를 만들고 가능한 답변의 범위를 구성합니다.
자체 평가: 각 응답은 관련성과 사실적 정확성과 같은 기준에 따라 모델에 의해 면밀히 검토되고 점수가 매겨집니다.
훈련 데이터 생성: 최적과 부적합한 답변은 선별되어 다양한 훈련 세트를 생성하며, 이를 통해 모델은 높은 품질과 낮은 품질의 응답을 구별하는 법을 배웁니다.
반복적인 훈련: 새로운 훈련 세트로 모델을 다시 훈련시켜 지속적으로 이 주기를 반복하여 자가 개선을 진행합니다.

이 혁신적인 접근을 통해 모델은 자체 생성된 통찰력을 기반으로 성장하며, 외부 리소스에 대한 의존을 최소화하며 자가 평가 능력을 개선합니다. 각 단계는 모델의 능숙도를 향상시키며, 더 자율적인 AI 언어 시스템의 발전을 보여줍니다.

연구 논문 전체 방법론은 여기에서 확인하실 수 있습니다.

Official Website

메타 AI는 자체적으로 훈련 데이터를 생성하는 자가 발전하는 언어 모델입니다.

Official Website