OLMo(Open Language Modeling)은 개방형 언어 프로젝트의 정점인, 언어 모델링의 모든 잠재력을 해제합니다. OLMo는 완전한 투명성을 바탕으로 독보적인 성향을 가지며, 프로젝트의 모든 구성 요소 - 3조 토큰인 Dolma 데이터셋부터 귀중한 자원인 훈련 코드, 모델 가중치, 추론 코드, 상세한 로그까지 - 모든 것을 공유함으로써 우리가 언어 모델과 상호작용하고 이해하며 개발하는 방식을 혁신합니다.

이제 모델 훈련 과정을 재현하고 성능의 세부 사항을 파고들며 모델을 자신의 요구에 맞게 커스터마이징하는 세계로 빠져들어보세요. OLMo의 100% 오픈 소스 프레임워크에 대한 헌신은 예측할 수 없는 연구 기회를 열어주어 여러분이 다음과 같은 기능을 이용할 수 있게 합니다.

  • AI2의 Dolma 데이터셋을 활용한 포괄적인 사전 훈련 데이터에 접근하여 다양한 플랫폼에서 수집한 5억 개의 문서를 포함하는 풍부한 오픈 코퍼스를 이용하세요. 이 기반은 여러분이 모델의 학습 과정을 탐색하고 다양한 연구 목표에 맞게 조정하는 데 도움이 됩니다.
  • 적어도 2조 토큰으로 훈련된 네 가지 다른 변형 모델의 전체 모델 가중치와 훈련 코드를 활용하세요. 훈련 과정을 복제하거나 모델의 성능을 세밀하게 튜닝하려는 경우에 OLMo는 필요한 모든 자원을 제공합니다.
  • 평가 도구 세트를 활용하여 500개 이상의 모델 체크포인트와 Catwalk 프로젝트에서 제공하는 평가 코드를 사용하세요. 모델을 평가하거나 OLMo를 더 깊이 분석할 수 있습니다.

모델 파라미터 및 아키텍처 세부 정보:

프로젝트 요구에 맞게 다양한 모델 크기를 탐색해보세요. 160억 개의 파라미터로 구성된 16개 레이어와 레이어당 2048개의 히든 유닛을 가진 10억 개 파라미터 모델부터 650억 개 파라미터로 구성된 80개 레이어와 레이어당 8192개의 히든 유닛을 가진 거대한 모델까지 제공됩니다. OLMo 모델은 디코더 전용 Transformer 아키텍처를 기반으로 하며, 비매개 변수 레이어 정규화 및 SwiGLU 활성화 함수와 같은 혁신 기술을 도입하여 성능을 더욱 개선합니다.

성능 평가:

주요 모델과 함께 벤치마킹된 OLMo 7B는 생성 및 독해 작업에서 비슷한 결과를 보여주며 다양한 응용 분야에서 훌륭한 잠재력을 나타냅니다. AI2의 Paloma와 제공되는 체크포인트를 통해 모델의 예측 가능성과 크기 및 훈련과의 관련성에 대한 포괄적인 분석에 더욱 심층적으로 이해할 수 있습니다.

OLMo 여정을 시작하세요:

OLMo는 언어 모델링 분야를 발전시킬 뿐만 아니라 협업적이고 투명하며 오픈 소스 기반의 혁신적인 접근을 주장합니다. 지금 여러분의 탐색을 시작하고 언어 연구의 풍경에 기여해보세요.
Official Website

A truly completely open source large model

Official Website