OLMoは、オープンソース言語プロジェクトの頂点であることで、言語モデリングの可能性を最大限に引き出します。完全な透明性の倫理観で注目を浴びるOLMoは、3兆トークンのDolmaデータセットから学習コード、モデルの重み、推論コード、詳細なログなど、プロジェクトの全ての要素を共有することによって、言語モデルの相互作用、理解、開発方法を革新します。

モデルの訓練プロセスを再現し、パフォーマンスの細部に取り組み、モデルを自分のニーズに合わせてカスタマイズする世界に飛び込んでみましょう。OLMoの100%オープンソースフレームワークへの取り組みは、研究のための類を見ない機会を提供し、以下のことが可能になります:

  • 多様なプラットフォームから収集された5億以上の文書をカバーするAI2 Dolmaデータセットからの包括的な事前学習データにアクセスできます。この基礎を活用して、モデルの学習プロセスの奥深さを探求し、様々な研究目標に適合させることができます。
  • 少なくとも2兆トークンで訓練された4つの異なるバリアントモデルの完全なモデルの重みとトレーニングコードを利用できます。訓練プロセスを複製したり、モデルのパフォーマンスを微調整したりする場合には、OLMoが必要なリソースを提供します。
  • Catwalkプロジェクトからの500以上のモデルチェックポイントと評価コードを備えた包括的な評価ツールキットを活用することができます。モデルの評価やOLMoの詳細な分析を高精度で行うことができます。

モデルパラメータとアーキテクチャの詳細:

プロジェクトのニーズに合わせた様々なモデルサイズを探索できます。1兆パラメータのモデルは16層と1層あたり2048の隠れユニットを持ち、最大で6550億パラメータのモデルは80層と1層あたり8192の隠れユニットを持ちます。OLMoのモデルは、デコーダのみのトランスフォーマーアーキテクチャを採用し、非パラメトリックなレイヤーノーマライゼーションやSwiGLU活性化関数などの革新的な手法を取り入れてさらなるパフォーマンスの向上を図っています。

パフォーマンス評価:

主要なモデルと比較したベンチマークによれば、OLMo 7Bは生成タスクと読解タスクの両方で比較可能な結果を示し、幅広いアプリケーションにおいて有望な潜在能力を持っています。AI2のPalomaと利用可能なチェックポイントを通じて、モデルの予測性とサイズ、訓練との関係について詳細な分析を行うことができます。

OLMoの旅を始めましょう:

OLMoは、言語モデリングの分野を推進するだけでなく、協力的で透明性のあるオープンソースのアプローチでのイノベーションを主張しています。今日から探索を始め、言語研究の領域に貢献しましょう。
Official Website

A truly completely open source large model

Official Website