OLMoは、オープンソース言語プロジェクトの頂点であることで、言語モデリングの可能性を最大限に引き出します。完全な透明性の倫理観で注目を浴びるOLMoは、3兆トークンのDolmaデータセットから学習コード、モデルの重み、推論コード、詳細なログなど、プロジェクトの全ての要素を共有することによって、言語モデルの相互作用、理解、開発方法を革新します。
モデルの訓練プロセスを再現し、パフォーマンスの細部に取り組み、モデルを自分のニーズに合わせてカスタマイズする世界に飛び込んでみましょう。OLMoの100%オープンソースフレームワークへの取り組みは、研究のための類を見ない機会を提供し、以下のことが可能になります:
- 多様なプラットフォームから収集された5億以上の文書をカバーするAI2 Dolmaデータセットからの包括的な事前学習データにアクセスできます。この基礎を活用して、モデルの学習プロセスの奥深さを探求し、様々な研究目標に適合させることができます。
- 少なくとも2兆トークンで訓練された4つの異なるバリアントモデルの完全なモデルの重みとトレーニングコードを利用できます。訓練プロセスを複製したり、モデルのパフォーマンスを微調整したりする場合には、OLMoが必要なリソースを提供します。
- Catwalkプロジェクトからの500以上のモデルチェックポイントと評価コードを備えた包括的な評価ツールキットを活用することができます。モデルの評価やOLMoの詳細な分析を高精度で行うことができます。
モデルパラメータとアーキテクチャの詳細:
プロジェクトのニーズに合わせた様々なモデルサイズを探索できます。1兆パラメータのモデルは16層と1層あたり2048の隠れユニットを持ち、最大で6550億パラメータのモデルは80層と1層あたり8192の隠れユニットを持ちます。OLMoのモデルは、デコーダのみのトランスフォーマーアーキテクチャを採用し、非パラメトリックなレイヤーノーマライゼーションやSwiGLU活性化関数などの革新的な手法を取り入れてさらなるパフォーマンスの向上を図っています。
パフォーマンス評価:
主要なモデルと比較したベンチマークによれば、OLMo 7Bは生成タスクと読解タスクの両方で比較可能な結果を示し、幅広いアプリケーションにおいて有望な潜在能力を持っています。AI2のPalomaと利用可能なチェックポイントを通じて、モデルの予測性とサイズ、訓練との関係について詳細な分析を行うことができます。
OLMoの旅を始めましょう:
- プロジェクトを探索する: allenai.org/olmo
- モデルをダウンロードする: huggingface.co/allenai/OLMo-7B
- 技術レポートに参加する: blog.allenai.org/olmo-open-language-model-87ccfc95f580
- 研究論文に深入りする: arxiv.org/abs/2402.00838
- 貢献し協力する: github.com/allenai/olmo
OLMoは、言語モデリングの分野を推進するだけでなく、協力的で透明性のあるオープンソースのアプローチでのイノベーションを主張しています。今日から探索を始め、言語研究の領域に貢献しましょう。
Official Website
A truly completely open source large model