Libérez tout le potentiel de modélisation du langage avec OLMo, l’apogée des initiatives de langage open-source. Se démarquant par une éthique unique de transparence totale, OLMo révolutionne notre interaction avec, notre compréhension et notre développement des modèles de langage en partageant tout - oui, chaque élément du projet - de son ensemble de données Dolma de 3 billions de jetons aux ressources vitales comme le code d’entraînement, les poids du modèle, le code d’inférence et les journaux détaillés.

Plongez dans un monde où reproduire le processus d’entraînement du modèle, explorer les subtilités de ses performances et le personnaliser en fonction de vos besoins n’est pas seulement possible, mais encouragé. L’engagement d’OLMo envers un cadre 100% open-source ouvre la voie à des opportunités de recherche inégalées, vous permettant de :

  • Accéder à un ensemble de données d’entraînement complet avec l’ensemble de données Dolma AI2, offrant un riche corpus ouvert couvrant 500 millions de documents provenant de plates-formes diverses. Cette base vous permet d’explorer en profondeur le processus d’apprentissage du modèle et de l’adapter à différents objectifs de recherche.
  • Utiliser les poids complets du modèle et le code d’entraînement pour quatre variantes de modèles différentes, chacune entraînée avec au moins 2 billions de jetons. Que vous souhaitiez reproduire le processus d’entraînement ou affiner les performances du modèle, OLMo vous fournit toutes les ressources dont vous avez besoin.
  • Bénéficier d’un ensemble d’outils d’évaluation exhaustif, comprenant plus de 500 points de contrôle de modèle et du code d’évaluation provenant du projet Catwalk. Évaluez vos modèles ou approfondissez votre analyse d’OLMo avec précision.

Paramètres du modèle et détails de l’architecture :

Explorez une variété de tailles de modèles adaptées à vos besoins de projet, depuis le modèle de 1 milliard de paramètres doté de 16 couches et 2048 unités cachées par couche, jusqu’à la variante colossale de 65 milliards de paramètres, qui étend encore ses capacités avec 80 couches et 8192 unités cachées par couche. Les modèles OLMo, construits sur une architecture Transformer à décodeur uniquement, intègrent des innovations telles que la normalisation des couches non-paramétriques et les fonctions d’activation SwiGLU pour affiner davantage les performances.

Évaluation des performances :

Comparé à des modèles leaders, OLMo 7B démontre des résultats comparables dans les tâches de génération et de compréhension de lecture, et présente un potentiel prometteur dans un large spectre d’applications. Grâce à Paloma d’AI2 et aux points de contrôle disponibles, plongez dans des analyses complètes liant la prévisibilité du modèle à sa taille et à son entraînement.

Lancez votre aventure OLMo :

OLMo propulse non seulement le domaine de la modélisation du langage, mais insiste également sur une approche collaborative, transparente et open-source de l’innovation. Commencez votre exploration dès aujourd’hui et contribuez au paysage de la recherche linguistique.
Official Website

A truly completely open source large model

Official Website