用OLMo解锁语言建模的全部潜力,这是开源语言项目的巅峰。OLMo以完全透明的独特理念脱颖而出,通过共享项目的每一个元素,包括它的3万亿标记Dolma数据集、训练代码、模型权重、推理代码和详细日志等,彻底革新了我们与语言模型的互动、理解和开发方式。

进入一个世界,在这个世界中,再现模型训练过程、深入研究性能细节和根据自己的需求定制模型不仅是可能的,而且是被鼓励的。OLMo致力于100%的开源框架,为无与伦比的研究机会铺平了道路,让您可以:

  • 使用AI2的Dolma数据集,涵盖了源自不同平台的5亿个文档的丰富开放语料库,获得全面的预训练数据。这个基础让您可以探索模型的学习过程,并将其调整适应各种研究目标。
  • 利用四个不同变种模型的完整权重和训练代码,每个模型都至少训练了2万亿个标记。无论您是想复制训练过程还是微调模型性能,OLMo都为您提供了所需的所有资源。
  • 通过Catwalk项目提供的超过500个模型检查点和评估代码,获得广泛的评估工具。使用这些工具可以对您的模型进行评估,或者加深对OLMo的分析。

模型参数和架构细节:

根据项目需求,探索多种不同的模型大小,从10亿参数的模型(具有16层和每层2048个隐藏单元)到庞大的650亿参数变体(每层80层,每层8192个隐藏单元)。OLMo模型基于仅解码器的Transformer架构,在性能优化方面采用了非参数化层标准化和SwiGLU激活函数等创新方法。

性能评估:

OLMo 7B与领先的模型进行了基准测试,在生成和阅读理解任务上表现出可比较的结果,并在各种应用领域展示了良好的潜力。通过AI2的Paloma和可用的检查点,深入分析模型的可预测性与尺寸和训练之间的联系。

开始您的OLMo之旅:

OLMo不仅推动了语言建模领域的进步,而且坚持合作、透明和开源的创新方式。立即开始您的探索,为语言研究领域做出贡献。
Official Website

A truly completely open source large model

Official Website