Раскройте полный потенциал моделирования языка с OLMo, вершиной открытых языковых инициатив. Выделяясь уникальным этикетом полной прозрачности, OLMo революционизирует то, как мы взаимодействуем, понимаем и развиваем языковые модели, делясь всем - да, каждым отдельным элементом проекта - от набора данных Dolma объемом 3 трлн токенов до важных ресурсов, таких как код обучения, веса модели, код вывода и подробные журналы.
Погрузитесь в мир, где воспроизведение процесса обучения модели, изучение деталей производительности и настройка модели под ваши потребности не только возможны, но и приветствуются. Обязательство OLMo к 100% открытой среде рамки открывает путь для беспрецедентных исследовательских возможностей, позволяя вам:
- Получить доступ к комплексным данным предварительного обучения с использованием набора данных Dolma АИ2, предлагающего богатый открытый корпус, охватывающий 500 млн. документов, полученных с различных платформ. Это основание позволяет вам исследовать глубины процесса обучения модели и адаптировать ее под различные исследовательские цели.
- Использовать веса полной модели и код обучения для четырех различных вариантов моделей, каждая из которых обучена как минимум 2 трлн. токенов. Будь вы стремитесь воспроизвести процесс обучения или настроить производительность модели, OLMo оснащает вас всеми необходимыми ресурсами.
- Получить преимущество от обширного набора инструментов для оценки, включающего более 500 точек сохранения моделей и кода оценки из проекта Catwalk. Оценивайте свои модели или углубляйтесь в анализ OLMo с высокой точностью.
Параметры модели и подробности архитектуры:
Исследуйте различные размеры моделей, соответствующие потребностям вашего проекта, начиная от модели с 1 млрд. параметров, имеющей 16 слоев и 2048 скрытых блоков на слой, и заканчивая колоссальным вариантом с 65 млрд. параметров, который продолжает расширять свои возможности с 80 слоями и 8192 скрытыми блоками на слой. Модели OLMo, созданные на архитектуре только с декодером Transformer, включают инновации, такие как непараметрическая нормализация слоев и активационные функции SwiGLU, для дальнейшего улучшения производительности.
Оценка производительности:
Сравниваясь с ведущими моделями, OLMo 7B демонстрирует сопоставимые результаты в задачах генерации и понимания чтения и обладает многообещающим потенциалом для широкого спектра приложений. Через Paloma АИ2 и доступные точки проверки проникнитесь всесторонними анализами, связывающими предсказуемость модели с ее размером и обучением.
Отправляйтесь в свое путешествие с OLMo:
- Исследуйте проект: allenai.org/olmo
- Загрузите модель: huggingface.co/allenai/OLMo-7B
- Ознакомьтесь с техническим отчетом: blog.allenai.org/olmo-open-language-model-87ccfc95f580
- Погрузитесь в научную статью: arxiv.org/abs/2402.00838
- Внесите вклад и сотрудничайте: github.com/allenai/olmo
OLMo не только продвигает развитие области моделирования языка, но и настаивает на коллаборативном, прозрачном и открытом подходе к инновациям. Начните свое исследование сегодня и внесите свой вклад в ландшафт языковых исследований.
Official Website
A truly completely open source large model