Desbloquea todo el potencial del modelado del lenguaje con OLMo, el punto culminante de las iniciativas de lenguaje de código abierto. Destacándose con un ethos único de total transparencia, OLMo revoluciona cómo interactuamos, comprendemos y desarrollamos modelos de lenguaje al compartir todo, sí, cada elemento del proyecto, desde su conjunto de datos de Dolma de 3 billones de tokens hasta recursos vitales como el código de entrenamiento, los pesos del modelo, código de inferencia y registros detallados.
Sumérgete en un mundo donde reproducir el proceso de entrenamiento del modelo, profundizar en las complejidades del rendimiento y personalizar el modelo según tus necesidades no solo es posible, sino alentado. El compromiso de OLMo con un marco de código abierto al 100% allana el camino para oportunidades de investigación sin igual, permitiéndote:
- Acceder a datos extensos de pre-entrenamiento con el conjunto de datos Dolma AI2, que ofrece un rico corpus abierto que cubre 500 millones de documentos obtenidos de diversas plataformas. Esta base te permite explorar las profundidades del proceso de aprendizaje del modelo y adaptarlo a diferentes objetivos de investigación.
- Utilizar pesos completos del modelo y código de entrenamiento para cuatro variantes de modelos diferentes, cada uno entrenado con al menos 2 billones de tokens. Ya sea que estés buscando replicar el proceso de entrenamiento o ajustar el rendimiento del modelo, OLMo te provee de todos los recursos que necesitas.
- Beneficiarte de un amplio conjunto de herramientas de evaluación, que incluye más de 500 puntos de control del modelo y código de evaluación del proyecto Catwalk. Evalúa tus modelos o profundiza tu análisis de OLMo con precisión.
Parámetros del Modelo y Detalles de la Arquitectura:
Explora una variedad de tamaños de modelos adaptados a las necesidades de tu proyecto, desde el modelo de 1 billón de parámetros que cuenta con 16 capas y 2048 unidades ocultas por capa hasta la variante de 65 billones de parámetros, que sigue expandiendo sus capacidades con 80 capas y 8192 unidades ocultas por capa. Los modelos OLMo, construidos sobre una arquitectura del Transformer solo decodificador, incorporan innovaciones como la normalización de capa no paramétrica y las funciones de activación SwiGLU para refinar aún más el rendimiento.
Evaluación de Rendimiento:
Comparado con los modelos líderes, OLMo 7B demuestra resultados comparables en tareas de generación y comprensión de lectura, y presenta un potencial prometedor en un espectro de aplicaciones. A través de Paloma de AI2 y los puntos de control disponibles, adéntrate en análisis exhaustivos que relacionan la previsibilidad del modelo con su tamaño y entrenamiento.
Inicia tu Recorrido con OLMo:
- Explora el proyecto: allenai.org/olmo
- Descarga el modelo: huggingface.co/allenai/OLMo-7B
- Aprende más con el informe técnico: blog.allenai.org/olmo-open-language-model-87ccfc95f580
- Adéntrate en el artículo de investigación: arxiv.org/abs/2402.00838
- Contribuye y colabora: github.com/allenai/olmo
OLMo no solo impulsa el campo del modelado de lenguaje, sino que también insiste en un enfoque de colaboración, transparencia e innovación de código abierto. Comienza tu exploración hoy mismo y contribuye al panorama de la investigación en lenguaje.
Official Website
A truly completely open source large model