Desbloqueie todo o potencial da modelagem de linguagem com OLMo, o pináculo das iniciativas de linguagem de código aberto. Destacando-se com uma ética única de total transparência, OLMo revoluciona a forma como interagimos, entendemos e desenvolvemos modelos de linguagem, compartilhando tudo - sim, cada elemento individual do projeto - desde o conjunto de dados Dolma de 3 trilhões de tokens até recursos vitais como código de treinamento, pesos do modelo, código de inferência e logs detalhados.
Mergulhe em um mundo onde reproduzir o processo de treinamento do modelo, aprofundar-se nas intricâncias de desempenho e personalizar o modelo de acordo com suas necessidades não é apenas possível, mas incentivado. O compromisso da OLMo com uma estrutura 100% de código aberto abre caminho para oportunidades de pesquisa incomparáveis, permitindo que você:
- Acesse dados abrangentes de pré-treinamento com o conjunto de dados Dolma AI2, oferecendo um rico corpus aberto que cobre 500 milhões de documentos provenientes de diversas plataformas. Essa base permite que você explore as profundezas do processo de aprendizado do modelo e o adapte para atender a vários objetivos de pesquisa.
- Utilize pesos completos do modelo e código de treinamento para quatro modelos variantes diferentes, cada um treinado com pelo menos 2 trilhões de tokens. Se você pretende replicar o processo de treinamento ou ajustar o desempenho do modelo, a OLMo fornece todos os recursos de que você precisa.
- Beneficie-se de um extenso conjunto de ferramentas de avaliação, com mais de 500 pontos de verificação do modelo e código de avaliação do projeto Catwalk. Avalie seus modelos ou aprofunde sua análise da OLMo com precisão.
Parâmetros do Modelo e Detalhes da Arquitetura:
Explore uma variedade de tamanhos de modelo adaptados às necessidades do seu projeto, desde o modelo de 1 bilhão de parâmetros, com 16 camadas e 2048 unidades ocultas por camada, até a variante colossal de 65 bilhões de parâmetros, ainda expandindo suas capacidades com 80 camadas e 8192 unidades ocultas por camada. Modelos OLMo, construídos com uma arquitetura Transformer apenas no decodificador, incorporam inovações como normalização de camada não-paramétrica e funções de ativação SwiGLU para aprimorar ainda mais o desempenho.
Avaliação de Desempenho:
Comparado aos principais modelos, o OLMo 7B demonstra resultados comparáveis em tarefas de geração e compreensão de leitura e exibe um potencial promissor em uma variedade de aplicações. Através de Paloma da AI2 e pontos de verificação disponíveis, aprofunde-se em análises abrangentes que relacionam a previsibilidade do modelo com tamanho e treinamento.
Embarque em sua Jornada OLMo:
- Explore o projeto: allenai.org/olmo
- Baixe o modelo: huggingface.co/allenai/OLMo-7B
- Envolver-se com o relatório técnico: blog.allenai.org/olmo-open-language-model-87ccfc95f580
- Aprofunde-se no artigo de pesquisa: arxiv.org/abs/2402.00838
- Contribua e colabore: github.com/allenai/olmo
O OLMo não apenas impulsiona o campo da modelagem de linguagem, mas também insiste em uma abordagem colaborativa, transparente e de código aberto para a inovação. Comece sua exploração hoje e contribua para o cenário da pesquisa em linguagem.
Official Website
A truly completely open source large model