Sblocca tutto il potenziale del modellamento del linguaggio con OLMo, il vertice delle iniziative di linguaggio open source. Risaltando con un ethos unico di totale trasparenza, OLMo rivoluziona il modo in cui interagiamo, comprendiamo e sviluppiamo modelli di linguaggio condividendo tutto, sì, ogni singolo elemento del progetto, dal suo insieme di dati Dolma da 3 trilioni di token, alle risorse vitali come il codice di addestramento, i pesi del modello, il codice di inferenza e i registri dettagliati.
Immergiti in un mondo dove riprodurre il processo di addestramento del modello, approfondire le sottili sfumature delle performance e personalizzare il modello secondo le tue esigenze non solo è possibile, ma è incoraggiato. Il impegno di OLMo a un framework open source al 100% apre la strada a opportunità di ricerca senza pari, consentendoti di:
- Accedere a un completo set di dati pre-addestramento con l’insieme di dati Dolma AI2, offrendo un ricco corpus aperto che copre 500 milioni di documenti provenienti da diverse piattaforme. Questa base ti consente di esplorare le profondità del processo di apprendimento del modello e adattarlo a diversi obiettivi di ricerca.
- Utilizzare pesi completi del modello e codice di addestramento per quattro varianti di modelli diverse, ognuna addestrata con almeno 2 trilioni di token. Che tu voglia replicare il processo di addestramento o migliorare le performance del modello, OLMo ti fornisce tutte le risorse di cui hai bisogno.
- Beneficiare di un ampio set di strumenti di valutazione, che include più di 500 checkpoint del modello e codice di valutazione proveniente dal progetto Catwalk. Valuta i tuoi modelli o approfondisci la tua analisi di OLMo con precisione.
Parametri del modello e dettagli architetturali:
Esplora una varietà di dimensioni del modello adattate alle esigenze del tuo progetto, dal modello con 1 miliardo di parametri che vanta 16 strati e 2048 unità nascoste per strato, alla colossale variante con 65 miliardi di parametri che, ancora in espansione delle sue capacità, ha 80 strati e 8192 unità nascoste per strato. I modelli OLMo, basati su un’architettura Transformer solo decoder, incorporano innovazioni come la normalizzazione di layer non parametrica e le funzioni di attivazione SwiGLU per raffinare ulteriormente le performance.
Valutazione delle performance:
Benchmarcate insieme ai modelli leader, OLMo 7B mostra risultati comparabili in compiti di generazione e comprensione della lettura e mostra un potenziale promettente in una vasta gamma di applicazioni. Attraverso Paloma di AI2 e i checkpoint disponibili, immergiti in analisi approfondite che collegano la prevedibilità del modello alla dimensione e all’addestramento.
Inizia il tuo viaggio con OLMo:
- Esplora il progetto: allenai.org/olmo
- Scarica il modello: huggingface.co/allenai/OLMo-7B
- Approfondisci il report tecnico: blog.allenai.org/olmo-open-language-model-87ccfc95f580
- Approfondisci l’articolo di ricerca: arxiv.org/abs/2402.00838
- Contribuisci e collabora: github.com/allenai/olmo
OLMo non solo spinge avanti il campo del modellamento del linguaggio, ma insiste anche su un approccio collaborativo, trasparente e open source all’innovazione. Inizia la tua esplorazione oggi stesso e contribuisci al panorama della ricerca linguistica.
Official Website
A truly completely open source large model