Abbiamo trascorso le ultime 2 settimane testando tutti i modelli principali come GPT4, Claude, Mistral, Cohere, Gemini in diverse aree come:
- RAG di lungo contesto
- Latenza
- Ragionamento
- Programmazione
- Scrittura
Ecco una dettagliata analisi dei 6-7 migliori LLM attualmente sul mercato, le loro caratteristiche e gli utilizzi ottimali:
I modelli di classe “Big Boy”
GPT-4 Turbo
Il cavallo di battaglia. Ancora il miglior modello complessivo in termini di prezzo/prestazioni/latenza. Utilizzo GPT-4 per la sua affidabilità in:
- Strumenti (gestisce schemi complessi)
- JSON strutturati di output
Con Opus, GPT-4 non è più il vincitore indiscusso, ma è comunque potente grazie alla sua esperienza per sviluppatori, come l’API assistente, la documentazione, GPTs, tutorial, ecc. È facile da usare e raramente fallisce per il 99% dei compiti. Inoltre, ha un prezzo decente di $30/1m token di input e una latenza accettabile.
Claude-3 Opus
Probabilmente il miglior modello “generalista” (supera GPT-4). Opus richiede poche indicazioni per ottenere risultati simili a quelli umani. GPT-4 può sembrare estremamente robotico, ma Claude risolve questo problema.
Opus eccelle nella scrittura, nell’ideazione e nella creatività generale. Lo sceglierei sopra a qualsiasi altro modello per questo tipo di compiti.
Per la programmazione, è al pari di GPT-4, ma non vale la pena sostituire tutto l’API perché è un po’ troppo costoso.
Contesto lungo, PDF, articoli scientifici:
Opus si distingue qui (attraverso il sito di Claude). I suoi 200k di contesto e il ragionamento eccellente lo rendono perfetto per analizzare articoli scientifici, repository GitHub e PDF.
Con un contesto completo, fa collegamenti tra diverse aree e comprende a fondo argomenti in modi che non pensavo fossero possibili con i LLM. L’unico svantaggio è il costo dell’API ($15/1m token di input + $70/1m token di output), che rende difficile utilizzarlo in produzione.
Claude-3 Sonnet
Un modello sottovalutato. Non è così intelligente come Opus, ma è un valido lavoro per ragionamenti di livello medio e contesto lungo. Uso Sonnet per scrivere contenuti di lunghezza maggiore, pulizia e strutturazione dei dati.
È anche bravo nella ricerca sul web + risposta (raramente genera allucinazioni). È un’ottima opzione tra GPT-3.5 e GPT-4 Turbo. Più economico di Opus e GPT-4, e il suo codice è abbastanza buono per interpretare e risolvere DIY e altri compiti che richiedono regolarmente oltre 5k token per esecuzione.
Gemini Pro 1.5
Il modello più potente che abbia mai utilizzato per la sua versatilità e la creatività che permette.
Il contesto di 1m con quasi un perfetto recupero è incredibile. Supera Opus, Sonnet e GPT-4 in tutti i miei test RAG.
In un esempio, ho caricato 3 video e ho richiesto JSON strutturati con pro, contro, sentiment, prezzo (e alcuni altri campi). È riuscito a distinguere tra i 3 video e ha restituito un array di dati per tutti e 3.
Può anche elaborare video (senza audio) e scomporre oltre 2 ore di riprese per minuto in modo quasi perfetto. È un modello estremamente potente che cambierà il panorama una volta disponibile in generale. Vedo l’opportunità di sviluppare flussi di lavoro per gli agenti utilizzando questo modello.
Mistral Large (e Mistral Medium)
Non sono rimasto molto impressionato da Mistral Large a causa del suo prezzo ($24/1m token di input). È un ottimo modello, ma non migliore di GPT-4 o Opus e non vale la pena il prezzo. Tuttavia, Medium è in realtà abbastanza buono per prezzo/prestazioni.
Medium ottiene punteggi molto simili a Large nelle valutazioni LMSys ed è sottovalutato come Sonnet. È particolarmente utile per la chiamata di funzioni e la programmazione, ed è più economico di GPT-4. È molto migliore di Sonnet nel produrre output strutturati, con un’API più semplice (quella di Claude può essere un po’ confusionaria per gli strumenti).
Lo svantaggio è che i modelli Mistral hanno tutti un contesto di 32k, mentre Claude ne ha 200k. In ogni caso, Medium è affidabile.
I modelli di classe “Broke Boy”
Cohere Command R
Un’alternativa molto buona a GPT-3.5 con un contesto di 128k che supporta RAG “fuori dalla scatola”. È migliore per il recupero e l’output di lunghe forme rispetto a GPT-3.5 e Mistral, con un prezzo praticamente lo stesso.
Ho intenzione di utilizzarlo molto per compiti “sciocchi” a lunga forma che richiedono più iterazioni e la gestione di grandi quantità di testo. È molto utile per suddividere grandi PDF in riassunti ricorsivi.
Fireworks e Together Mixtral
Ho usato abbastanza Mixtral e, sorprendentemente, è il modello disponibile più veloce con prestazioni leggermente migliori rispetto a GPT-3.5.
In particolare, da Fireworks, ottengo quasi 300 tok/s. Questi modelli non sono ottimi per la chiamata di funzioni, ma sono perfetti per riassunti ed estrazioni di contesto di circa 10-30k, si possono eseguire oltre 100 chiamate e si concluderanno in meno di 10 secondi grazie alla loro velocità (a seconda del contesto). Li raccomando vivamente se desideri ottimizzare il rapporto prezzo/prestazioni. Tuttavia, non usarli per il ragionamento o compiti difficili.
Groq Mixtral
Come Fireworks, ma ancora più veloce. Non c’è molto altro da dire fino a quando l’API non avrà limiti superiori.
TLDR:
- Opus per scrittura creativa, analisi e pianificazione della ricerca (per la programmazione se puoi permettertelo)
- GPT-4 Turbo per la chiamata di funzioni, programmazione (meno costoso) e output strutturati che richiedono ragionamento
- Sonnet per carichi di lavoro pesanti che coinvolgono contesto lungo e ragionamento di livello medio
- Mistral Medium come strumento intermedio tra GPT-3.5 e GPT-4
- Gemini 1.5 (cambierei molti aspetti, ma non può essere utilizzato pubblicamente)
- Mixtral (Fireworks, Groq, ecc.): per chiamate LLM ultraveloci per compiti relativamente semplici
- Command R: Ottimo per carichi di lavoro economici ottimizzati per l’uso di RAG. Si comporta bene con 50-100k token, risponde in base a questi dati (è migliore di GPT-3.5 e Mixtral)
Concludo qui, ma ho molto altro da dire sul lato dello sviluppatore/sviluppo del prodotto (dato che sto cercando di ottimizzare le prestazioni). Non volevo renderlo troppo lungo.