Wir haben die letzten zwei Wochen damit verbracht, alle Top-Modelle wie GPT4, Claude, Mistral, Cohere, Gemini in verschiedenen Bereichen zu testen, wie z.B.:

  • Lange Kontexte RAG
  • Latenz
  • Schlussfolgerung
  • Kodierung
  • Schreiben

Hier ist eine detaillierte Aufschlüsselung der besten 6-7 LLMs auf dem Markt, deren Stärken und optimale Anwendungsfälle:

Die “Big Boy” Klassenmodelle

GPT-4 Turbo
Der Arbeitstier. Immer noch das beste Allround-Modell in Bezug auf Preis/Leistung/Latenz. Ich verwende GPT-4 aufgrund seiner Zuverlässigkeit für:

  • Tools (Bearbeitung komplexer Schemata)
  • Strukturierte Ausgabe von JSONs

Mit Opus ist GPT-4 nicht mehr der klare Sieger, aber aufgrund seiner Entwicklererfahrung ist es immer noch leistungsstark, zum Beispiel bei der Verwendung von Assistant-APIs, Dokumentationen, GPTs, Tutorials usw. Es ist einfach zu bedienen und scheitert selten bei 99% der Aufgaben. Der Preis liegt bei 30 $/1 Mio. Eingabetokens und die Latenz ist akzeptabel.

Claude-3 Opus
Wahrscheinlich das beste “Generalist”-Modell (besser als GPT-4). Opus erfordert nur minimale Eingabeaufforderungen für menschenähnliche Ausgaben. GPT-4 kann oft sehr roboterhaft wirken, aber Claude behebt dieses Problem.

Opus ist besonders gut beim Schreiben, bei Ideenfindung und allgemeiner Kreativität. Für diese Art von Aufgaben würde ich es jedem anderen Modell vorziehen.

Beim Codieren steht es auf demselben Niveau wie GPT-4, aber aufgrund der höheren Kosten lohnt es sich nicht, alles auf die API umzustellen.

Langer Kontext, PDFs, Papiere:
Opus glänzt hier (über die Webseite von Claude). Mit seinem 200k-Kontext und seiner ausgezeichneten Schlussfolgerungsfähigkeit eignet es sich perfekt zur Analyse von wissenschaftlichen Artikeln, GitHub-Repositories und PDFs.

Mit dem vollen Kontext stellt es Verbindungen zwischen verschiedenen Bereichen her und versteht Themen in einer Weise, an die ich bisher bei LLMs nicht gedacht hatte. Der einzige Nachteil sind die API-Kosten (15 $/1 Mio. Eingabe + 70 $/1 Mio. Ausgabe), was die Verwendung in der Produktion erschwert.

Claude-3 Sonnet
Ein unterschätztes Modell. Nicht so schlau wie Opus, aber ein hervorragendes Arbeitstier für mittelschwere Schlussfolgerungen und langen Kontext. Ich verwende Sonnet für das Schreiben von längeren Texten, Datenbereinigung, Strukturierung und Umstrukturierung.

Es ist auch gut geeignet für Websuchen und Antworten (halluziniert selten). Eine gute Alternative zwischen GPT-3,5 und GPT-4 Turbo. Günstiger als Opus und GPT-4, und seine Fähigkeiten im Bereich Codierung sind gut genug für DIY-Code-Interpretation und Debugging sowie für andere Aufgaben, bei denen regelmäßig mehr als 5.000 Token pro Ausführung benötigt werden.

Gemini Pro 1.5
Das leistungsstärkste Modell, das ich je benutzt habe, rein aufgrund seiner Vielseitigkeit und Kreativität.

Der 1-Millionen-Kontext mit nahezu perfektem Gedächtnis ist unglaublich. Es übertrifft Opus, Sonnet und GPT-4 in all meinen RAG-Tests.

In einem Beispiel habe ich 3 Videos hochgeladen und um strukturierte JSONs mit Vor- und Nachteilen, Stimmung, Preis (und einigen anderen Feldern) gebeten. Es war in der Lage, zwischen den 3 Videos zu unterscheiden und eine Datenreihe für alle 3 zurückzugeben.

Es kann auch Videos (ohne Ton) verarbeiten und über 2 Stunden Filmmaterial nahezu perfekt in Minuten aufgliedern. Ein extrem leistungsstarkes Modell, das den Raum grundlegend verändern wird, sobald es allgemein verfügbar ist. Ich sehe darin die Möglichkeit, mehr Agenten-Workflows zu ermöglichen.

Mistral Large (und Mistral Medium)
Ich war von Mistral Large nicht besonders beeindruckt, aufgrund der Preise (24 $/1 Mio. Eingabetokens). Es ist ein großartiges Modell, aber nicht besser als GPT-4 oder Opus und nicht den Preis wert. Medium ist jedoch für das Preis-Leistungs-Verhältnis ziemlich gut.

Medium erzielt ähnlich hohe Ergebnisse wie Large in LMSys-Tests und ist damit, wie Sonnet, unterschätzt. Besonders nützlich für Funktionsaufrufe und Codierung, während es günstiger ist als GPT-4. Es ist viel besser geeignet für strukturierte Ausgaben als Sonnet und hat eine einfachere API (Claude’s kann für Tools manchmal etwas chaotisch sein).

Der Nachteil ist, dass die Mistral-Modelle alle einen Kontext von 32k haben, während Claude einen Kontext von 200k hat. Wie auch immer, Medium ist solide.

Die “Broke Boy” Klassenmodelle

Cohere Command R
Eine sehr gute Alternative zu GPT-3.5 mit 128k Kontext, die RAG ab Werk unterstützt. Es ist besser geeignet für die Abruf von langen Texten und die Ausgabe von Informationen zu einem ähnlichen Preis wie GPT-3.5 und Mistral.

Ich plane, es häufig für “dumme Aufgaben” mit langen Texten zu verwenden, die mehrere Durchläufe erfordern und große Textabschnitte verarbeiten können. Es ist ziemlich gut für die Aufteilung großer PDFs, um rekurisve Zusammenfassungen durchzuführen.

Fireworks und Together Mixtral

Ich habe Mixtral ziemlich häufig verwendet und war überrascht, dass es das schnellste verfügbare Modell ist und eine etwas bessere Leistung als GPT-3.5 bietet.

Besonders bei Fireworks erhalte ich fast 300 Tokens pro Sekunde. Diese Modelle sind nicht ideal für Funktionsaufrufe, eignen sich jedoch perfekt für Zusammenfassungen und Extraktionen mit einem Kontext von etwa 10-30k. Sie können über 100 Anfragen stellen, die in weniger als 10 Sekunden (abhängig vom Kontext) abgeschlossen werden, dank ihrer Geschwindigkeit. Ich empfehle sie sehr, wenn Sie das Preis-Leistungs-Verhältnis optimieren möchten. Verwenden Sie sie jedoch nicht für schwierige Schlussfolgerungen.

Groq Mixtral
Das Gleiche wie Fireworks, aber noch schneller. Mehr gibt es nicht zu sagen, bis ihre API höhere Grenzen hat.

Zusammenfassung:

  • Opus für kreatives Schreiben und Forschungsanalyse & -planung (Codierung, wenn es erschwinglich ist)
  • GPT-4 Turbo für Funktionsaufrufe, Codierung (günstiger) und strukturierte Ausgaben, die Schlussfolgerungen erfordern
  • Sonnet für größere Arbeitslasten mit langem Kontext und mittelschwerer Schlussfolgerung
  • Mistral Medium für eine Mischung aus GPT-3.5 und GPT-4
  • Gemini 1.5 (ich würde viel austauschen, aber es ist nicht für die öffentliche Nutzung geeignet)
  • Mixtral (Fireworks, Groq, usw.): Für blitzschnelle LLM-Aufrufe bei relativ einfachen Aufgaben
  • Command R: Hervorragend für kostengünstige, RAG-optimierte Arbeitslasten. Funktioniert gut mit 50-100k Token und beantwortet basierend darauf (übertrifft GPT-3.5 und Mixtral).

Damit komme ich zum Ende, aber ich habe noch viel hinzuzufügen, was die Entwicklung und den Produktaufbau betrifft (da ich versuche, die Leistung zu optimieren). Ich wollte es nicht zu lang machen.