Nous avons passé les dernières 2 semaines à tester tous les modèles les plus performants tels que GPT4, Claude, Mistral, Cohere, Gemini dans différents domaines comme :

  • Contexte long RAG
  • Latence
  • Raisonnement
  • Codage
  • Écriture

Voici une analyse détaillée des 6 à 7 meilleurs LLM sur le marché, leurs points forts et leurs cas d’utilisation optimaux :

Les modèles de la classe “Big Boy”

GPT-4 Turbo Le cheval de bataille. Toujours le meilleur modèle global en termes de rapport qualité/prix/latence. J’utilise GPT-4 pour sa fiabilité dans :

  • Les outils (gestion des schémas complexes)
  • Les sorties structurées JSON

Avec Opus, GPT-4 n’est plus le gagnant incontesté, mais il reste puissant grâce à son expérience de développement, donc des choses comme l’API assistant, la documentation, les GPT, les tutoriels, etc. Il est facile à utiliser et échoue rarement pour 99% des tâches. Il est également bien tarifé à 30$/1m de jetons d’entrée, avec une latence correcte.

Claude-3 Opus Probablement le meilleur modèle “généraliste” (mieux que GPT-4). Opus nécessite un minimum de sollicitation pour des sorties semblables à celles d’un humain. GPT-4 peut être extrêmement robotique, mais Claude corrige cela.

Opus excelle dans l’écriture, la création d’idées et la créativité en général. Je le choisirais plutôt que n’importe quel modèle pour ce type de tâches.

Pour le codage, il est à égalité avec GPT-4, mais cela ne vaut pas la peine de tout basculer sur l’API car cela devient un peu trop cher.

Long contexte, PDFs, papiers : Opus brille ici (via le site de Claude). Son contexte de 200k et sa grande capacité de raisonnement le rendent parfait pour l’analyse de papiers, de dépôts GitHub et de PDF.

Avec un contexte complet, il établit des liens entre différents domaines et comprend profondément les sujets d’une manière à laquelle je ne pensais pas possible avec les LLM. Le seul inconvénient est le coût de l’API (15$/1m d’entrée + 70$/1m de sortie), ce qui rend difficile son utilisation en production.

Claude-3 Sonnet Un modèle sous-estimé. Pas aussi intelligent qu’Opus, mais très performant pour le raisonnement de niveau moyen et les contextes longs. J’utilise Sonnet pour l’écriture de contenu long, le nettoyage de données, la structuration et la restructuration.

Il est également bon pour la recherche web + réponses (hallucine rarement). Une excellente option entre GPT-3.5 et GPT-4 Turbo. Moins cher qu’Opus et GPT-4, et son codage est suffisamment bon pour l’interprétation et le débogage de code DIY ainsi que d’autres tâches qui nécessitent régulièrement plus de 5 000 jetons par exécution.

Gemini Pro 1.5 Le modèle le plus puissant que j’ai utilisé, uniquement grâce à sa polyvalence et à sa capacité créative.

Son contexte de 1m avec un rappel quasi parfait est irréel. Il surclasse Opus, Sonnet et GPT-4 dans tous mes tests RAG.

Dans un exemple, j’ai envoyé 3 vidéos et demandé des JSONs structurés avec avantages, inconvénients, sentiment, prix (et quelques autres champs). Il a été capable de distinguer les 3 vidéos et a renvoyé un tableau de données pour les 3.

Il peut également traiter des vidéos (sans audio) et les découper presque parfaitement en segments de 2 heures par minute. Un modèle extrêmement puissant qui changera l’espace une fois disponible généralement. Je pense qu’il rendra possibles davantage de flux de travail d’agents.

Mistral Large (et Mistral Medium) Je n’ai pas été très impressionné par Mistral Large en raison de son prix (24$/1m de jetons d’entrée). C’est un très bon modèle, mais il n’est pas meilleur que GPT-4 ou Opus, et il ne vaut pas le prix. Cependant, Medium est en réalité assez bon en termes de rapport qualité/prix.

Medium obtient des scores très similaires à Large lors des évaluations LMSys et, comme Sonnet, il est sous-estimé. Particulièrement utile pour l’appel de fonctions et le codage, tout en étant moins cher que GPT-4. Il est bien meilleur en termes de sorties structurées que Sonnet, avec une API plus simple (celle de Claude peut être un peu compliquée pour les outils).

L’inconvénient est que les modèles Mistral ont tous un contexte de 32k, tandis que Claude a un contexte de 200k. Quoi qu’il en soit, Medium est solide.

Les modèles de la classe “Broke Boy”

Cohere Command R Une très bonne alternative avec un contexte de 128k à GPT-3.5 qui prend en charge RAG nativement. Il est meilleur pour la récupération et la sortie de contenu long à peu près au même prix que GPT-3.5 et Mistral.

J’ai l’intention de l’utiliser beaucoup pour des “tâches bêtes” nécessitant plusieurs itérations et la manipulation de gros morceaux de texte. C’est assez pratique pour découper de gros PDF afin d’effectuer des résumés récursifs.

Fireworks et Together Mixtral

J’utilise beaucoup Mixtral, et à ma grande surprise, c’est le modèle le plus rapide, avec des performances légèrement meilleures que celles de GPT-3.5.

Surtout avec Fireworks, j’obtiens près de 300 tok/s. Ces modèles ne sont pas très performants pour les appels de fonctions, mais ils sont parfaits pour des résumés et des extractions de contenu de ~10 à 30k de contexte. Vous pouvez effectuer plus de 100 appels, et ils se termineront en moins de 10 secondes en raison de leur rapidité (cela dépend du contexte). Je les recommande vivement si vous cherchez à optimiser le rapport qualité/prix. Ne les utilisez cependant pas pour le raisonnement ou les tâches difficiles.

Groq Mixtral Identique à Fireworks, mais encore plus rapide. Il n’y a pas grand-chose d’autre à ajouter jusqu’à ce que leur API ait des limites plus élevées.

TLDR :

  • Opus pour l’écriture créative, l’analyse et la planification de recherche (et le codage si vous pouvez vous le permettre)
  • GPT-4 Turbo pour l’appel de fonctions, le codage (moins cher) et les sorties structurées nécessitant du raisonnement
  • Sonnet pour des charges de travail plus lourdes impliquant un contexte long et un raisonnement moyen
  • Mistral Medium pour un outil de transition entre GPT-3.5 et GPT-4
  • Gemini 1.5 (j’en remplacerais beaucoup, mais il n’est pas utilisable pour un usage public)
  • Mixtral (Fireworks, Groq, etc.) : pour des appels LLM extrêmement rapides pour des tâches relativement basiques
  • Command R : idéal pour des charges de travail optimisées pour RAG et peu coûteuses. Bonnes performances avec 50 à 100k de jetons et réponses basées sur cela (surpasse GPT-3.5 et Mixtral)

Je vais conclure ici, mais j’ai beaucoup plus d’éléments à ajouter du côté du développement/du produit (car j’essaie d’optimiser les performances). Je ne voulais pas trop m’étendre.