which is the best? All the top models: GPT4, Claude, Mistral, Cohere, Gemini

私達は過去2週間、以下のようなさまざまな分野でGPT4、Claude、Mistral、Cohere、Geminiなど、トップモデルをテストしました：

長いコンテキストRAG
遅延時間
推論
コーディング
文章執筆

以下に、市場で6〜7つの最高のLLMモデルとそれらの強み、最適な使用ケースの詳細な説明を示します：

「ビッグボーイ」クラスのモデル

GPT-4 Turbo 頼りになる存在です。価格、パフォーマンス、遅延時間のバランスにおいてまだ最高の総合モデルです。私はGPT-4を以下の信頼性のために使用しています：

ツール（複雑なスキーマを処理できる）
構造化された出力JSON

Opusと共に、GPT-4はもはや明確な優勝者ではありませんが、開発者の経験を考慮すると、まだ強力です。補助API、ドキュメント、GPT、チュートリアルなどのようなものに最適です。使いやすく、99%のタスクではほとんど失敗しません。入力トークン1mあたり30ドルと価格も妥当で、遅延時間も優れています。

Claude-3 Opus 恐らく最も「総合的」なモデルです（GPT-4よりも優れています）。Opusは人間のような出力を取得するために最小限の提示しか必要としません。GPT-4は非常にロボット的になることがありますが、Claudeはこれを修正しています。

Opusは文章の執筆、アイデア出し、一般的な創造性に優れています。この種のタスクではどのモデルよりもOpusを選びます。

コーディングに関しては、GPT-4と同様の能力ですが、APIのためにすべてを交換する価値があるほどではありません（少し高額です）。

長いコンテキスト、PDF、論文： ここではOpusが光ります（Claudeのサイトを通じて）。200kのコンテキストと優れた推論能力により、論文、GitHubリポジトリ、PDFの分析には最適です。

完全なコンテキストで、異なる領域をつなぎ合わせ、LLMでは可能だと思わなかった方法でトピックを深く理解します。唯一の欠点はAPIのコスト（入力1mにつき15ドル+出力1mにつき70ドル）で、本番での使用は難しいです。

Claude-3 Sonnet 評価が低いモデルです。Opusほど頭はよくありませんが、中程度の推論や長いコンテキストには非常に優れた労働力です。私はSonnetを、長文コンテンツの執筆、データのクリーニング、構造化、文書の再構成に使用しています。

ウェブ検索と回答にも優れています（ほとんど幻想することはありません）。GPT-3.5とGPT-4 Turboの間の素晴らしいオプションです。OpusやGPT-4よりも安価で、DIYコードの解釈やデバッグ、その他のタスクには5,000以上のトークンの実行が頻繁に必要な場合にも十分な能力があります。

Gemini Pro 1.5 私が使用した中で最も能力が広く、創造力のあるモデルです。

完璧ほどのリコールを持つ1mのコンテキストは信じられません。Opus、Sonnet、GPT-4をすべてのRAGテストで上回ります。

例えば、私は3つのビデオをアップロードし、利点、欠点、感情、価格（および他のいくつかのフィールド）を持つ構造化されたJSONを要求しました。Gemini 1.5は3つのビデオを区別し、3つすべてのデータの配列を返すことができました。

また、オーディオはないがビデオを処理し、約2時間の映像をほぼ完璧に1分ごとに分割します。一般的に使用できるようになると、この非常に強力なモデルにより、より多くのエージェントワークフローが可能になるでしょう。

Mistral Large（およびMistral Medium） 私はMistral Largeにあまり感心していません。価格が高い（1mの入力トークンあたり24ドル）ですが、素晴らしいモデルです。それでもGPT-4やOpusよりも優れていませんし、価格に値するものではありません。ただし、Mediumはコストパフォーマンスが優れており、実際にはかなり良いです。

MediumはLMSys evalsでLargeと非常に似たスコアを獲得し、Sonnetと同様に評価が低いです。関数呼び出しやコーディングに特に便利であり、GPT-4よりも安価です。Sonnetよりも構造化された出力には優れており、APIも（ツールのためには少し分散している場合もありますが）シンプルです。

欠点は、Mistralモデルがすべて32kのコンテキストであり、Claudeが200kであることです。いずれにせよ、Mediumはしっかりしたモデルです。

「貧乏ボーイ」クラスのモデル

Cohere Command R GPT-3.5の代替となる非常に優れた128kのコンテキストです。RAGをサポートしており、長文の取得と出力が得意です。GPT-3.5やMistralとほぼ同じ価格で、長文の「単純なタスク」や複数の繰り返しを必要とする作業に非常に適しています。大きなPDFのチャンカーとして使用すると、再帰的な要約を行うことができます。

FireworksとTogether Mixtral

私はMixtralをかなり使っていますが、驚いたことに、GPT-3.5よりも僅かに良いパフォーマンスを持ち、最速の利用可能なモデルです。

特にFireworksからは、ほぼ300トークン/秒を得ています。これらのモデルは関数呼び出しには適していませんが、10〜30kのコンテキストの要約や抽出には完璧です。100回以上の呼び出しを投げることができ、コンテキストによっては10秒未満で終了します。価格とパフォーマンスの最適化を目指している場合、強くおすすめします。ただし、推論や難しいタスクには使用しないでください。

Groq Mixtral Fireworksと同様ですが、さらに高速です。APIの制限が高くなるまで、ほかに言うことはありません。

要約：

創造的な文章の執筆や研究分析と計画（コーディングも可能なら）にはOpusが適しています。
関数呼び出し、コーディング（安価）および推論が必要な構造化された出力にはGPT-4 Turboが適しています。
長いコンテキストと中程度の推論を必要とするより重いワークロードにはSonnetが適しています。
Mistral Mediumは「GPT-3.5とGPT-4の中間」としての役割を果たします。
Gemini 1.5は非常に能力が広く、クリエイティブな活用が可能ですが、一般的な公開には使用できません。
Mixtral（Fireworks、Groqなど）は、比較的基本的なタスクに対する素早いLLM呼び出しに最適です。
Command Rは、安価でRAGに最適化されたワークロードに適しています。50〜100kのトークンでのパフォーマンスがよく、それに基づいて回答を行うことができます（GPT-3.5やMixtralよりも優れています）。

ここでまとめますが、開発者や製品構築の側面については、時間の関係上議論しきれていません（パフォーマンスを最適化しようとしているため）。長くなりすぎないようにしました。