which is the best? All the top models: GPT4, Claude, Mistral, Cohere, Gemini

我们在过去的两周里对所有顶尖模型，如GPT4、Claude、Mistral、Cohere、Gemini在以下各个领域进行了测试：

这里有一份详细的市场上最佳的6-7个LLM模型的细致分析，它们的优势和最佳使用案例：

“大型机器”级别的模型

GPT-4 Turbo
主力模型。在价格/性能/延迟方面仍然是最好的全能模型。我使用GPT-4是因为它在以下方面可靠：

在使用Opus之后，GPT-4已不再是明确的获胜者，但由于其开发者体验的强大，例如助手API、文档、GPT、教程等，它仍然非常强大。它易于使用，在99%的任务中几乎不会失效。价格定为30美元/1M输入令牌，并具有很好的延迟。

Claude-3 Opus
可能是最好的“通用”模型（胜过GPT-4）。Opus只需很少的提示就能产生类似人类的输出。GPT-4可能会非常机械，但是Claude修复了这个问题。

Opus在写作、构思和创造力方面表现出色。对于这类任务，我会选择它。

在编码方面，它与GPT-4相当，但不值得为此将一切都移到API上，因为费用有点太高。

长篇背景、PDF文件、论文：
Opus在这方面表现出色（通过Claude的网站）。它的长篇背景和强大的推理能力使其非常适合分析论文、GitHub存储库和PDF文件。

在全文背景下，它可以在不同领域之间建立联系，并以一种我以前认为在LLM中不可能的方式深入了解主题。唯一的缺点是API成本（15美元/1M输入+70美元/1M输出），使其在生产中难以使用。

Claude-3 Sonnet
一个被低估的模型。虽然不如Opus聪明，但在中等推理和长篇背景方面是一个很好的助手。我使用Sonnet进行长篇内容写作、数据清理、结构化和重组。

它还擅长网络搜索+回答问题（很少产生幻觉）。在GPT-3.5和GPT-4 Turbo之间是一个很好的选择。比Opus和GPT-4更便宜，而且其编码足够好，可以进行自定义代码解释、调试以及其他需要每次执行超过5k个令牌的任务。

Gemini Pro 1.5
我使用过的最强大的模型，纯粹是因为它的广度和创造力。

几乎完美的1M上下文是不可思议的。在我所有的RAG测试中，它的表现优于Opus、Sonnet和GPT-4。

举个例子，我上传了3个视频，并要求返回带有优点、缺点、情感、价格等信息的结构化JSON。它能够区分这3个视频，并返回所有3个视频的数据数组。

它还可以处理视频（无音频），几乎完美地将超过2小时的镜头拆分为每分钟的时间。这是一种极其强大的模型，一旦普遍可用，将改变这个领域。我看到对于这一点，更多的代理工作流程将成为可能。

Mistral大型（以及Mistral中型）
我对Mistral大型模型没有太多印象，因为它的价格较高（24美元/1M输入令牌）。它是一个很好的模型，但不如GPT-4或Opus好，并且不值得这个价格。然而，中型模型在性价比方面非常不错。

中型模型在LMSys评估上得分与大型模型非常相似，就像Sonnet一样，被低估了。它特别适用于函数调用和编码，而且比GPT-4便宜。它在结构化输出方面比Sonnet好得多，具有更简单的API（Claude的工具可能有点混乱）。

缺点是Mistral模型都只有32k的上下文，而Claude有200k。无论如何，中型模型性能稳定。

“穷小子”级别的模型

Cohere Command R
一个非常好的128k背景的GPT-3.5替代品，支持RAG。在长篇召回和输出方面与GPT-3.5和Mistral基本相同的价格下表现更好。

我计划在需要多次迭代和处理大量文本段的长篇“愚蠢任务”中经常使用它。它在将大型PDF文件分块以执行递归摘要时非常出色。

Fireworks和Together Mixtral

我经常使用Mixtral，并且令我惊讶的是，它是目前速度最快，性能略好于GPT-3.5的模型。

特别是在Fireworks中，我获得了将近300令牌/秒的速度。这些模型在函数调用方面表现不佳，但对于大约10-30k上下文摘要+提取非常适用。您可以进行100多次调用，由于其速度（取决于上下文），它们将在<10秒内完成。如果您想要优化价格与性能，我强烈推荐。不过，不要将其用于推理/困难任务。

Groq Mixtral
与Fireworks相同，但速度更快。在API具有更高限制之前，没有其他太多的补充。

概括：

我将在这里结束，但我还有很多关于开发者/产品构建方面（因为我正在尝试优化性能）的补充。不想让这篇文章太长。