我们在过去的两周里对所有顶尖模型,如GPT4、Claude、Mistral、Cohere、Gemini在以下各个领域进行了测试:
长篇背景RAG 延迟 推理 编码 写作 这里有一份详细的市场上最佳的6-7个LLM模型的细致分析,它们的优势和最佳使用案例:
“大型机器”级别的模型
GPT-4 Turbo
主力模型。在价格/性能/延迟方面仍然是最好的全能模型。我使用GPT-4是因为它在以下方面可靠:
工具(处理复杂模式) 结构化的输出JSON 在使用Opus之后,GPT-4已不再是明确的获胜者,但由于其开发者体验的强大,例如助手API、文档、GPT、教程等,它仍然非常强大。 它易于使用,在99%的任务中几乎不会失效。价格定为30美元/1M输入令牌,并具有很好的延迟。
Claude-3 Opus
可能是最好的“通用”模型(胜过GPT-4)。Opus只需很少的提示就能产生类似人类的输出。GPT-4可能会非常机械,但是Claude修复了这个问题。
Opus在写作、构思和创造力方面表现出色。对于这类任务,我会选择它。
在编码方面,它与GPT-4相当,但不值得为此将一切都移到API上,因为费用有点太高。
长篇背景、PDF文件、论文:
Opus在这方面表现出色(通过Claude的网站)。它的长篇背景和强大的推理能力使其非常适合分析论文、GitHub存储库和PDF文件。
在全文背景下,它可以在不同领域之间建立联系,并以一种我以前认为在LLM中不可能的方式深入了解主题。唯一的缺点是API成本(15美元/1M输入+70美元/1M输出),使其在生产中难以使用。
Claude-3 Sonnet
一个被低估的模型。虽然不如Opus聪明,但在中等推理和长篇背景方面是一个很好的助手。我使用Sonnet进行长篇内容写作、数据清理、结构化和重组。
它还擅长网络搜索+回答问题(很少产生幻觉)。在GPT-3.5和GPT-4 Turbo之间是一个很好的选择。比Opus和GPT-4更便宜,而且其编码足够好,可以进行自定义代码解释、调试以及其他需要每次执行超过5k个令牌的任务。
Gemini Pro 1.5
我使用过的最强大的模型,纯粹是因为它的广度和创造力。
几乎完美的1M上下文是不可思议的。在我所有的RAG测试中,它的表现优于Opus、Sonnet和GPT-4。
举个例子,我上传了3个视频,并要求返回带有优点、缺点、情感、价格等信息的结构化JSON。它能够区分这3个视频,并返回所有3个视频的数据数组。
它还可以处理视频(无音频),几乎完美地将超过2小时的镜头拆分为每分钟的时间。这是一种极其强大的模型,一旦普遍可用,将改变这个领域。我看到对于这一点,更多的代理工作流程将成为可能。
Mistral大型(以及Mistral中型)
我对Mistral大型模型没有太多印象,因为它的价格较高(24美元/1M输入令牌)。它是一个很好的模型,但不如GPT-4或Opus好,并且不值得这个价格。然而,中型模型在性价比方面非常不错。
中型模型在LMSys评估上得分与大型模型非常相似,就像Sonnet一样,被低估了。它特别适用于函数调用和编码,而且比GPT-4便宜。它在结构化输出方面比Sonnet好得多,具有更简单的API(Claude的工具可能有点混乱)。
缺点是Mistral模型都只有32k的上下文,而Claude有200k。无论如何,中型模型性能稳定。
“穷小子”级别的模型
Cohere Command R
一个非常好的128k背景的GPT-3.5替代品,支持RAG。在长篇召回和输出方面与GPT-3.5和Mistral基本相同的价格下表现更好。
我计划在需要多次迭代和处理大量文本段的长篇“愚蠢任务”中经常使用它。它在将大型PDF文件分块以执行递归摘要时非常出色。
Fireworks和Together Mixtral
我经常使用Mixtral,并且令我惊讶的是,它是目前速度最快,性能略好于GPT-3.5的模型。
特别是在Fireworks中,我获得了将近300令牌/秒的速度。这些模型在函数调用方面表现不佳,但对于大约10-30k上下文摘要+提取非常适用。您可以进行100多次调用,由于其速度(取决于上下文),它们将在<10秒内完成。如果您想要优化价格与性能,我强烈推荐。不过,不要将其用于推理/困难任务。
Groq Mixtral
与Fireworks相同,但速度更快。在API具有更高限制之前,没有其他太多的补充。
概括:
Opus适用于创意写作和研究分析与规划(如果您负担得起的话还包括编码) GPT-4 Turbo适用于函数调用,编码(更便宜)以及需要推理的结构化输出 Sonnet适用于涉及长篇背景和中度推理的较重工作负载 Mistral中型适用于“介于GPT-3.5和GPT-4之间”的工具调用 Gemini 1.5(我会进行很多交换,但不能用于公开使用) Mixtral(Fireworks、Groq等):用于相对基本任务的快速LLM调用 Command R:非常适合廉价的、以RAG为优化的工作负载。在50-100k标记上表现良好,并基于此进行答案(优于GPT-3.5和Mixtral) 我将在这里结束,但我还有很多关于开发者/产品构建方面(因为我正在尝试优化性能)的补充。不想让这篇文章太长。