Мы провели последние 2 недели, тестируя все топовые модели, такие как GPT4, Claude, Mistral, Cohere, Gemini, в различных областях, таких как:

  • Длинный контекст RAG
  • Задержка
  • Рассуждение
  • Кодирование
  • Письмо

Вот подробный обзор 6-7 лучших LLM на рынке, их преимущества и оптимальные сценарии использования:

Модели класса “Big Boy”

GPT-4 Turbo
Рабочая лошадка. По-прежнему лучшая модель с точки зрения соотношения цена/качество/задержка. Я использую GPT-4 из-за его надежности в:

  • Инструментах (обрабатывает сложные схемы)
  • Структурированных выходных данных JSON

С появлением Opus, GPT-4 уже не является явным победителем, но он по-прежнему мощный благодаря своему пользовательскому опыту, таким как API-помощник, документация, GPT и учебные пособия и т. д. Он прост в использовании и редко отказывается выполнять 99% задач. Его стоимость тоже приемлема: $30 за 1 млн входных токенов, и у него разумная задержка.

Claude-3 Opus
Вероятно, лучшая “универсальная” модель (превосходит GPT-4). Opus требует минимального подсказывания для получения похожих на людей результатов. GPT-4 может быть слишком роботичным, но Claude исправляет это.

Opus превосходит в написании, создании и общей креативности. Я бы выбрал его перед любой моделью для таких задач.

Для кодирования он сопоставим с GPT-4, но не стоит менять все API из-за его высокой стоимости.

Длинный контекст, PDF, статьи:
Opus сияет здесь (через сайт Claude). Его контекст в 200 тыс. токенов и отличные рассуждения делают его идеальным для анализа статей, репозиториев GitHub и PDF-файлов.

С полным контекстом он устанавливает связи между различными областями и глубоко понимает темы способом, который я даже и не предполагал возможным при использовании LLM. Единственным минусом является стоимость API ($15 за 1 млн входных токенов + $70 за 1 млн выходных токенов), что затрудняет его использование в производстве.

Claude-3 Sonnet
Недооцененная модель. Она не такая умная, как Opus, но отлично подходит для рассуждений среднего уровня и длинного контекста. Я использую Sonnet для написания контента большого объема, очистки данных, структурирования и перестройки.

Он также хорош в поиске веб-сайтов и ответах (редко галлюцинирует). Отличный вариант между GPT-3.5 и GPT-4 Turbo. Дешевле, чем Opus и GPT-4, и его кодирование достаточно хорошо для интерпретации и отладки кода, а также для других задач, для выполнения которых обычно требуется более 5 тыс. токенов на выполнение.

Gemini Pro 1.5
Самая мощная модель, которую я использовал, благодаря ее широте возможностей и творческому подходу.

Контеkст в 1 млн токенов с практически идеальным воспоминанием – это нереально. Он превосходит Opus, Sonnet и GPT-4 во всех моих тестах RAG.

В одном примере я загрузил 3 видео и попросил структурированные JSON-ы с плюсами, минусами, настроением, ценой (и несколькими другими полями). Он смог различить эти 3 видео и вернул массив данных для всех трех.

Он также может обрабатывать видео (без звука) и практически идеально разбивать более 2 часов материала на минуты. Это чрезвычайно мощная модель, которая изменит эту сферу, как только она станет доступной. Я вижу бóльшие возможности с ее помощью в рабочих процессах.

Mistral Large (и Mistral Medium)
Я не слишком впечатлен Mistral Large из-за его стоимости ($24 за 1 млн входных токенов). Это хорошая модель, но она не лучше GPT-4 или Opus и не стоит своей цены. Однако Mistral Medium на самом деле довольно хорош по соотношению цена/качество.

Medium имеет очень похожие показатели по оценкам LMSys, и, как и Sonnet, ее недооценивают. Она особенно полезна для вызова функций и создания кода, при этом она дешевле, чем GPT-4. Она лучше подходит для структурированных выходных данных, чем Sonnet, и имеет более простое API (API Claude может быть немного запутанным для инструментов).

Недостатком Mistral моделей является то, что они все имеют контекст в 32 тыс. токенов, в то время как Claude имеет 200 тыс. Каким бы то ни было, Medium - это надежная модель.

Модели класса “Broke Boy”

Cohere Command R
Очень хорошая альтернатива GPT-3.5 с контекстом в 128 тыс. токенов, поддерживающая RAG «из коробки». Она лучше всего подходит для получения длинных результатов и выдачи документов при той же стоимости, что и GPT-3.5 и Mistral.

Я намереваюсь использовать ее наиболее активно для выполнения длительных «глупых задач», требующих нескольких итераций и обработки больших фрагментов текста. Она неплохо справляется с разделением больших PDF-файлов на части для создания рекурсивных сводок.

Mixtral Fireworks и Together

Я довольно часто использую Mixtral и, к моему удивлению, это самая быстрая доступная модель с результатами немного лучше, чем у GPT-3.5.

Особенно в случае Fireworks я получаю почти 300 токенов в секунду. Эти модели не очень хороши в вызове функций, но они идеально подходят для сводок и извлечений в контексте примерно от 10 до 30 тыс. токенов. Вы можете сделать более 100 вызовов, и они завершатся менее чем за 10 секунд из-за их скорости (зависит от контекста). Очень рекомендую, если вы хотите оптимизировать цена/качество. Однако не используйте их для рассуждений и сложных задач.

Groq Mixtral
То же самое, что и Fireworks, но еще быстрее. Пока их API не имеет более высоких лимитов, много добавить нечего.

TLDR (Пояснения к прощальной части):

  • Opus для творческого письма, анализа и планирования исследований (кодирование, если позволяют финансы)
  • GPT-4 Turbo для вызова функций, кодирования (дешевле) и структурированных выходных данных, требующих рассуждений
  • Sonnet для более сложных задач с длинным контекстом и средним уровнем рассуждений
  • Mistral Medium для использования инструментов, находящихся между GPT-3.5 и GPT-4
  • Gemini 1.5 (Я бы заменил многое, но она не может использоваться публично)
  • Mixtral (Fireworks, Groq и т. д.): Для мгновенных вызовов LLM в относительно простых задачах
  • Command R: Отлично подходит для недорогих задач, оптимизированных для RAG. Хорошо себя показывает с 50-100 тыс. токенов и ответами на основе них (превосходит GPT-3.5 и Mixtral)

Я завершу здесь, но у меня есть еще многое, что можно добавить по стороне разработчика/создания продукта (поскольку я пытаюсь оптимизировать производительность). Не хотел делать этот текст слишком длинным.