Мы провели последние 2 недели, тестируя все топовые модели, такие как GPT4, Claude, Mistral, Cohere, Gemini, в различных областях, таких как:
- Длинный контекст RAG
- Задержка
- Рассуждение
- Кодирование
- Письмо
Вот подробный обзор 6-7 лучших LLM на рынке, их преимущества и оптимальные сценарии использования:
Модели класса “Big Boy”
GPT-4 Turbo
Рабочая лошадка. По-прежнему лучшая модель с точки зрения соотношения цена/качество/задержка. Я использую GPT-4 из-за его надежности в:
- Инструментах (обрабатывает сложные схемы)
- Структурированных выходных данных JSON
С появлением Opus, GPT-4 уже не является явным победителем, но он по-прежнему мощный благодаря своему пользовательскому опыту, таким как API-помощник, документация, GPT и учебные пособия и т. д. Он прост в использовании и редко отказывается выполнять 99% задач. Его стоимость тоже приемлема: $30 за 1 млн входных токенов, и у него разумная задержка.
Claude-3 Opus
Вероятно, лучшая “универсальная” модель (превосходит GPT-4). Opus требует минимального подсказывания для получения похожих на людей результатов. GPT-4 может быть слишком роботичным, но Claude исправляет это.
Opus превосходит в написании, создании и общей креативности. Я бы выбрал его перед любой моделью для таких задач.
Для кодирования он сопоставим с GPT-4, но не стоит менять все API из-за его высокой стоимости.
Длинный контекст, PDF, статьи:
Opus сияет здесь (через сайт Claude). Его контекст в 200 тыс. токенов и отличные рассуждения делают его идеальным для анализа статей, репозиториев GitHub и PDF-файлов.
С полным контекстом он устанавливает связи между различными областями и глубоко понимает темы способом, который я даже и не предполагал возможным при использовании LLM. Единственным минусом является стоимость API ($15 за 1 млн входных токенов + $70 за 1 млн выходных токенов), что затрудняет его использование в производстве.
Claude-3 Sonnet
Недооцененная модель. Она не такая умная, как Opus, но отлично подходит для рассуждений среднего уровня и длинного контекста. Я использую Sonnet для написания контента большого объема, очистки данных, структурирования и перестройки.
Он также хорош в поиске веб-сайтов и ответах (редко галлюцинирует). Отличный вариант между GPT-3.5 и GPT-4 Turbo. Дешевле, чем Opus и GPT-4, и его кодирование достаточно хорошо для интерпретации и отладки кода, а также для других задач, для выполнения которых обычно требуется более 5 тыс. токенов на выполнение.
Gemini Pro 1.5
Самая мощная модель, которую я использовал, благодаря ее широте возможностей и творческому подходу.
Контеkст в 1 млн токенов с практически идеальным воспоминанием – это нереально. Он превосходит Opus, Sonnet и GPT-4 во всех моих тестах RAG.
В одном примере я загрузил 3 видео и попросил структурированные JSON-ы с плюсами, минусами, настроением, ценой (и несколькими другими полями). Он смог различить эти 3 видео и вернул массив данных для всех трех.
Он также может обрабатывать видео (без звука) и практически идеально разбивать более 2 часов материала на минуты. Это чрезвычайно мощная модель, которая изменит эту сферу, как только она станет доступной. Я вижу бóльшие возможности с ее помощью в рабочих процессах.
Mistral Large (и Mistral Medium)
Я не слишком впечатлен Mistral Large из-за его стоимости ($24 за 1 млн входных токенов). Это хорошая модель, но она не лучше GPT-4 или Opus и не стоит своей цены. Однако Mistral Medium на самом деле довольно хорош по соотношению цена/качество.
Medium имеет очень похожие показатели по оценкам LMSys, и, как и Sonnet, ее недооценивают. Она особенно полезна для вызова функций и создания кода, при этом она дешевле, чем GPT-4. Она лучше подходит для структурированных выходных данных, чем Sonnet, и имеет более простое API (API Claude может быть немного запутанным для инструментов).
Недостатком Mistral моделей является то, что они все имеют контекст в 32 тыс. токенов, в то время как Claude имеет 200 тыс. Каким бы то ни было, Medium - это надежная модель.
Модели класса “Broke Boy”
Cohere Command R
Очень хорошая альтернатива GPT-3.5 с контекстом в 128 тыс. токенов, поддерживающая RAG «из коробки». Она лучше всего подходит для получения длинных результатов и выдачи документов при той же стоимости, что и GPT-3.5 и Mistral.
Я намереваюсь использовать ее наиболее активно для выполнения длительных «глупых задач», требующих нескольких итераций и обработки больших фрагментов текста. Она неплохо справляется с разделением больших PDF-файлов на части для создания рекурсивных сводок.
Mixtral Fireworks и Together
Я довольно часто использую Mixtral и, к моему удивлению, это самая быстрая доступная модель с результатами немного лучше, чем у GPT-3.5.
Особенно в случае Fireworks я получаю почти 300 токенов в секунду. Эти модели не очень хороши в вызове функций, но они идеально подходят для сводок и извлечений в контексте примерно от 10 до 30 тыс. токенов. Вы можете сделать более 100 вызовов, и они завершатся менее чем за 10 секунд из-за их скорости (зависит от контекста). Очень рекомендую, если вы хотите оптимизировать цена/качество. Однако не используйте их для рассуждений и сложных задач.
Groq Mixtral
То же самое, что и Fireworks, но еще быстрее. Пока их API не имеет более высоких лимитов, много добавить нечего.
TLDR (Пояснения к прощальной части):
- Opus для творческого письма, анализа и планирования исследований (кодирование, если позволяют финансы)
- GPT-4 Turbo для вызова функций, кодирования (дешевле) и структурированных выходных данных, требующих рассуждений
- Sonnet для более сложных задач с длинным контекстом и средним уровнем рассуждений
- Mistral Medium для использования инструментов, находящихся между GPT-3.5 и GPT-4
- Gemini 1.5 (Я бы заменил многое, но она не может использоваться публично)
- Mixtral (Fireworks, Groq и т. д.): Для мгновенных вызовов LLM в относительно простых задачах
- Command R: Отлично подходит для недорогих задач, оптимизированных для RAG. Хорошо себя показывает с 50-100 тыс. токенов и ответами на основе них (превосходит GPT-3.5 и Mixtral)
Я завершу здесь, но у меня есть еще многое, что можно добавить по стороне разработчика/создания продукта (поскольку я пытаюсь оптимизировать производительность). Не хотел делать этот текст слишком длинным.