Pasamos las últimas 2 semanas probando todos los modelos principales como GPT4, Claude, Mistral, Cohere, Gemini en diversas áreas como:

  • Contexto largo RAG
  • Latencia
  • Razonamiento
  • Código
  • Escritura

Aquí tienes un detalle exhaustivo de los 6-7 mejores LLM disponibles en el mercado, sus fortalezas y los casos de uso óptimos:

Modelos de la clase “Big Boy”

GPT-4 Turbo
El más trabajador. Aún el mejor modelo en general en términos de relación precio/rendimiento/latencia. Utilizo GPT-4 por su confiabilidad en:

  • Herramientas (maneja esquemas complejos)
  • JSONs de salida estructurados

Con Opus, GPT-4 ya no es el claro ganador, pero sigue siendo potente gracias a su experiencia para desarrolladores, así como herramientas como la API de asistente, documentación, GPTs, tutoriales, etc.
Es fácil de usar y rara vez falla en el 99% de las tareas. También tiene un precio razonable de $30/1m tokens de entrada y una latencia decente.

Claude-3 Opus
Probablemente el mejor modelo “generalista” (supera a GPT-4). Opus requiere una cantidad mínima de estímulo para obtener salidas naturales similares a las de los seres humanos. GPT-4 puede ser extremadamente robótico, pero Claude soluciona esto.

Opus destaca en la escritura, generación de ideas y creatividad en general. Elegiría este modelo por encima de cualquier otro para este tipo de tareas.

En cuanto a programación, está al mismo nivel que GPT-4 pero no vale la pena reemplazar todo en la API debido a que es un poco caro.

Contexto largo, PDFs, documentos:
Opus brilla en este aspecto (a través del sitio de Claude). Su contexto de 200k y su gran capacidad para el razonamiento lo convierten en la opción perfecta para analizar documentos, repositorios de GitHub y PDFs.

Con un contexto completo, establece conexiones entre diferentes áreas y comprende los temas de formas que no creía posible con LLMs. El único inconveniente es el costo de la API ($15/1m tokens de entrada + $70/1m tokens de salida), lo que dificulta su uso en producción.

Claude-3 Sonnet
Un modelo subestimado. No es tan inteligente como Opus, pero es muy efectivo para un razonamiento de nivel medio y un contexto largo. Utilizo Sonnet para redacción de contenido extenso, limpieza y estructuración de datos y reorganización.

También es bueno para búsquedas en la web y respuestas (rara vez alucina). Es una excelente opción entre GPT-3.5 y GPT-4 Turbo. Es más barato que Opus y GPT-4, y su programación es lo suficientemente buena para interpretar y depurar código por cuenta propia, así como para otras tareas que rutinariamente requieren más de 5k tokens por ejecución.

Gemini Pro 1.5
El modelo más potente que he utilizado, especialmente por su amplia capacidad y la creatividad que permite.

El contexto de 1 millón de tokens con un recuerdo casi perfecto es impresionante. Supera a Opus, Sonnet y GPT-4 en todas mis pruebas RAG.

En un ejemplo, cargué 3 videos y solicité JSON estructurados con pros, contras, sentimientos, precio (y otros campos). Fue capaz de distinguir entre los 3 videos y devolvió un array de datos para cada uno.

También puede procesar videos (sin audio) y descomponer más de 2 horas de material en partes de aproximadamente 1 minuto de forma casi perfecta. Un modelo extremadamente potente que cambiará este ámbito una vez que esté disponible para el público en general. Veo más flujo de trabajo de agentes posibles con esto.

Mistral Large (y Mistral Medium)
No me ha impresionado mucho Mistral Large debido a su precio ($24/1m tokens de entrada). Es un gran modelo, pero no es mejor que GPT-4 u Opus, por lo que no vale la pena el precio. Sin embargo, Medium es bastante bueno en términos de relación precio/rendimiento.

Medium es muy similar a Large en las evaluaciones de LMSys y al igual que Sonnet, es subestimado. Es especialmente útil para realizar llamadas a funciones y programación, y es más barato que GPT-4. Es mucho mejor en la generación de salidas estructuradas que Sonnet, y su API es más sencilla (a veces la de Claude puede ser un poco confusa en cuanto a las herramientas).

El inconveniente es que los modelos de Mistral tienen 32k de contexto, mientras que Claude tiene 200k. De todas formas, Medium es sólido.

Modelos de la clase “Broke Boy”

Cohere Command R
Una alternativa muy buena con un contexto de 128k a GPT-3.5 que admite RAG por defecto. Es mejor en cuanto a recuperación de largo formato y producción a prácticamente el mismo precio que GPT-3.5 y Mistral.

Planeo usarlo mucho para tareas de “poca inteligencia” que requieren varias iteraciones y manejo de grandes fragmentos de texto. Es bastante útil para dividir grandes PDF en resúmenes recursivos.

Fireworks y Mixtral Together

He estado utilizando Mixtral bastante y, para mi sorpresa, es el modelo más rápido disponible con un rendimiento ligeramente mejor que GPT-3.5.

Especialmente con Fireworks, obtengo casi 300 tok/s. Estos modelos no son muy buenos para llamadas a funciones, pero son perfectos para resúmenes y extracciones con contextos de ~10-30k. Puedes hacer más de 100 llamadas y terminarán en menos de 10 segundos debido a su velocidad (dependiendo del contexto). Los recomiendo si buscas optimizar la relación precio/rendimiento. Sin embargo, no los uses para razonamiento o tareas difíciles.

Groq Mixtral
Igual que Fireworks, pero incluso más rápido. No hay mucho más que agregar hasta que su API tenga límites más altos.

TL;DR:

  • Opus para escritura creativa, análisis e investigación y planificación (programación si puedes pagarlo)
  • GPT-4 Turbo para llamadas a funciones, programación (más económico) y salidas estructuradas que requieren razonamiento
  • Sonnet para cargas de trabajo más pesadas que involucran contexto largo y razonamiento medio
  • Mistral Medium para una herramienta intermedia entre GPT-3.5 y GPT-4
  • Gemini 1.5 (Realizaría muchas sustituciones, pero no es utilizable para uso público)
  • Mixtral (Fireworks, Groq, etc.): llamadas LLM ultrarrápidas para tareas relativamente básicas
  • Command R: Ideal para cargas de trabajo económicas optimizadas para RAG. Funciona bien con 50-100k tokens y responder en base a eso (supera a GPT-3.5 y Mixtral)

Aquí termino, pero tengo mucho más que añadir sobre el lado del desarrollo y construcción de productos (ya que intento optimizar el rendimiento). No quería extenderme demasiado.