Passamos as últimas 2 semanas testando todos os principais modelos como GPT4, Claude, Mistral, Cohere, Gemini em várias áreas como:
- RAG de contexto longo
- Latência
- Raciocínio
- Codificação
- Escrita
Aqui está uma análise detalhada dos 6-7 melhores LLMs do mercado, seus pontos fortes e casos de uso ideais:
Os grandes modelos de classe
GPT-4 Turbo O trabalhador. Ainda é o melhor modelo geral em termos de preço/desempenho/latência. Eu uso o GPT-4 por sua confiabilidade em:
- Ferramentas (manipula esquemas complexos)
- JSONs de saída estruturados
Com o Opus, o GPT-4 já não é mais o vencedor claro, mas ainda é poderoso devido à sua experiência de desenvolvedor, então coisas como API de assistente, documentação, GPTs, tutoriais, etc. É fácil de usar e raramente falha em 99% das tarefas. Também tem um preço razoável de $30/1m tokens de entrada, e tem uma latência decente.
Claude-3 Opus Provavelmente o melhor modelo “generalista” (supera o GPT-4). O Opus requer mínima solicitação para saídas semelhantes às de humano. O GPT-4 pode ser extremamente robótico, mas o Claude resolve isso.
O Opus se destaca em escrita, idealização e criatividade em geral. Eu o escolheria em vez de qualquer modelo para esse tipo de tarefa.
Para codificação, ele está em pé de igualdade com o GPT-4, mas não vale a pena trocar tudo na API porque ele é um pouco caro.
Contexto longo, PDFs, Artigos: O Opus se destaca aqui (via site do Claude). Seu contexto de 200k e seu ótimo raciocínio o tornam perfeito para analisar artigos, repositórios do GitHub e PDFs.
Com o contexto completo, ele estabelece conexões entre diferentes áreas e compreende os tópicos de maneiras que eu não achava possível com LLMs. A única desvantagem é o custo da API ($15/1m de entrada + $70/1m de saída), tornando difícil seu uso em produção.
Claude-3 Sonnet Um modelo subestimado. Não é tão inteligente quanto o Opus, mas é um grande apoio para raciocínio de nível médio e contexto longo. Eu uso o Sonnet para redação de conteúdo de longo formato, limpeza de dados, estruturação e reestruturação.
Ele também é bom em pesquisa na web + respostas (raramente alucina). Uma ótima opção entre o GPT-3.5 e o GPT-4 Turbo. Mais barato que o Opus e o GPT-4, e sua codificação é boa o suficiente para interpretação de código DIY, depuração e outras tarefas que normalmente precisam de mais de 5k tokens por execução.
Gemini Pro 1.5 O modelo mais poderoso que já usei, puramente pela sua amplitude de habilidades e o quão criativo você pode ser com ele.
O contexto de 1m com quase perfeita recordação é incrível. Ele supera o Opus, Sonnet e GPT-4 em todos os meus testes de RAG.
Em um exemplo, eu enviei 3 vídeos e pedi para retornar JSONs estruturados com prós, contras, sentimento, preço (e alguns outros campos). Ele foi capaz de distinguir entre os 3 vídeos e retornou um conjunto de dados para cada um.
Ele também pode processar vídeos (sem áudio) e dividir mais de 2 horas de filmagem por minuto de forma quase perfeita. Um modelo extremamente poderoso que mudará o mercado assim que estiver disponível em geral. Vejo mais fluxos de trabalho de agentes se tornando possíveis com isso.
Mistral Large (e Mistral Medium) Não fiquei muito impressionado com o Mistral Large devido ao seu preço ($24/1m tokens de entrada). É um ótimo modelo, mas não é melhor que o GPT-4 ou o Opus, e não vale o preço. No entanto, o Medium é realmente bom em termos de preço/desempenho.
O Medium pontua muito semelhante ao Large nas avaliações do LMSys e, como o Sonnet, é subestimado. Particularmente útil para chamadas de função e codificação, sendo mais barato que o GPT-4. É muito melhor em saídas estruturadas do que o Sonnet, com uma API mais simples (a do Claude pode ser um pouco confusa para ferramentas).
A desvantagem é que os modelos Mistral têm apenas 32k de contexto, enquanto o Claude tem 200k. De qualquer forma, o Medium é sólido.
Os modelos da classe “Rapaz Pobre”
Cohere Command R Uma alternativa muito boa com contexto de 128k ao GPT-3.5 que suporta RAG imediatamente. É melhor em recuperação e saída de formato longo, com praticamente o mesmo preço do GPT-3.5 e do Mistral.
Estou planejando usá-lo bastante para tarefas “burras” de formato longo que requerem múltiplas iterações e manipulação de grandes trechos de texto. É bastante útil como uma divisão para grandes PDFs para realizar resumos recursivos.
Fireworks e Together Mixtral
Tenho usado o Mixtral bastante e, para minha surpresa, ele é o modelo mais rápido disponível e com desempenho um pouco melhor do que o GPT-3.5
Especialmente no caso do Fireworks, estou obtendo quase 300 tok/s. Estes modelos não são ótimos para chamadas de função, mas são perfeitos para resumos e extrações de ~10-30k de contexto. Você pode fazer mais de 100 chamadas, e elas terminarão em <10s devido à sua velocidade (dependendo do contexto). Recomendo fortemente se você busca otimizar o preço em relação ao desempenho. No entanto, não os use para raciocínio ou tarefas difíceis.
Groq Mixtral Mesma situação que o Fireworks, mas ainda mais rápido. Não há muito mais a acrescentar até que sua API tenha limites mais altos.
TL;DR:
- Opus para escrita criativa e análise e planejamento de pesquisa (codificação se você puder pagar)
- GPT-4 Turbo para chamadas de função, codificação (mais barato) e saídas estruturadas que requerem raciocínio
- Sonnet para cargas de trabalho mais pesadas que envolvem contexto longo e raciocínio médio
- Mistral Medium para uma ferramenta intermediária entre o GPT-3.5 e o GPT-4
- Gemini 1.5 (eu substituiria muito, mas não é utilizável para uso público)
- Mixtral (Fireworks, Groq, etc.): para chamadas LLM ultrarrápidas para tarefas relativamente básicas
- Command R: Ótimo para cargas de trabalho baratas otimizadas para RAG. Ele se sai bem com 50-100k tokens e respondendo com base nisso (supera o GPT-3.5 e o Mixtral)
Encerro por aqui, mas tenho muito mais a acrescentar no lado do desenvolvimento/criação de produtos (pois estou tentando otimizar o desempenho). Não queria tornar isso muito longo.