지난 2주간 우리는 GPT4, Claude, Mistral, Cohere, Gemini과 같은 최고의 모델들을 다양한 영역에서 테스트해 보았습니다:

  • 긴 문맥 RAG
  • 대기시간
  • 추론
  • 코딩
  • 글쓰기

시장에 있는 6-7개의 최고의 LLM에 대한 상세한 분석, 강점 및 최적 사용 사례는 다음과 같습니다:

“대형 보이” 클래스 모델

GPT-4 Turbo 전력품. 가격/성능/대기시간 면에서 여전히 최고의 종합 모델입니다. 제가 GPT-4를 사용하는 이유는 다음과 같은 이유입니다:

  • 도구 (복잡한 스키마 처리)
  • 구조화된 출력 JSONs

Opus와 함께, GPT-4는 더 이상 명확한 우승자는 아니지만, 개발자 경험으로 인해 여전히 강력합니다. 예를 들어, 어시스턴트 API, 문서, GPTs, 튜토리얼 등과 같은 것들입니다. 99%의 작업에 대해 사용하기 쉽고 거의 실패하지 않습니다. 또한, 1m 입력 토큰에 $30의 가격이 기존에 적당합니다.

Claude-3 Opus 아마도 “일반 모델” 중에서도 가장 좋은 모델입니다 (GPT-4에 이깁니다). Opus는 인간과 유사한 결과를 얻기 위해 최소한의 프롬프트가 필요합니다. GPT-4는 극도로 로봇적일 수 있지만, Claude는 이를 개선시켰습니다.

Opus는 글쓰기, 아이디에이션 및 일반적인 창의성에 뛰어납니다. 이러한 유형의 작업에는 어떤 모델보다도 Opus를 선택할 것입니다.

코딩에 있어 GPT-4와 어느 정도 비슷하지만, API를 통해 모든 것을 전환하는 것은 약간 비용이 너무 많이 들기 때문에 그렇게 할 가치가 없습니다.

긴 문맥, PDFs, 논문: Opus는 여기에서 빛나는 모델입니다 (Claude의 사이트로 보면 됩니다). 200k의 문맥과 탁월한 추론력을 갖춘 Opus는 논문, GitHub 리포지토리 및 PDF를 분석하기에 이상적입니다.

전체 문맥을 사용하면 서로 다른 영역 사이의 연결을 만들고, LLMs로는 생각지도 못한 방식으로 주제를 깊이 이해합니다. 유일한 단점은 API 비용 (1m 입력에 $15 + 1m 출력에 $70)으로 인해 제대로 활용하기 어렵다는 것입니다.

Claude-3 Sonnet 저평가된 모델입니다. Opus만큼 똑똑하지는 않지만, 중간 수준의 추론과 긴 문맥 작업에는 좋은 모델입니다. Sonnet은 장문의 내용 작성, 데이터 정리, 구조화 및 재구성에 사용합니다.

또한 웹 검색 및 질문에도 잘 작동합니다 (거의 환각하지 않습니다). GPT-3.5와 GPT-4 Turbo 사이에서 훌륭한 선택입니다. Opus와 GPT-4보다 저렴하며, DIY 코드 해석, 디버깅 및 다른 5k개 이상의 토큰을 필요로 하는 작업에도 충분히 좋습니다.

Gemini Pro 1.5 능력과 창의성의 폭으로 볼 때, 내가 사용한 가장 강력한 모델입니다.

거의 완벽한 회상력을 갖춘 1m 문맥은 믿을 수 없을 정도입니다. Opus, Sonnet 및 GPT-4를 모두 RAG 테스트에서 압도합니다.

3개의 비디오를 업로드하고 장단점, 감정, 가격 등에 대한 구조화된 JSON를 요청했습니다. 그러자 이 모델은 3개의 비디오를 구분하여 모든 3개에 대한 데이터 배열을 반환했습니다.

비디오를 처리할 수도 있으며 (오디오 없음) 거의 완벽하게 2시간 이상의 장면을 분할할 수 있습니다. 이는 일반적으로 사용 가능하게 될 경우 개발자 워크플로가 더 다양해 질 것으로 기대합니다.

Mistral Large (및 Mistral Medium) Mistral Large는 가격($24/1m 입력 토큰) 때문에 크게 감명받지 못했습니다. 훌륭한 모델이지만 GPT-4나 Opus보다 우수하지 않으며, 가격을 감당할 가치가 없습니다. 그러나 Medium은 가격/성능 면에서 꽤 좋습니다.

Medium은 LMSys 평가에서 대략 동일한 점수를 받으며, Sonnet처럼 과소평가되고 있습니다. 함수 호출 및 코딩에 특히 유용하며, GPT-4보다 저렴합니다. 그리고 Sonnet보다 구조적인 출력에 더 적합한 API가 있습니다 (도구를 사용하는데 조금은 어색할 수 있음).

단점은 Mistral 모델은 모두 32k 문맥을 갖추고 있으며, Claude는 200k입니다. 그래도 Medium은 견고합니다.

“가난한 소년” 클래스 모델

Cohere Command R GPT-3.5의 128k 문맥 대안으로 RAG를 기본으로 지원하는 좋은 모델입니다. 긴 형식의 검색 + 출력에 대해 GPT-3.5와 Mistral과 거의 동일한 가격으로 더 좋은 성능을 발휘합니다.

장문의 “멍청한 작업"에 대해 많이 사용할 예정이며, 여러 번의 반복 작업이 필요하고 큰 텍스트 덩어리를 처리하는 데 좋습니다. 대규모 PDF에 대한 재귀적 요약 수행에 대한 처리기로서 꽤 좋습니다.

Fireworks와 Together Mixtral Mixtral을 꽤 많이 사용했고, 놀랍게도 이 모델은 GPT-3.5 성능보다 약간 뛰어난 가장 빠른 모델입니다.

특히 Fireworks에서는 거의 300 tok/s를 얻고 있습니다. 이 모델들은 함수 호출에는 좋지 않지만, 대략 10-30k 문맥의 요약 및 추출에는 완벽합니다. 100회 이상의 호출을 날릴 수 있고, 그들은 속도에 따라 <10초 안에 처리가 완료될 것입니다 (문맥에 따라 다릅니다). 가격 대비 성능을 최적화하려는 경우 강력히 추천합니다. 하지만 추론/어려운 작업에는 사용하지 마십시오.

Groq Mixtral Fireworks와 마찬가지로 더욱 빠릅니다. 더 높은 제한을 가진 API가 제공될 때까지는 그 외에는 크게 차이가 없습니다.

개요:

  • 창의적인 글쓰기와 연구 분석 및 계획을 위해 Opus를 사용하세요 (비용을 감당할 수 있는 경우 코딩).
  • 기능 호출, 코딩 (더 저렴한 가격), 추론이 필요한 구조화된 출력에는 GPT-4 Turbo를 사용하세요.
  • 긴 문맥과 중간 추론이 필요한 무거운 작업에는 Sonnet을 사용하세요.
  • GPT-3.5와 GPT-4 사이에서 “중간 GPT-3.5 및 GPT-4” 툴 호출에는 Mistral Medium을 사용하세요.
  • Gemini 1.5 (많이 교체할 것 같지만 공개적인 사용에 적합하지 않음)
  • Mixtral(Fireworks, Groq 등): 비교적 기본적인 작업에 대한 번개처럼 빠른 LLM 호출에 사용하세요.
  • Command R: 저렴하고, RAG에 최적화된 작업에 적합합니다. 50-100k 토큰 작업 및 그에 따라 답변하는데 성능이 좋습니다 (GPT-3.5 및 Mixtral보다 우수합니다).

여기까지 정리하겠습니다. 성능을 최적화하기 위해 개발자/제품 구축 측면에서 더 많은 내용을 더할 수 있게 되었습니다. 이 글이 너무 길지 않도록 조심했습니다.