قضينا الأسابيع الأخيرة في اختبار جميع النماذج الأفضل مثل GPT4 و Claude و Mistral و Cohere و Gemini في مجالات مختلفة مثل:

  • سياق طويل RAG
  • الكفاءة العالية
  • الاستنتاج
  • الترميز
  • الكتابة

فيما يلي تفصيل مفصل لأفضل 6-7 نماذج LLMs الموجودة في السوق وقوتها وحالات استخدامها الأمثل:

نماذج الفئة الكبيرة

GPT-4 Turbo العامل الرئيسي. لا يزال أفضل نموذج شامل من حيث الأداء / السعر / الكفاءة العالية. أستخدم GPT-4 لموثوقيته في:

  • الأدوات (يتعامل مع مخططات معقدة)
  • مخارج JSON منظمة

مع Opus، لم يعد GPT-4 الفائز الواضح بعد الآن، لكنه لا يزال قويًا بسبب تجربة المطور معه، مثل واجهة برمجة تطبيقات مساعد، وثائق، وGPTs، وبرامج تعليمية، إلخ. إنه سهل الاستخدام ونادرًا ما يفشل في 99٪ من المهام. كما أنه يتم تسعيره بشكل محترم بقيمة 30 دولارًا مقابل 1 مليون وحدة من الرموز المدخلة ويعاني من تأخير معقول.

Claude-3 Opus ربما يكون أفضل نموذج “عام” (يفوز على GPT-4). يتطلب Opus تشجيعًا دقيقًا لتحقيق مخرجات تشبه البشر. يمكن أن يكون GPT-4 آليًا للغاية، لكن Claude يصحح هذا.

تتفوق Opus في الكتابة والإبداع العام. سأختاره على أي نموذج آخر في مثل هذه المهام.

بالنسبة للترميز، يكون على قدم المساواة مع GPT-4 ولكن ليس جديرًا بتبديل كل شيء في واجهة برمجة التطبيقات بسبب كلفته العالية قليلاً.

سياق طويل وملفات PDF وأوراق بحثية: يتألق Opus هنا (عبر موقع Claude). سياقه البالغ 200 ألف وقدرته الرائعة على التفكير يجعله مثاليًا لتحليل الأوراق البحثية ومستودعات GitHub وملفات PDF.

مع السياق الكامل، يقوم بشكل أفضل في ربط مختلف المجالات ويفهم الموضوعات بعمق بطرق لم أكن أتخيل وجودها في نماذج LLMs. الجانب الوحيد السلبي هو تكلفة واجهة برمجة التطبيقات (15 دولارًا مقابل 1 مليون وحدة من الرموز المدخلة + 70 دولارًا مقابل 1 مليون وحدة من الرموز المخرجة)، مما يجعل من الصعب استخدامه في الإنتاج.

Claude-3 Sonnet نموذج غير مقدر بقدر قدره. ليس ذكيًا مثل Opus ولكنه يقوم بعمل جيد للغاية في التفكير المتوسط ​​والسياق الطويل. أستخدم Sonnet للكتابة الطويلة وتنظيف البيانات وتهيئتها وإعادة هيكلتها.

كما أنه جيد في البحث عبر الويب والإجابة (نادرًا ما يتخيل). خيار رائع بين GPT-3.5 و GPT-4 Turbo. أرخص من Opus و GPT-4، وترميزه جيد بما فيه الكفاية لتفسير الشفرة وتصحيح الأخطاء وغيرها من المهام التي تحتاج بشكل متكرر إلى أكثر من 5 آلاف رمز في التنفيذ.

Gemini Pro 1.5 أقوى نموذج قد استخدمته من حيث واسعة القدرة والإبداع.

يتميز بالسياق البالغ 1 مليون وأداء مثالي تقريبًا. يتفوق على Opus و Sonnet و GPT-4 في اختبارات RAG لدي.

في مثال واحد، قمت بتحميل 3 مقاطع فيديو وطلبت JSONs منظمة بالإيجابيات والسلبيات والشعور والسعر (وبعض الحقول الأخرى). كان قادرًا على التمييز بين الفيديوهين الثلاثة وإعادة أرجاع مجموعة من البيانات للجميع.

يمكنه أيضًا معالجة مقاطع الفيديو (بدون صوت) وتفكيك أكثر من 2 ساعة من المشاهد بالدقيقة تقريبًا بشكل مثالي. نموذج قوي للغاية سيغير المجال بمجرد توفره عمومًا. أرى أن المزيد من سير العمل للوكالات يصبح ممكنًا بهذا النموذج.

Mistral Large (و Mistral Medium) لم أكن معجبًا كثيرًا بـ Mistral Large بسبب السعر (24 دولارًا مقابل 1 مليون وحدة من الرموز المدخلة). إنه نموذج رائع ولكنه ليس أفضل من GPT-4 أو Opus، ولا يستحق السعر. ومع ذلك، فإن النموذج Medium على الواقع جيد جدًا من حيث الأداء / السعر.

يقدم Medium درجات مشابهة جدًا لـ Large في تقييمات LMSys ومثل Sonnet، فهو نموذج غير مقدر بقدره. مفيد بشكل خاص لاستدعاء الوظيفة والترميز بينما يكون أرخص من GPT-4. إنه أفضل بكثير في الإخراجات المنظمة من Sonnet، مع واجهة برمجة تطبيقات أبسط (يمكن أن يكون واجهة Claude مقلقة بعض الشيء للأدوات).

السلبية هي أن نماذج Mistral كلها سياقها 32 ألف وحدة من الرموز، بينما يتم تمثيل Claude بـ 200 ألف وحدة من الرموز. على أي حال، فإن النموذج المتوسط ​​جيد.

نماذج الفئة الرخيصة

Cohere Command R بديل جيد جدًا لـ GPT-3.5 ، يدعم RAG من خلال الصندوق. أفضل في استرداد النص الطويل + الإخراج بنفس سعر GPT-3.5 و Mistral.

أنوي استخدامه كثيرًا للمهام الطويلة “غير الذكية” التي تتطلب تكرارًا متعددًا ومعالجة أجزاء كبيرة من النص. يعمل بشكل جيد جداً كقاطع لمستندات PDF الكبيرة لعمل ملخصات متكررة.

Fireworks وTogether Mixtral لقد استخدمت Mixtral كثيرًا، ولمفاجأتي، إنه النموذج الأسرع المتاح وأداءه أفضل من GPT-3.5 قليلاً.

خاصة من Fireworks، آخذ ما يقرب من 300 tok/s. هذه النماذج ليست رائعة في استدعاء الوظائف ولكنها مثالية للملخصات القصيرة المحتوى الطول بين 10-30 ألف وحدة من السياق + استخراج البيانات. يمكنك إجراء أكثر من 100 استدعاء وسينتهي في أقل من 10 ثوانٍ بسبب سرعتها (تعتمد على السياق). أنصحك بشدة بها إذا كنت تبحث عن تحقيق التوازن بين السعر والأداء. لا تستخدمها للتفكير / المهام الصعبة على الرغم من ذلك.

Groq Mixtral نفس الفكرة مثل Fireworks ولكن أسرع. لا توجد الكثير من التفاصيل حتى تزيد حدود واجهة برمجة التطبيقات الخاصة بهم.

TLDR:

  • اختر Opus للكتابة الإبداعية وتحليل الأبحاث والتخطيط (الترميز إذا كان بإمكانك تحمل التكلفة)
  • اختر GPT-4 Turbo لاستدعاء الوظائف والترميز (بأسعار أرخص) ومخرجات منظمة تتطلب استنتاجًا
  • اختر Sonnet للأعباء العالية التي تنطوي على سياق طويل واستنتاج متوسط ​​المستوى
  • اختر Mistral Medium لأداة بين GPT-3.5 و GPT-4
  • Gemini 1.5 (لكنه ليس صالحًا للاستخدام العام)
  • Mixtral (مثل Fireworks و Groq): لاستدعاءات LLMs سريعة للمهام الأساسية نسبيًا
  • Command R: رائعة للأعباء العملية بأسعار معقولة. يعمل بشكل جيد مع 50-100 ألف وحدة من الرموز ويمكن الإجابة على أساسها (يفوق GPT-3.5 و Mixtral)

هنا ينتهي الموضوع، ولكن لدي الكثير لإضافته فيما يتعلق بالتطوير / بناء المنتجات (نظرًا لأنني أحاول تحسين الأداء). لم أرغب في جعل هذا طويلاً.