Search⌘ K
AI Features

تقييم برامج الدردشة الآلية

تعرّف على كيفية تقييم برامج الدردشة الآلية المدمجة مع أنظمة إدارة التعلم.

مقدمة في تقييم برامج الماجستير في القانون

عند الحديث عن نماذج اللغة الكبيرة، يصبح تقييم الأداء معقدًا نظرًا لتنوع المقاييس المستخدمة. تهدف هذه المقاييس إلى قياس جوانب مختلفة من قدرات نموذج اللغة، مثل المعرفة العامة، والاستدلال المنطقي، والمهارات العملية، وجودة النصوص. يُعد فهم هذه المقاييس ومدى ملاءمتها لحالات الاستخدام المحددة أمرًا أساسيًا لاختيار المقياس المناسب لتقييم نماذج اللغة الكبيرة.

بشكل عام، يمكننا تقسيم المقاييس إلى أربع فئات رئيسية:

  • تقييم المعرفة : يُقيّم هذا المعيار مدى اتساع وعمق معرفة طالب الماجستير في القانون في مختلف المجالات، وقدرته على فهم هذه المعرفة وتطبيقها. لدينا معايير عامة للمعرفة مثل MMLU وTriviaQA، ومعايير أخرى للاستدلال المنطقي مثل HellaSwag وGSM8k. تُعد مكتبة RAGAS، وهي مكتبة Python ، من المكتبات المفيدة بشكل خاص لتقييم طلاب الماجستير في القانون ضمن هذا المعيار. تجمع RAGAS بين التعلم المعزز والنماذج التوليدية لتقييم جودة ودقة المحتوى المُولّد. ويمكن استخدامها لتقييم المعرفة وقدرات الاستدلال المنطقي لدى طالب الماجستير في القانون من خلال توفير إطار عمل لتوليد الإجابات وتقييمها بناءً على مدى ملاءمتها وصحتها.

  • القدرات الوظيفية : يقيس هذا التصنيف القدرات العملية لنموذج التعلم الآلي في مجالات وظيفية محددة، مثل البرمجة وحل المشكلات. ومن أمثلة هذا التصنيف معايير البرمجة مثل MBPP. تُعد مكتبة HumanEval من OpenAI مكتبة Python مفيدة بشكل خاص لتقييم نماذج التعلم الآلي في هذا التصنيف. تتضمن مجموعة HumanEval أدوات لتوليد التعليمات البرمجية واختبارها، مما يجعلها مثالية لتقييم قدرة نموذج التعلم الآلي على حل مشكلات برمجة Python . كما تُعد Langsmith من LangChain مكتبة Python مفيدة أخرى لتقييم نماذج التعلم الآلي. Langsmith عبارة عن مجموعة أدوات مصممة للمساعدة في تطوير تطبيقات نماذج التعلم الآلي وتصحيح أخطائها وتقييمها. تتضمن وظائف للهندسة السريعة، وربط المهام، ودمج نماذج التعلم الآلي في أنظمة أكبر.

  • تشابه النصوص : تُقيّم هذه الفئة جودة النصوص المُولّدة بواسطة نماذج التعلم الآلي، مع التركيز على مدى تطابقها مع النصوص المرجعية وجودة التلخيص، وتوليد النصوص، أو الترجمة. ومن أمثلة هذه الفئة مقاييس التجانس، مثل BLEU وROUGE. تُعدّ مكتبة DeepEval، وهي مكتبة Python ، مفيدةً للغاية لتقييم نماذج التعلم الآلي في هذه الفئة. تُركّز DeepEval على التقييم المُعمّق للنصوص ...