تقييم روبوتات الدردشة

تعرف على كيفية تقييم برامج الدردشة الآلية المتكاملة مع برامج الماجستير في القانون.

سنغطي ما يلي...

Introduction to LLM evaluation

عندما يتعلق الأمر بنماذج اللغات الكبيرة، يُعد تقييم الأداء معقدًا نظرًا لتنوع المقاييس المستخدمة. تهدف هذه المقاييس إلى تحديد جوانب مختلفة من قدرات حامل شهادة الماجستير في القانون: المعرفة العامة، والتفكير المنطقي، والمهارات العملية، وجودة النص. يُعد فهم هذه المقاييس وأهميتها لحالات استخدام محددة أمرًا أساسيًا لاختيار المقياس المناسب لتقييم نماذج اللغات الكبيرة.

بشكل عام، يمكننا تقسيم المقاييس إلى أربع فئات رئيسية:

  • تقييم المعرفة : تُقيّم هذه الفئة مدى اتساع وعمق معرفة طالب ماجستير القانون في مختلف المجالات، وقدرته على فهم هذه المعرفة وتطبيقها. لدينا معايير معرفية عامة مثل MMLU وTriviaQA، ومعايير استدلال منطقي مثل HellaSwag وGSM8k. تُعد RAGAS إحدى مكتبات Python المفيدة بشكل خاص لتقييم ماجستير القانون في هذه الفئة. تجمع RAGAS بين التعلم المعزز والنماذج التوليدية لتقييم جودة ودقة المحتوى المُولّد. ويمكن استخدامها لتقييم المعرفة وقدرات الاستدلال المنطقي لدى طالب ماجستير القانون من خلال توفير إطار عمل لتوليد الاستجابات وتصنيفها بناءً على مدى ملاءمتها ودقتها.

  • القدرات الوظيفية : تقيس هذه الفئة القدرات العملية لحاملي شهادة الماجستير في القانون (LM) في مجالات وظيفية محددة، مثل البرمجة وحل المشكلات. ومن أمثلة هذه الفئة معايير البرمجة مثل MBPP. تُعد HumanEval إحدى مكتبات Python المفيدة بشكل خاص لتقييم شهادات الماجستير في القانون ضمن هذه الفئة. تتضمن مجموعة HumanEval من OpenAI أدوات لتوليد الشيفرة البرمجية واختبارها، مما يجعلها مثالية لتقييم قدرة حامل شهادة الماجستير في القانون على حل مشكلات برمجة Python . ومن مكتبات Python المفيدة الأخرى لتقييم شهادات الماجستير في القانون مكتبة Langsmith من LangChain. LangSmith هي مجموعة أدوات مصممة للمساعدة في تطوير تطبيقات شهادات الماجستير في القانون وتصحيح أخطائها وتقييمها. تتضمن وظائف للهندسة السريعة، وتسلسل المهام، ودمج شهادات الماجستير في القانون في أنظمة أكبر.

  • تشابه النصوص : تُقيّم هذه الفئة جودة النصوص المُولّدة من قِبل طلاب ماجستير القانون، مع التركيز على مدى تطابقها مع النصوص المرجعية وجودة التلخيص، أو توليد النصوص، أو الترجمة. من أمثلة هذه الفئة درجات التجانس، مثل BLEU وROUGE. تُعد DeepEval إحدى مكتبات Python المفيدة بشكل خاص لتقييم طلاب ماجستير القانون في هذه الفئة. تُركز DeepEval على التقييم المُعمّق للنصوص المُولّدة من قِبل طلاب ماجستير القانون. تستخدم تقنيات التعلم العميق لقياس التشابه الدلالي والجودة العامة للنص مُقارنةً بالنصوص المرجعية. يُمكن استخدام هذا المقياس في مهام التلخيص، والترجمة، وتوليد النصوص.

  • التصنيفات المجمعة: ...