...

/

تقييم تطبيقات الذكاء الاصطناعي باستخدام LlamaIndex

تقييم تطبيقات الذكاء الاصطناعي باستخدام LlamaIndex

تعرف على كيفية تقييم المكونات المختلفة لتطبيق LLM وتحسين أداء النظام بشكل متكرر باستخدام أدوات التقييم المضمنة في LlamaIndex.

سنغطي ما يلي...

عند بناء تطبيقات ماجستير إدارة الأعمال (LLM)، سواءً كان ذلك خط أنابيب RAG أو روبوت محادثة أو وكيلًا متعدد الخطوات، فإن توليد إخراج ليس سوى جزء من العمل. المهم حقًا هو: هل إخراج مفيدة؟

للإجابة على ذلك، نحتاج إلى التقييم.

Press + to interact

يتيح لنا التقييم اختبار مكونات النظام، مثل الاسترجاع وتوليد استجابة والمطالبة، مقارنةً بالتوقعات الحقيقية. كما يساعدنا على تتبع ما يعمل، واكتشاف الأعطال الصامتة، ومقارنة خيارات التصميم المختلفة.

يوفر LlamaIndex أدوات لتقييم الأجزاء الفردية من خط الأنابيب باستخدام:

  • مقاييس مثل معدل النقر ومعدل MRR (للاسترجاع)

    • معدل النقر : يقيس ما إذا كان قد تم استرداد مستند واحد على الأقل من المستندات المتوقعة (الحقيقة الأساسية) لاستعلام ما.

      • معدل النجاح = 1.0 يعني النجاح (تم العثور على نتيجة ذات صلة).

      • معدل النجاح = 0.0 يعني الفشل (لم يتم إرجاع أي نتائج ذات صلة).

    • MRR (متوسط ​​الرتبة المتبادلة) : يقوم بتقييم مدى ظهور المستند الصحيح مبكرًا في قائمة النتائج المستردة.

      • إذا تم تصنيف المستند الصحيح في المرتبة الأولى، فإن المرتبة المتبادلة هي 1.0. ...