Search⌘ K

الاختبار والتقييم ومراقبة الإنتاج

تعرف على كيفية اختبار وتقييم ومراقبة مطالبات الإنتاج بشكل منهجي باستخدام الأطر الآلية واختبار الانحدار واختبار A/B.

لقد تعلمنا تصميم مُحفِّزات قادرة على التعامل مع مهام معقدة، بدءًا من التفكير المُتقدم ووصولًا إلى استخدام الأدوات. مع ذلك، في بيئة العمل، لا يكفي مُحفِّز مناسب لمجموعة صغيرة من الأمثلة. بناء تطبيق مُناسب للإنتاج، يجب أن نُثبِت أن مُحفِّزاتنا تعمل بكفاءة وأمان مع آلاف المُدخلات المُحتملة.

يتطلب هذا التحول من صياغة ذاتية للمطالبات إلى إدارة موضوعية للمطالبات قائمة على البيانات. لم يعد السؤال الجوهري "هل هذه المطالبة جيدة؟"، بل "ما مدى جودتها، وهل يمكنني إثبات ذلك بالبيانات؟"

يغطي هذا الدرس دورة الحياة الهندسية الكاملة لموجه الإنتاج. سنتعلم كيفية بناء مجموعات بيانات التقييم، واستخدام أطر العمل الآلية لقياس الأداء، وتطبيق اختبار الانحدار للكشف المبكر عن الانحدارات، ومراقبة الموجهات في الإنتاج لضمان فعاليتها على المدى الطويل.

بناء مجموعة بيانات تقييم عالية الجودة

لا يمكننا قياس ما لا نستطيع تعريفه. قبل أن نتمكن من اختبار أي مُحفِّز بشكل منهجي، نحتاج إلى مجموعة بيانات لاختباره. تُعدّ هذه المجموعة المُختارة من البيانات مصدرًا للحقيقة، وتُشكّل أساس عملية التقييم بأكملها.

ما هي مجموعة بيانات التقييم؟

مجموعة بيانات التقييم هي مجموعة مُختارة من المدخلات التمثيلية ومخرجاتها المثالية، تُستخدم لقياس أداء مُوجّه أو نموذج. وهو الاختبار المُوحد الذي يجب على أي مُوجّه جديد أو مُعدّل اجتيازه ليتم نشره.

تتكون مجموعة بيانات التقييم القوية من حالات اختبار فردية، تحتوي كل منها عادةً على ثلاثة مكونات:

  1. الإدخال: استعلام المستخدم النموذجي، أو قطعة البيانات، أو المشكلة التي يتم إدخالها في المطالبة.

  2. إخراج المثالية: هي استجابة الدقيقة والمثالية التي نريد أن يُنتجها الموجه لهذا إدخال المُحدد. قد يكون هذا كتلة XML مُنسقة بشكل مثالي، أو إجابة واقعية مُحددة، أو استجابة نصية بنبرة وأسلوب مثاليين.

  3. البيانات الوصفية (اختيارية ولكن يُنصح بها): علامات سياقية أو فئات لحالة الاختبار. هذا مفيد للغاية لتحليل النتائج، على سبيل المثال، من خلال التصفية بناءً على الأداء في فئة محددة، مثل ...