استرجاع المستندات الأصلية (PDR): هيكلة البيانات الهرمية

تعرف على تقنية استرجاع المستند الأصلي (PDR)، وكيفية عملها، وكيفية تنفيذها خطوة بخطوة.

سنغطي ما يلي...

ما هو استرجاع الوثيقة الأصلية (PDR)؟
التنفيذ خطوة بخطوة
جربها بنفسك

في RAG، يُعدّ استرجاع مستندات المصدر ذات الصلة بفعالية أمرًا بالغ الأهمية لإنشاء استجابات عالية الجودة وغنية بالمعلومات. غالبًا ما تعمل أساليب RAG القياسية على أجزاء نصية أصغر، مما قد لا يوفر سياقًا كافيًا للاستعلامات المعقدة. يعالج استرجاع المستندات الأصلية (PDR) هذا القيد من خلال استرجاع المستندات الأصلية الكاملة المرتبطة بالفقرات الفرعية الأكثر صلة. يعزز هذا النهج قدرة RAG على التعامل مع الأسئلة المعقدة التي تتطلب فهمًا أوسع للمادة المصدرية.

ما هو استرجاع الوثيقة الأصلية (PDR)؟

استرجاع المستندات الأصلية (PDR) هي تقنية تُستخدم في نماذج RAG المتقدمة لاسترجاع المستندات الأصلية كاملةً، والتي تُشتق منها المقاطع الفرعية ذات الصلة. تُحسّن عملية الاسترجاع هذه السياق المتاح لنموذج RAG، مما يؤدي إلى استجابات أكثر شمولاً وإثراءً بالمعلومات، خاصةً للاستعلامات المعقدة أو الدقيقة.

فيما يلي الخطوات الأساسية لاسترجاع المستند الرئيسي في نماذج RAG:

معالجة البيانات مسبقًا: تقسيم المستندات الكبيرة إلى أجزاء أصغر.
إنشاء التضمينات: تحويل كل جزء إلى تمثيل رقمي للبحث الفعال.
استعلام المستخدم: يقوم المستخدم بإرسال سؤال.
استرجاع القطعة: ابحث عن القطع الأكثر صلة استنادًا إلى تضمين الاستعلام.
تحديد المستندات الأصلية: ابحث عن المستندات الأصلية (أو الأجزاء الأكبر) للأجزاء المختصرة.
استرداد المستندات الأصلية: احصل على المستندات الأصلية الكاملة للحصول على سياق أفضل.

شرح الكود

الخط 1: اضبطOPENAI_API_KEY متغير إلى سلسلة فارغة وتعيينه إلى متغير البيئةOPENAI_API_KEY استخدامos.environ . هذا هو المكان الذي يجب عليك فيه إضافة مفتاح API الخاص بـ OpenAI .
السطرين 2-3: إذا كانOPENAI_API_KEY لا يزال عبارة عن سلسلة فارغة بعد التعيين، قم برفعValueError مع الرسالة"Please set the OPENAI_API_KEY environment variable" يضمن هذا تعيين مفتاح API بشكل صحيح قبل متابعة تنفيذ البرنامج.

iii) تحديد وظيفة تضمين النص

سنستخدم تضمينات ...

1.ابدء

2.مقدمة إلى تقنية التوليد المعزز بالاسترجاع (RAG)

3.RAG المتقدم: الاسترجاع المسبق (تحسين الفهرسة)

4.RAG المتقدم: الاسترجاع المسبق (تحسين الاستعلام)

5.RAG المتقدم: عملية ما بعد الاسترجاع

Mini Project

6.خاتمة

استرجاع المستندات الأصلية (PDR): هيكلة البيانات الهرمية

ما هو استرجاع الوثيقة الأصلية (PDR)؟

التنفيذ خطوة بخطوة

1. تحضير البيانات

i) استيراد الوحدات اللازمة

ii) إعداد مفتاح API OpenAI

iii) تحديد وظيفة تضمين النص