...

/

تضمينات المستندات الافتراضية (HyDE): محاكاة السياق

تضمينات المستندات الافتراضية (HyDE): محاكاة السياق

تعرف على تقنية تضمين المستندات الافتراضية (HyDE)، وكيفية عملها، وكيفية تنفيذها خطوة بخطوة.

سنغطي ما يلي...

لماذا تضمين المستندات الافتراضية (HyDE)؟

يعتمد استرجاع المستندات التقليدي في نماذج RAG على مطابقة الاستعلامات مع المستندات الموجودة في المجموعة. يواجه هذا النهج بعض القيود:

  • إمكانية التعميم المحدودة: غالبًا ما تواجه طرق الاسترجاع الحالية صعوبة في التعامل مع المجالات أو الاستعلامات غير المرئية ذات الاختلافات الدقيقة.

  • الدقة الواقعية: قد يؤدي استرجاع المستندات استنادًا إلى مطابقة الكلمات الرئيسية فقط إلى الحصول على معلومات غير ذات صلة أو غير دقيقة، وخاصةً بالنسبة للاستعلامات المعقدة.

يتناول HyDE هذه التحديات من خلال تقديم مفهوم المستندات الافتراضية.

لُغة تعليمية: لنفترض أنك طالبٌ تُحضّر لاختبار تاريخٍ ولديك العديد من الكتب للقراءة. يُقدّم لك HyDE، كرفيقٍ دراسيٍّ ذكي، المساعدة. فهو يجمع كل هذه المعلومات ويُقدّم لك ملاحظاتٍ دراسيةً مفيدةً للغاية. هذه الملاحظات ليست نسخًا من الكتب، ولكنها أهمّ ما يجب عليك تذكّره. على سبيل المثال، إذا كنت تدرس الحرب العالمية الثانية، فقد يُلخّص HyDE الأسباب الرئيسية للحرب، والمعارك الرئيسية، وكيف انتهت. تُسهّل مُلخّصات HyDE الدراسة بشكلٍ كبير، وتُمكّنك من فهم الأفكار الرئيسية بشكلٍ أسرع.

ما هو HyDE؟

HyDE، كما هو موضح في هذا غاو، لويو، شيوغوانغ ما، جيمي لين، وجيمي كالين. "استرجاع دقيق وكثيف بدون علامات صلة." طبعة مسبقة من arXiv، arXiv:2212.10496 (2022). ورقة بحثية من إعداد لويو غاو، تستفيد من برامج ماجستير القانون لإنشاء تضمينات افتراضية للمستندات تُمثل مستندات مثالية للإجابة على استفسار معين. هذه التضمينات، وإن لم تكن مطابقة للمستندات الفعلية، إلا أنها تُجسد جوهر المعلومات المطلوبة. هذا يسمح لعملية الاسترجاع بالتركيز على المستندات ذات المحتوى ذي الصلة، مما يؤدي إلى إجابات أكثر دقة وإثراءً.

Press + to interact
An illustration of the HyDE model (source: Luyu Gao, Precise Zero-Shot Dense Retrieval without Relevance Labels)
An illustration of the HyDE model (source: Luyu Gao, Precise Zero-Shot Dense Retrieval without Relevance Labels)

كيف يعمل HyDE

فيما يلي تفصيل لسير عمل HyDE:

  • معالجة الاستعلام: يقوم المستخدم بإرسال استعلام.

  • إنشاء مستندات افتراضية: يستخدم HyDE برنامج ماجستير في القانون لإنشاء "مستندات افتراضية" واحدة أو أكثر تُجيب على السؤال. قد لا تكون هذه المستندات واقعية أو كاملة، لكنها تُلخص المعلومات التي يحتويها المستند ذو الصلة. غالبًا ما تتضمن عملية التوليد هذه توجيه تعليمات إلى ماجستير في القانون مثل "اكتب ملخصًا موجزًا ​​لصفحة ويب تُجيب على السؤال...".

  • إنشاء التضمين: يُحوَّل كل مستند افتراضي مُولَّد إلى تمثيل رقمي يُسمى التضمين. يُجسِّد هذا التضمين المعنى الدلالي للمستند.

  • استرجاع المستندات: يبحث النظام عن ...