Search⌘ K
AI Features

استراتيجيات استرجاع فعالة لخطوط أنابيب RAG

تعرف على استراتيجيات الاسترجاع الشائعة وكيف تعمل على تحسين الدقة والملاءمة في أنظمة RAG.

في الدرس السابق، استكشفنا الفهرسة من خلال مقارنتها بتنظيم مكتبة ضخمة. تضع الفهرسة كل معلومة في مكانها الصحيح، مما يسهل العثور عليها لاحقًا. كما أشرنا بإيجاز إلى الاسترجاع، الذي يتضمن إيجاد المعلومة المطلوبة بدقة من هذا التنظيم. الاسترجاع يعني تحديد الكتاب الذي يجيب على سؤالنا بدقة، بدلًا من مجرد اختيار أي كتاب من الرف.

تخيّل عملية البحث كأنك تطلب كتابًا من أمين مكتبة خبير. عندما تطرح سؤالًا، فأنت تُخبر أمين المكتبة بما تبحث عنه. بدلًا من أن يُشير إليك إلى قسم عشوائي، يستخدم أمين المكتبة فهرسًا مُفصّلًا يُبيّن كيفية ترابط جميع الكتب بناءً على محتواها. يجد أمين المكتبة الموضع الدقيق على الفهرس الذي يُطابق سؤالك. ثم يبحث حول ذلك الموضع عن الكتب الأقرب في المعنى والصلة بسؤالك. بهذه الطريقة، بدلًا من أن يُعطيك أي كتاب، يُزوّدك أمين المكتبة بالكتاب الذي يحتوي على المعلومات التي تبحث عنها تحديدًا.

تُعدّ هذه الطريقة في البحث عن المعلومات مفتاح لنجاح أنظمة RAG. فهي تضمن أن تكون الإجابات التي نُنتجها ليست صحيحة فحسب، بل ذات صلة ومفيدة أيضاً بناءً على سياق السؤال المطروح.

ما هي طرق الاسترجاع المستخدمة في RAG؟

تستخدم RAG عدة طرق لاسترجاع المعلومات لدمج المعرفة الخارجية في عملية التوليد. تحدد هذه الاستراتيجيات كيفية وصول أنظمة RAG إلى المعلومات ذات الصلة من قاعدة المعرفة أو مجموعة البيانات واستخدامها لتحسين جودة التوليد. فيما يلي استراتيجيات الاسترجاع الرئيسية المستخدمة في RAG:

  • الاسترجاع المتفرق: تعتمد تقنيات الاسترجاع المتفرق، مثل TF-IDF وBM25، على مطابقة الكلمات الرئيسية تُعدّ مطابقة الكلمات الرئيسية تقنية استرجاع متفرقة حيث يتم استرجاع المستندات بناءً على وجود كلمات رئيسية أو مصطلحات محددة. تتميز هذه الطرق بالسرعة والكفاءة، لكنها قد تغفل العلاقات الدلالية الدقيقة بين الكلمات. أما المتجهات المتفرقة فهي تمثيلات تكون فيها معظم العناصر أصفارًا، وتُستخدم عادةً لترميز وجود أو تكرار مصطلحات محددة.

Sparse retrieval
Sparse retrieval

معلومة تعليمية: في الدرس السابق، نجحنا في تطبيق نظام استرجاع باستخدام TF-IDF للفهرسة وتشابه جيب التمام لمقارنة المتجهات. يُشار إلى هذا المزيج عادةً بتقنية استرجاع TF-IDF المتفرقة، والتي تركز على مطابقة الكلمات المفتاحية وأهمية المصطلحات داخل المستندات. ...