...
/استراتيجيات الاسترجاع: قاعدة بيانات مسترجعي البيانات
استراتيجيات الاسترجاع: قاعدة بيانات مسترجعي البيانات
تعرف على كيفية استرداد أجزاء البيانات ذات الصلة من مخازن المتجهات.
سنغطي ما يلي...
LangChain retrievers
تُعد أجهزة الاسترجاع جزءًا أساسيًا من تقنية استرجاع المعلومات وتطوير برامج المحادثة الآلية من خلال توفير واجهة تتنقل عبر تعقيدات الاستعلامات غير المنظمة لإرجاع المستندات ذات الصلة.
تُركز برامج الاسترجاع على استرجاع أو تحديد مصادر المستندات بناءً على إدخال الاستعلام. في حين أن مخازن المتجهات تُشكل أساسًا لبرنامج الاسترجاع، مُوفرةً بذلك أساسًا قويًا للبحث عن تشابه المستندات، إلا أن نطاق برامج الاسترجاع يشمل أنواعًا مُتنوعة، كلٌ منها مُصمم خصيصًا لحالات استخدام ووظائف مُحددة.
Functionality
تعمل أدوات الاسترجاع بقبول استعلام نصي ومعالجته لعرض قائمة بالمستندات التي تُطابق غرض الاستعلام على النحو الأمثل. تُعد هذه العملية أساسية للتطبيقات، بدءًا من منصات اكتشاف المحتوى ووصولًا إلى حلول خدمة العملاء الآلية، حيث تُعدّ الدقة والملاءمة في استرجاع المستندات أمرًا بالغ الأهمية.
تُقدّم LangChain مجموعةً من أنواع الاسترجاع المُتقدّمة، صُمّم كلٌّ منها لتلبية احتياجاتٍ وسيناريوهاتٍ مُختلفة. تتمتّع آليات الاسترجاع هذه بخصائص فريدة، بدءًا من أنواع الفهارس الأساسية التي تعتمد عليها، ووصولًا إلى استخدامها نماذج لغوية ضخمة لتحسين فهم الاستعلامات واسترجاع المستندات. تُقدّم مجموعة أدوات الاسترجاع من LangChain حلولاً مُتنوّعة.
Advanced retrieval types
Name | Uses an LLM | When to Use |
Vectorstore | No | If we are just getting started and looking for something quick and easy. |
ParentDocument | No | If our pages have lots of smaller pieces of distinct information that are best indexed by themselves, but best retrieved all together. |
Multi Vector | Sometimes | If we are able to extract information from documents that we think is more relevant to index than the text itself. |
Self Query | Yes | If users are asking questions that are better answered by fetching documents based on metadata rather than similarity with the text. |
Contextual Compression | Sometimes | If we are finding that our retrieved documents contain too much irrelevant information and are distracting the LLM. |
Time-Weighted Vectorstore | No | If we have timestamps associated with our documents, and we want to retrieve the most recent ones. |
Multi-Query Retriever | Yes | If users are asking questions that are complex and require multiple pieces of distinct information to respond. |
Ensemble | No | If we have multiple retrieval methods and want to try combining them. |
Long-Context Reorder | No | If we are working with a long-context model and noticing that it's not paying attention to information in the middle of retrieved documents. |
كل مسترد له غرض فريد:
متجر المتجهات: يُنشئ هذا المتجر تضمينات لكل نص، مما يُسهّل بدء عمليات الاسترجاع القائمة على التضمين بسهولة ويسر. على سبيل المثال، يُمكن لبرنامج دردشة لخدمة العملاء لموقع بيع بالتجزئة استخدام متجر المتجهات لعرض معلومات المنتج والأسئلة الشائعة بسرعة. تُنشأ التضمينات من أوصاف المنتج وتقييمات العملاء لتسهيل الحصول على إجابات فورية وفعّالة لاستفسارات المستخدمين حول ميزات المنتج.
المستند الأصلي : يُفهرس هذا المستند حسب الأجزاء، ولكنه يسترجع المستند بأكمله بناءً على تشابه هذه الأجزاء، مما يُحسّن السياقات التي تكون فيها المستندات الكاملة أكثر إفادة من أجزائها الفردية. يمكن لروبوت الدردشة القانونية استخدام أسلوب استرجاع المستند الأصلي لاسترجاع المستندات القانونية عندما يطلب المستخدم قضايا أو أقسامًا قانونية محددة. يُفهرس الروبوت المستندات حسب البنود أو الأقسام الفردية، ولكنه يسترجع المستندات الكاملة لتوفير سياق قانوني شامل.
متعدد المتجهات : يُولّد هذا النظام متجهات متعددة لكل مستند من خلال الملخصات أو الأسئلة الافتراضية، على سبيل المثال، بهدف فهرسة المعلومات التي تتجاوز النص السطحي. يمكن لروبوت الدردشة البحثي الأكاديمي استخدام نهج استرجاع متعدد المتجهات للأوراق البحثية والملخصات. يُساعد هذا النهج في استرجاع المستندات بدقة بما يتوافق مع عمق البحث الأكاديمي، مما يضمن حصول الطلاب على الأوراق ذات الصلة.
الاستعلام الذاتي: يستخدم هذا ...