استراتيجيات الاسترجاع: تقسيم البيانات إلى أجزاء

تعرف على كيفية تقسيم النص أو تجميعه للمستندات الكبيرة.

سنغطي ما يلي...

فهم مقسمات النص
- أمثلة على تقسيم النص
  - المثال 1
  - المثال 2
- أنواع مقسمات النصوص
تطبيق مقسمات النص

يتطلب هذا سلسلة من خطوات التحويل تهدف إلى إعداد المستندات لاسترجاعها بكفاءة. من بين هذه الخطوات، تتمثل إحدى المهام الأساسية في تقسيم مستند كبير إلى أقسام أصغر، أو كتل، نظرًا لضيق نوافذ السياق في نماذج اللغات الكبيرة. تحدد هذه النوافذ أقصى امتداد للنص يمكن لأي برنامج ماجستير في القانون تفسيره في عملية واحدة. على الرغم من تزايد أحجام نوافذ السياق في برامج ماجستير القانون الحديثة، إلا أنها تُحسّن أداءها في مهام محددة عند تزويدها بأجزاء معلومات أصغر حجمًا وأكثر صلة. يكمن التحدي عندئذٍ في اختيار مجموعة البيانات الفرعية الأكثر صلة للاسترجاع.

من الناحية المثالية، ثمة حاجة إلى استراتيجية تقسيم، حيث يُحافظ التقسيم على التماسك الدلالي داخل أجزاء النص. يختلف تعريف التماسك الدلالي باختلاف نوع النص. بالنسبة للمستندات الخارجية، يُعدّ التقسيم الأولي إلى أجزاء أصغر ضروريًا لاستخراج السمات الدقيقة التي تُرمَّز لاحقًا لإبراز جوهرها الدلالي. قد تؤدي الأجزاء الكبيرة جدًا أو الصغيرة جدًا إلى أداء استرجاع أقل من الأمثل، مما يجعل من الضروري تحديد حجم الجزء المثالي لنص المستند لتحسين دقة نتائج الاسترجاع وملاءمتها.

يتضمن اختيار استراتيجية فعّالة للتجزئة تقييم عدة جوانب مفتاح ، مثل طبيعة المحتوى المُفهرس، وقدرات نموذج التضمين ونطاقه التشغيلي الأمثل، والتعقيد المتوقع لاستعلامات المستخدم، والمتطلبات المحددة للتطبيق الذي يستخدم نتائج الاسترجاع. قد يختلف اختيار نموذج التجزئة بناءً على طول المستند. علاوة على ذلك، تختلف نماذج التضمين المختلفة في سلوكها عبر أحجام التجزئة المختلفة. على سبيل المثال، تُحسّن نماذج تحويل الجملة للجمل المفردة، بينما تُحسّن نماذج مثل OpenAItext-embedding-ada-002 تكون أكثر كفاءة مع 256 أو 512 رمزًا.

يمكننا أن نلاحظ هنا أنه مع زيادة حجم الجزء، يتم تضمين قدر أكبر من الجملة في الأجزاء التي سيتم إرسالها إلى نموذج LLM.

يؤثر تعقيد استعلامات المستخدم والاحتياجات الفريدة للتطبيق، مثل البحث الدلالي أو الإجابة على الأسئلة، على استراتيجية التجزئة. غالبًا ما يُسترشد هذا الاختيار بحدود رمز في نماذج التعلم العميق المُستخدمة، مما يتطلب تعديلات على أحجام التجزئة. يتطلب تحقيق نتائج استرجاع جيدة تطبيقًا مرنًا لاستراتيجيات التجزئة المختلفة، حيث لا يوجد نهج واحد متفوق عالميًا.

على مستوى عالٍ، تعمل مقسمات النص على النحو التالي:

قمنا بتقسيم النص إلى أجزاء صغيرة ذات معنى دلالي.
نبدأ بدمج هذه القطع الصغيرة في قطعة أكبر حتى نصل إلى حجم معين.
بمجرد أن نصل إلى هذا الحجم، نجعل هذا الجزء جزءًا منفصلًا من النص ثم نبدأ في إنشاء جزء جديد من النص مع بعض التداخل (للحفاظ على السياق بين الأجزاء).

وهذا يعني أن هناك محورين مختلفين يمكننا من خلالهما تخصيص مقسم النص الخاص بنا:

كيفية تقسيم النص : يمكن تقسيم النص بناءً على عدد الأحرف أو الكلمات، أو باستخدام أساليب أكثر تعقيدًا تراعي التماسك الدلالي أو الحدود النحوية، مثل الجمل أو الفقرات أو المقاطع. يعتمد اختيار طريقة التقسيم على متطلبات التطبيق الخاصة، بما في ذلك ضرورة الحفاظ على السياق، وأهمية المعلومات في كل جزء، والهدف العام من مهمة معالجة النص. ...

1.مقدمة في بناء روبوتات المحادثة

2.فهم المحولات

Project

3.فهم نماذج اللغة الكبيرة (LLMs)

4.جمع البيانات وإعدادها

5.تحسين سير عمل RAG باستخدام LangChain

6.سلاسل الهندسة والاسترجاع الفورية

7.تطوير واجهة مستخدم روبوت محادثة باستخدام Streamlit

8.دمج وتقييم روبوتات المحادثة

9.مشروع التخرج

10.الخاتمة والتطورات المستقبلية

استراتيجيات الاسترجاع: تقسيم البيانات إلى أجزاء

فهم مقسمات النص

أمثلة على تقسيم النص

المثال 1

المثال 2