...
/استراتيجيات الاسترجاع: تقسيم البيانات
استراتيجيات الاسترجاع: تقسيم البيانات
تعرف على كيفية تقسيم النص أو تجميعه للمستندات الكبيرة.
سنغطي ما يلي...
Understanding text splitters
يعد الاستخراج الانتقائي لأجزاء المستند أحد العناصر الأساسية في عملية استرجاع RAG.
يتطلب هذا سلسلة من خطوات التحويل تهدف إلى إعداد المستندات لاسترجاعها بكفاءة. من بين هذه الخطوات، تتمثل إحدى المهام الأساسية في تقسيم مستند كبير إلى أقسام أصغر، أو كتل، نظرًا لضيق نوافذ السياق في نماذج اللغات الكبيرة. تحدد هذه النوافذ أقصى امتداد للنص يمكن لأي برنامج ماجستير في القانون تفسيره في عملية واحدة. على الرغم من تزايد أحجام نوافذ السياق في برامج ماجستير القانون الحديثة، إلا أنها تُحسّن أداءها في مهام محددة عند تزويدها بأجزاء معلومات أصغر حجمًا وأكثر صلة. يكمن التحدي عندئذٍ في اختيار مجموعة البيانات الفرعية الأكثر صلة للاسترجاع.
من الناحية المثالية، ثمة حاجة إلى استراتيجية تقسيم، حيث يُحافظ التقسيم على التماسك الدلالي داخل أجزاء النص. يختلف تعريف التماسك الدلالي باختلاف نوع النص. بالنسبة للمستندات الخارجية، يُعدّ التقسيم الأولي إلى أجزاء أصغر ضروريًا لاستخراج السمات الدقيقة التي تُرمَّز لاحقًا لإبراز جوهرها الدلالي. قد تؤدي الأجزاء الكبيرة جدًا أو الصغيرة جدًا إلى أداء استرجاع أقل من الأمثل، مما يجعل من الضروري تحديد حجم الجزء المثالي لنص المستند لتحسين دقة نتائج الاسترجاع وملاءمتها.
يتضمن اختيار استراتيجية فعّالة للتجزئة تقييم عدة جوانب مفتاح ، مثل طبيعة المحتوى المُفهرس، وقدرات نموذج التضمين ونطاقه التشغيلي الأمثل، والتعقيد المتوقع لاستعلامات المستخدم، والمتطلبات المحددة للتطبيق الذي يستخدم نتائج الاسترجاع. قد يختلف اختيار نموذج التجزئة بناءً على طول المستند. علاوة على ذلك، تتصرف نماذج التضمين المختلفة بشكل مختلف عبر أحجام التجزئة المختلفة. على سبيل المثال، تُحسّن نماذج تحويل الجملة للجمل المفردة، بينما تُعدّ نماذج مثل OpenAI text-embedding-ada-002
أكثر كفاءةً مع 256 أو 512 رمزًا.
Examples of text splitting
لننظر إلى المثالين أدناه لتوضيح مفهوم تقسيم النصوص. نرى أن الألوان المختلفة تُمثل أجزاءً مختلفة، باستثناء اللون الأخضر الداكن الذي يُمثل النص المتداخل بين الأجزاء.
المثال 1
حجم القطعة ١٢٨ رمزًا، مع نص متداخل من ١٥ رمزًا. إجمالي عدد الأحرف ١٠٠٤، وعدد القطع ٩.
يمكننا أن نلاحظ هنا أنه كلما كانت القطع أصغر، كلما قل النص الذي لدينا كجزء من الجمل وكلما قل السياق الذي سنرسله إلى نموذج LLM.
المثال 2
حجم القطعة ٢٥٦ رمزًا، مع نص متداخل من ١٥ رمزًا. إجمالي عدد الأحرف ١٠٠٤، وعدد القطع ٤.
يمكننا أن نلاحظ هنا أنه مع زيادة حجم الجزء، يتم تضمين قدر أكبر من الجملة في الأجزاء التي سيتم إرسالها إلى نموذج LLM.
يؤثر تعقيد استعلامات المستخدم والاحتياجات الفريدة للتطبيق، مثل البحث الدلالي أو الإجابة على الأسئلة، على استراتيجية التجزئة. غالبًا ما يُسترشد هذا الاختيار بحدود رمز في نماذج التعلم العميق المُستخدمة، مما يتطلب تعديلات على أحجام التجزئة. يتطلب تحقيق نتائج استرجاع جيدة تطبيقًا مرنًا لاستراتيجيات التجزئة المختلفة، حيث لا يوجد نهج واحد متفوق عالميًا.
على مستوى عالٍ، تعمل مقسمات النص على النحو التالي:
قمنا بتقسيم النص إلى أجزاء صغيرة ذات معنى دلالي.
نبدأ بدمج هذه القطع الصغيرة في قطعة أكبر حتى نصل إلى حجم معين.
بمجرد أن نصل إلى هذا الحجم، نجعل هذا الجزء جزءًا منفصلًا من النص ثم نبدأ في إنشاء جزء جديد من النص مع بعض التداخل (للحفاظ على السياق بين الأجزاء).
وهذا يعني أن هناك محورين مختلفين يمكننا من خلالهما تخصيص مقسم النص الخاص بنا:
كيفية تقسيم النص : يمكن تقسيم النص بناءً على عدد الأحرف أو الكلمات، أو باستخدام أساليب أكثر تعقيدًا تراعي التماسك الدلالي أو الحدود النحوية، مثل الجمل أو الفقرات أو المقاطع. يعتمد اختيار طريقة التقسيم على متطلبات التطبيق الخاصة، بما في ذلك ضرورة الحفاظ على السياق، وأهمية المعلومات في كل جزء، والهدف العام من مهمة معالجة النص. ...