Search⌘ K
AI Features

فهم نماذج الاسترجاع والتوليد

تعرف على تطور الذكاء الاصطناعي من الاسترجاع إلى النماذج التوليدية وكيف يرتبط ذلك بـ RAG.

لقد دخلنا عالماً أصبحت فيه أجهزة الكمبيوتر أكثر قدرة على فهمنا والاستجابة لنا. كانت الأجهزة القديمة بسيطة ومباشرة، تتبع قواعد صارمة، تماماً كاتباع وصفة طعام بدقة متناهية. اطلب قطعة بسكويت، ستحصل عليها، طالما نصت الوصفة على أنها بسكويت بالفعل.

مع مرور الوقت، أصبحت الأمور أكثر إثارة للاهتمام. بدأنا بتعليم الآلات ليس فقط اتباع التعليمات، بل اكتشاف الأنماط بنفسها. وقد نتج عن هذا التحول نوعان رئيسيان من النماذج، وكلاهما يلعب دورًا مفتاح في منهجية RAG.

أولًا، لدينا نماذج استرجاع مثل نموذج تردد المصطلح - تردد المستند العكسي (TF-IDF) أو نموذج أفضل تطابق 25 (BM25). تخيل أمين مكتبة منظمًا يعرف بدقة مكان كل كتاب وأيها يحتوي على المعلومات التي تحتاجها. تتميز هذه النماذج بقدرتها على فرز كميات هائلة من البيانات للعثور على المعلومات الأكثر صلة بالمهمة المطلوبة واسترجاعها. وهي تساعد في ذلك من خلال استخلاص البيانات من قاعدة بيانات معرفية لتوفير السياق أو الحقائق اللازمة لتقديم إجابات دقيقة.

ثم لدينا النماذج التوليدية مثل نموذج المحول التوليدي المدرب مسبقًا (GPT). فبدلًا من استرجاع المعلومات الموجودة، تستخدم هذه النماذج ما تعلمته أثناء التدريب لتوليد محتوى جديد. فعند إعطائها سؤالًا، يمكنها صياغة إجابة شاملة، أو عند إعطائها فكرةً ما، يمكنها توسيعها إلى سرد مفصل.

لذا، بينما نسعى لجعل هذه الآلات أكثر ذكاءً، فإننا نعلمها كيفية استرجاع المعلومات الموجودة وإنشاء محتوى جديد. ولكن قبل أن نتمكن من فهم عملية التوليد المعزز بالاسترجاع فهمًا كاملًا، نحتاج إلى دراسة كل نوع من أنواع النماذج دراسةً متعمقة.

ما هي نماذج الاسترجاع؟

تُبنى نماذج الاسترجاع لمعالجة كميات هائلة من البيانات والعثور على المعلومات ذات الصلة باستعلام محدد. وعلى عكس النماذج التي تصنف البيانات بناءً على أمثلة مُستقاة، تركز نماذج الاسترجاع على مطابقة معايير الاستعلام مع البيانات المتاحة لها. ففي نظام الإجابة على الأسئلة، على سبيل المثال، يقوم نموذج الاسترجاع بالبحث في قاعدة البيانات لاستخراج التفاصيل التي تُجيب على سؤال المستخدم على أفضل وجه.

في معالجة النصوص، تحلل هذه النماذج مجموعة كبيرة من النصوص وتحدد المقاطع الأكثر ارتباطًا بالاستعلام. وينطبق المبدأ نفسه في استرجاع الصور: إذ تحلل هذه النماذج المحتوى المرئي، وتتعرف على الأشياء والألوان والأنماط والمشاهد داخل مجموعة من الصور للعثور على الصور الأكثر صلة بالاستعلام المحدد.

توضح الصور أدناه ذلك: قاعدة بيانات للصور على اليسار، وصورة استعلام إدخال في المنتصف، والنتيجة المطابقة المسترجعة على اليمين.

Database for model
1 / 3
Database for model

من أبرز مزايا نماذج الاسترجاع كفاءتها العالية، إذ يمكنها التعامل مع مجموعات بيانات ضخمة دون الحاجة إلى فهم معمق أو توليد أي بيانات جديدة. لكن في المقابل، تعتمد هذه النماذج على جودة البيانات وبنيتها، فإذا لم تكن الإجابة المطلوبة موجودة في قاعدة البيانات، فلن تتمكن من استرجاعها.

ما هي النماذج التوليدية؟

تعمل النماذج التوليدية من خلال تعلم التوزيع الاحتمالي المشترك لخصائص إدخال وتصنيفات إخراج . وعلى عكس نماذج الاسترجاع التي تسترجع المعلومات الموجودة، تتعلم النماذج التوليدية الأنماط الكامنة في البيانات وتستخدم تلك الأنماط لإنتاج محتوى جديد.

في مجال توليد الصور، يستطيع نموذج توليدي مُدرَّب على صور حيوانات أن يُنتج صورًا جديدة وواقعية لحيوانات لم يرها من قبل. ولا يتم ذلك عن طريق حفظ صور حيوانات مُحدَّدة، بل عن طريق تعلُّم سمات عامة كالأنسجة والأشكال والألوان التي تُحدِّد شكل الحيوان. تُظهر الصورة أدناه ما يُمكن أن يُنتجه هذا النموذج، بما في ذلك بعض المُخرجات الغريبة حقًا، مثل مُركَّب هجين بين حوت وأرنب، مما يُوضِّح الإمكانات الإبداعية لهذه النماذج وعدم القدرة على التنبؤ بها.

Understanding generative models
Understanding generative models

في مجال معالجة اللغة الطبيعية، تستطيع النماذج التوليدية تأليف نصوص متماسكة وذات صلة بالسياق. يُعدّ ChatGPT مثالًا بارزًا على ذلك. فبعد تدريبه على مجموعات نصوص ضخمة، يستطيع إنتاج جمل وفقرات ومقالات كاملة جديدة تتطابق مع أسلوب ومحتوى بيانات التدريب. ويتحقق ذلك من خلال تعلّم البنية اللغوية وأنماط المفردات والعناصر الأسلوبية، وليس من خلال استرجاع إجابات مُخزّنة.

النماذج التوليدية مقابل نماذج الاسترجاع

رغم أن النماذج التوليدية قد تبدو متفوقة ظاهرياً، إلا أنها ليست أفضل من نماذج الاسترجاع في جميع الحالات. ثمة اختلافات مهمة يجب مراعاتها:

  • التعقيد والتكلفة الحسابية: تتعلم النماذج التوليدية التوزيع الاحتمالي المشترك للمدخلات والمخرجات، وهو أمر مكلف حسابيًا. يستغرق التدريب وقتًا أطول ويتطلب موارد أكثر، خاصة مع البيانات عالية الأبعاد.

  • الدقة في استرجاع المعلومات المحددة: عندما تحتاج إلى حقيقة محددة وقابلة للتحقق، تميل نماذج الاسترجاع إلى الأداء بشكل أفضل. فهي مصممة لإرجاع البيانات الأكثر صلة دون توليد أي شيء جديد، مما يحافظ على دقة إخراج وإمكانية تتبعها.

  • الشفافية: النماذج التوليدية عبارة عن صناديق سوداء، يصعب معرفة سبب إنتاجها إخراج محددة. أما نماذج الاسترجاع فهي أكثر شفافية، إذ يمكنك تتبع المستند المسترجع إلى مصدره ومعرفة سبب اختياره بالتحديد.

هل يمكن دمج هذه النماذج؟

لا يُعد استخدام نماذج الاسترجاع والنماذج التوليدية أمراً حصرياً. فدمجها يسمح لكل منهما بتعويض نقاط ضعف الآخر، وهذا الدمج هو بالضبط ما يقوم عليه التوليد المعزز بالاسترجاع (RAG).

بدلاً من فرض خيار بين النموذجين، يستخدم RAG كليهما. فهو يستفيد من قدرة النموذج التوليدي على إنتاج استجابات طبيعية ومتسقة، مع دمج آلية استرجاع تستخلص معلومات حديثة وذات صلة من قاعدة معرفية قبل عملية التوليد. هذا يعني أن النموذج لا يعتمد فقط على ما تعلمه أثناء التدريب، بل يُؤسس استجابة على حقائق مسترجعة. والنتيجة هي إخراج أكثر دقة وملاءمة للسياق مما يمكن لأي من النموذجين إنتاجه بمفرده.

معلومة تعليمية: لا يختلف أسلوب عمل نظام RAG كثيراً عن طريقة تعامل البشر مع الأسئلة. فعندما نبتكر شيئاً جديداً، غالباً ما نسترجع المعلومات ذات الصلة من الذاكرة أولاً، ثم ندمجها ونحولها إلى استجابة جديدة. ويُضفي نظام RAG طابعاً رسمياً على هذه العملية نفسها.