فهم نماذج الاسترجاع والتوليد

تعرف على تطور الذكاء الاصطناعي من الاسترجاع إلى النماذج التوليدية وكيفية ارتباطه بـ RAG.

سنغطي ما يلي...

لقد دخلنا عالمًا تتطور فيه أجهزة الكمبيوتر لدينا باستمرار في التواصل معنا. في البداية، كانت هذه الأجهزة بسيطة جدًا؛ إذ كانت تتبع قواعد صارمة، مثل اتباع الوصفة حتى آخر حرف عند الطهي. إذا طلبنا كعكة، نحصل عليها، طالما أن الوصفة تُشير إلى أنها وصفة كعكة بالفعل.

However, as time passed, things got more interesting. We started teaching these machines not just to follow recipes but to cook something new. This leap was thanks to some highly effective ideas in building their brains—the “models,” as we call them. Now, two main types of models spice things up.

Press + to interact

أولاً، لدينا نماذج استرجاع مثل نموذج تردد المصطلح - تردد المستند العكسي (TF-IDF) أو نموذج أفضل تطابق 25 (BM25). تخيل أمين مكتبة منظمًا جيدًا يعرف بدقة مكان كل كتاب وأي الكتب تحتوي على المعلومات التي تحتاجها. تتميز هذه النماذج بمهارة غربلة كميات هائلة من البيانات للعثور على المعلومات الأكثر صلة بالمهمة واسترجاعها. تساعد هذه النماذج في استخراج البيانات من قاعدة بيانات معرفية لتوفير السياق أو الحقائق اللازمة لتوليد إجابات أو رؤى دقيقة.

ثم لدينا النماذج التوليدية، مثل المحول التوليدي المُدرّب مُسبقًا (GPT). تُعتبر هذه النماذج بمثابة ليوناردو دافنشي عالم الذكاء الاصطناعي. فبدلًا من مجرد استرجاع المعلومات، تستخدم هذه النماذج تدريبها لتوليد محتوى جديد بإبداع. فبمجرد توجيهها، يُمكنها صياغة إجابة شاملة، أو عند طرح فكرة، يُمكنها توسيعها إلى سرد مُفصّل.

لذا، بينما نعمل على جعل هذه الآلات أكثر ذكاءً، فإننا نُعلّمها استرجاع المعلومات المهمة وابتكار عجائب جديدة، متجاوزين بذلك حدود ما كنا نعتقد أنه ممكن. ولكن، قبل أن نفهم حقًا ماهية التوليد المُعزّز بالاسترجاع، علينا أن نُمعن النظر في النموذجين اللذين ناقشناهما.

ما هي نماذج الاسترجاع؟

تتخصص نماذج الاسترجاع في البحث عبر كميات هائلة من البيانات للعثور على معلومات ذات صلة باستعلام أو سياق محدد. بخلاف النماذج التي تُصنّف البيانات بناءً على أمثلة مُكتسبة، تُركز نماذج الاسترجاع على دقة مطابقة معايير الاستعلام مع البيانات المتاحة لها. على سبيل المثال، في نظام الإجابة على الأسئلة، يُنقّب نموذج الاسترجاع في قاعدة بيانات المعلومات للعثور على التفاصيل التي تُجيب على سؤال المستخدم على أفضل وجه.

في معالجة النصوص والصور، تلعب هذه النماذج دورًا محوريًا. ففي معالجة النصوص، تُحلل هذه النماذج المحتوى ضمن مجموعة كبيرة من النصوص، وتُحدد المقاطع الأكثر ارتباطًا بالاستعلام المطروح. وبالمثل، في استرجاع الصور، تُحلل هذه النماذج المحتوى المرئي، مما يُتيح البحث عن الصور الأكثر صلةً باستفسار مُعين واسترجاعها. قد يشمل ذلك التعرف على الكائنات، والألوان، والأنماط، أو حتى المشاهد ضمن مجموعة من الصور. تكمن فعالية نماذج الاسترجاع في قدرتها على الانتقاء بدقة من المصادر الصحيحة، سواءً كانت نصية أو بصرية، مما يضمن أن النماذج التوليدية التي تليها تعمل مع المعلومات الأكثر صلةً وملاءمةً للسياق.

Press + to interact
Database for model
1 / 3
Database for model

من أهم نقاط القوة في نماذج الاسترجاع كفاءتها في معالجة البيانات المفيدة واستخراجها من مجموعات البيانات أو قواعد البيانات الضخمة. فهي تُمكّن الأنظمة من التوسع من خلال إدارة كميات هائلة من المعلومات دون الحاجة إلى فهم متعمق أو توليد محتوى جديد بشكل مستقل. ومع ذلك، تعتمد نماذج الاسترجاع بشكل كبير على جودة وهيكلية البيانات التي تصل إليها؛ ويعتمد أداؤها على مدى ملاءمة ودقة المعلومات المخزنة في قواعد البيانات التي تستعلم عنها.

ما هي النماذج التوليدية؟

تصف النماذج التوليدية كيفية توليد البيانات من خلال تعلّم توزيع الاحتمالات المشترك لخصائص إدخال وعلامات إخراج . بخلاف نماذج الاسترجاع، التي تُركز على تحديد المعلومات ذات الصلة واسترجاعها من مجموعات البيانات الكبيرة، تسعى النماذج التوليدية إلى فهم عملية توليد البيانات الأساسية وتكرارها.

على سبيل المثال، في توليد الصور، يستطيع النموذج التوليدي التعلم من مجموعة صور حيوانات، ومن ثم توليد صور جديدة وفريدة لحيوانات واقعية ومتميزة عن أي حيوان محدد في مجموعة بيانات التدريب. تنشأ هذه القدرة من فهم النموذج للسمات العامة، مثل الملمس والأشكال والألوان، التي تُعرّف "الحيوانية" بدلاً من مجرد التمييز بين فئات محددة مسبقًا مثل "القطط" و"الكلاب".

Press + to interact
Understanding generative models
Understanding generative models

كما نرى، بخلاف نماذج الاسترجاع التي تبحث عن البيانات ذات الصلة من مجموعة كبيرة وتحددها لاستعلام معين، تتعلم النماذج التوليدية توزيع احتمالات خصائص البيانات، مما يُمكّنها من إنتاج أمثلة جديدة. مع ذلك، قد تُسفر هذه النماذج أحيانًا عن نتائج غير متوقعة، مثل توليد صورة هجينة تشبه صورة حوت بأذني أرنب.

وبالمثل، تستطيع النماذج التوليدية تأليف نصوص متماسكة وذات صلة بالسياق في معالجة اللغة الطبيعية. يُعد ChatGPT ، وهو أحد أشكال نموذج GPT، مثالاً بارزاً على ذلك. بعد التدريب على مجموعات نصية كبيرة، تستطيع هذه النماذج إنتاج جمل أو فقرات أو حتى مقالات كاملة جديدة تُشبه أسلوب ومحتوى مادة التدريب. تُحقق النماذج ذلك من خلال تعلم البنى اللغوية واستخدام المفردات والعناصر الأسلوبية الموجودة في نص التدريب.

النماذج التوليدية مقابل نماذج الاسترجاع

مع أن النماذج التوليدية قد تبدو متفوقة في جوانب عديدة، إلا أنها ليست بالضرورة أفضل من نماذج الاسترجاع في جميع الجوانب. تواجه النماذج التوليدية العديد من القيود عند مقارنتها بنظيراتها من نماذج الاسترجاع، ويعود ذلك أساسًا إلى اختلاف مناهجها وأهدافها الأساسية. ضع في اعتبارك النقاط مفتاح التالية:

  • التعقيد والتكلفة الحسابية: غالبًا ما تتضمن النماذج التوليدية تعلم توزيع الاحتمالات المشترك للمدخلات والمخرجات، وهو أمر قد يكون معقدًا حسابيًا ويستهلك موارد كثيرة. قد يؤدي هذا التعقيد إلى أوقات تدريب أطول ومتطلبات حسابية أعلى، خاصةً مع البيانات متعددة الأبعاد.

  • الدقة في استرجاع معلومات محددة: في المهام التي تتطلب دقةً في استرجاع معلومات محددة، عادةً ما توفر نماذج الاسترجاع أداءً أفضل. ويرجع ذلك إلى أن نماذج الاسترجاع مصممة لجلب وتوفير البيانات الأكثر صلة دون الحاجة إلى إنشاء محتوى جديد. فهي تركز على دقة المعلومات المقدمة، وهو أمر بالغ الأهمية في تطبيقات مثل الإجابة على الأسئلة واستخراج البيانات.

  • الشفافية: تعمل النماذج التوليدية كصناديق سوداء، مما يُصعّب فهم كيفية إنتاج مخرجات مُحددة. قد يُشكّل هذا النقص في الشفافية مشكلةً في التطبيقات التي تتطلب سهولة التفسير. في المقابل، عادةً ما تكون نماذج الاسترجاع أكثر شفافية، إذ أن عملية مطابقة الاستعلامات مع المستندات أسهل وأكثر قابلية للتفسير. يُمكن للمستخدمين تتبع المعلومات المُسترجعة بسهولة إلى مصدرها.

هل يمكن دمج هذه النماذج؟

إن استخدام نماذج الاسترجاع والتوليد ليس متعارضًا؛ بل إن دمج هذه النماذج يُمكّن من الاستفادة من نقاط قوة كلٍّ منها لتحسين الأداء العام في تطبيقات مُحددة. يُقدم التوليد المُعزز بالاسترجاع (RAG) لمحةً شيّقة عن كيفية دمج مفهومي نماذج الاسترجاع والتوليد، وإن كان ذلك بطريقة دقيقة.

بدلاً من الجمع الصريح بين المفهومين في نموذج واحد، يستفيد RAG من نقاط قوة كلٍّ من الاسترجاع والتوليد لتحقيق نتائج أكثر فعالية. يستخدم RAG قدرات توليدية لإنتاج محتوى أو استجابات جديدة بناءً على الأنماط المكتسبة والفهم السياقي. وفي الوقت نفسه، يدمج آليات الاسترجاع من خلال الوصول إلى قاعدة معرفية لتوفير معلومات ذات صلة تُثري عملية التوليد وتُحسّنها. يسمح هذا النهج المزدوج لـ RAG بتوليد مخرجات أكثر دقةً وارتباطًا بالسياق.

بايت تعليمي: يُحاكي دمج نماذج الاسترجاع مع النماذج التوليدية في أنظمة RAG العمليات المعرفية البشرية. فعندما نبتكر شيئًا جديدًا، غالبًا ما تستعيد أدمغتنا أجزاءً من المعلومات ذات الصلة من الذاكرة، ثم نجمعها ونُحوّلها إلى أفكار جديدة.