لماذا تختار RAG وهذه الدورة؟
تعرف على سبب ازدياد شعبية نظام RAG ولماذا قد تكون هذه الدورة مناسبة لك.
سنغطي ما يلي...
تخيل أداةً تُنشئ الأشياء من تلقاء نفسها: كتابة قصة، رسم صورة، ترجمة وثيقة. يُطلق على هذا الفرع من الذكاء الاصطناعي اسم الذكاء الاصطناعي التوليدي، وهو يعمل بشكلٍ يُشبه طالبًا يقرأ مكتبةً كاملةً في جلسةٍ واحدة، ثم يكتب كتابه الخاص بناءً على ما استوعبه. هكذا تعمل نماذج اللغة الضخمة: فهي مُدرَّبة على كميات هائلة من النصوص، وتستطيع إنتاج استجابات متماسكة ومناسبة للسياق لأي مُحفِّز تقريبًا.
تكمن المشكلة في أن معرفتهم تتوقف عند مرحلة التدريب. اسأل أي شخص حاصل على ماجستير في القانون عن حدث وقع الشهر الماضي، أو عن وثائق شركتك الداخلية، وسيقول إما أنه لا يعلم، أو الأسوأ من ذلك، سيختلق شيئًا ما بثقة. يُطلق على هذا النوع الثاني من الفشل اسم "الوهم"، وهو قيد حقيقي لأي تطبيق تُعدّ فيه الدقة أمرًا بالغ الأهمية.
لمعالجة هذه المشكلة، نشر باحثون في شركة Meta AI حلاً في عام 2020: التوليد المُعزز بالاسترجاع، أو RAG. تتلخص الفكرة في تزويد نموذج اللغة بمساعد. قبل أن يكتب النموذج استجابة، يبحث المساعد في قاعدة معرفية عن المعلومات الأكثر صلةً وحداثةً، ثم يمررها إلى النموذج. بعد ذلك، يستخدم النموذج هذا السياق المُسترجع لربط إجابته ببيانات حقيقية، وليس فقط بما تعلمه أثناء التدريب.
في هذه الدورة، سنتعرف على آلية عمل نظام RAG من الداخل إلى الخارج، بناء تطبيقًا باستخدام LangChain، ونُغلّفه بواجهة متصفح باستخدام Streamlit. في نهاية الدورة، سيكون لديك تطبيق جاهز للإجابة على أسئلة المستندات، وفهم واضح لكل مكون من مكوناته.
لمن هذه الدورة؟
هذه الدورة مخصصة لمطوري البرمجيات الذين يجيدون Python ولديهم فهم أساسي للتعلم الآلي. يُفضّل وجود خبرة سابقة في API OpenAI ومكتبات مثل pandas و scikit-learn. لا يشترط معرفة مسبقة بـ LangChain أو قواعد البيانات المتجهة أو RAG، حيث نغطي كل ذلك في هذه الدورة.
إذا كنت قد عملت مع نماذج اللغة من قبل وترغب في فهم كيفية جعلها أكثر دقة واستنادًا إلى بيانات حقيقية، فهذه هي الخطوة التالية الصحيحة.
ما الذي سنتناوله في هذه الدورة؟
سنبدأ بنوعي النماذج اللذين يجمعهما RAG، وهما نماذج الاسترجاع والنماذج التوليدية، وسننظر في سبب حلّ الجمع بينهما لمشاكل لا يستطيع أي منهما حلّها بشكل جيد بمفرده. بعد ذلك، سنستعرض مسار RAG بالكامل: فهرسة البيانات، وتشغيل الاسترجاع، وتوسيع نطاق المطالبات، وتوليد الاستجابات.
بمجرد وضع المفاهيم الأساسية، سنقوم بناء باستخدام LangChain: إعداد مخازن البيانات المتجهة باستخدام ChromaDB، وكتابة سلاسل الاسترجاع، وبناء مسار المعالجة الكامل باستخدام لغة التعبير الخاصة بـ LangChain. كما سنقوم بناء واجهة أمامية Streamlit لتمكين المستخدمين من تحميل المستندات وطرح الأسئلة عبر المتصفح.
بنهاية هذه الدورة، ستكون قادرًا على:
فهم أساسيات RAG: تعلم لماذا يوجد توليد معزز بالاسترجاع، وما هي المشاكل التي يحلها، وكيف تتناسب كل أجزاء خط الأنابيب معًا.
فهم بنية RAG: انظر بالضبط كيف يتصل مكون الاسترجاع بنموذج توليدي، وماذا يحدث في كل خطوة بين سؤال المستخدم والإجابة النهائية.
تطوير تطبيقات RAG عملية: بناء نظام RAG فعال باستخدام LangChain، بدءًا من التضمينات وتخزين المتجهات وصولاً إلى توليد استجابة .
استكشف التحسينات المتقدمة: اعمل مع ميزات LangChain الأكثر تعقيدًا وتعلم كيفية تقييم وتحسين أداء نظام RAG الخاص بك.
يمكنكم الاطلاع على المخطط الكامل للدورة التدريبية في الأداة التفاعلية أدناه:
بنهاية هذه الدورة، سنقوم بناء التطبيق التالي:
لتشغيل الأمثلة في هذه الدورة، ستحتاج إلى توفير مفتاح API الخاص بك من OpenAI . تتبع منصة Educative نهج "أحضر مفتاحك الخاص" (BYOK) ، مما يعني أن المنصة لا توفر مفاتيح API . تأكد من حصولك على مفتاح فعّال من OpenAI وقم بإعداده في بيئتك قبل تشغيل الكود.
For simplicity, we have not included the complete code at this stage. However, you are encouraged to click the “Run” button to see the application in action.
سنترك خلال رحلتكم التعليمية ملاحظات قصيرة بعنوان "معلومات قيّمة" ، تتضمن حقائق شيقة أو إجابات لأسئلة قد تخطر ببالكم أثناء القراءة. صُممت هذه المعلومات لإثراء تجربتكم التعليمية ومنحكم فهمًا أعمق لعالم التوليد المعزز بالاسترجاع.