مقدمة عن الدورة

احصل على نظرة عامة سريعة على الدورة، والتي تغطي المتطلبات الأساسية للدورة، والجمهور المستهدف، والبنية، ونتيجة التعلم المتوقعة.

سنغطي ما يلي...

مرحبًا بكم في دورتنا الشاملة حول قواعد بيانات المتجهات، حيث ستتعلم كل شيء بدءًا من إنشاء التضمينات وحتى تطوير التطبيقات المؤثرة.

تُعد قواعد بيانات المتجهات عنصرًا أساسيًا في أنظمة الذكاء الاصطناعي التوليدي. ويُعتبر الذكاء الاصطناعي التوليدي نموذج متقدمًا من الذكاء الاصطناعي، قادرًا على توليد أنواع متنوعة من المحتوى التركيبي، مثل النصوص والصور والمقاطع الصوتية والفيديو، استنادًا إلى أنماط ومعلومات من البيانات الموجودة. وتنبع شعبيته الأخيرة من سهولة استخدامه وسرعة إنتاجه لمحتوى عالي الجودة. ويُبرز هذا النمو في الذكاء الاصطناعي التوليدي الأهمية المتزايدة لقواعد بيانات المتجهات، التي تُعدّ أساسية لإدارة واسترجاع الكميات الهائلة من البيانات المُستخدمة في إنشاء المحتوى المُدار بالذكاء الاصطناعي. صُممت هذه الدورة لمساعدتك على فهم الجوانب الأساسية لتقنية تخزين واسترجاع البيانات المهمة هذه (التضمينات وقواعد بيانات المتجهات)، مما يُتيح توليد محتوى سريع.

في هذا الدرس، سنقدم نظرة عامة على الدورة، بما في ذلك المتطلبات الأساسية للدورة، والجمهور المستهدف، وهيكل الدورة.

ما هي هذه الدورة؟

تتناول هذه الدورة فهم وتطبيق مفهوم التضمينات واستخدام قواعد بيانات المتجهات في تطبيقات البيانات الحديثة، وتعزيز أدائها، وإضافة الذكاء.

Embeddings serve as numerical representations of data, capturing relationships and patterns within the dataset. Vector databases, on the other hand, provide the infrastructure necessary for efficiently storing and querying these embeddings. By leveraging vector databases, applications can integrate embeddings into search, recommendation, and similarity detection tasks, enhancing overall functionality and performance.

Press + to interact
A vector database storing numerical representations of various data types
A vector database storing numerical representations of various data types

تغطي هذه الدورة جميع المعارف الأساسية اللازمة للاستفادة من التضمينات وقواعد بيانات المتجهات بناء تطبيقات فعّالة وذكية. وتشمل توليد تضمينات لأنواع مختلفة من مجموعات البيانات، واستكشاف ودمج قواعد بيانات متجهة مفتوحة المصدر لتخزين التضمينات، وبناء تطبيقات فعّالة وذكية تعتمد على بيانات المتجهات.

المتطلبات الأساسية

لتتمكن من أخذ هذه الدورة، يجب أن يكون لديك:

  • المعرفة بالمفاهيم الأساسية في علم البيانات والتعلم الآلي مطلوبة.

  • المعرفة بلغة البرمجة Python مطلوبة.

  • مطلوب فهم إطار عمل PyTorch ومكتبات Python مثل NumPy وPIL وMatplotlib وscikit-learn وpandas.

الجمهور المستهدف

صُممت هذه الدورة لعلماء البيانات، ومهندسي التعلم الآلي، ومطوري البرمجيات، وأي شخص مهتم باستكشاف التداخل بين إدارة البيانات، والتعلم الآلي، وتطوير التطبيقات الحديثة واسعة النطاق. سواء كنت ترغب في تعزيز مهاراتك الحالية في إدارة بيانات التطبيقات الحديثة، أو تصميم وتطوير أنظمة واسعة النطاق تعتمد على التعلم الآلي، أو دخول مجال الذكاء الاصطناعي التوليدي الجديد، فإن هذه الدورة تقدم رؤى قيّمة وتقنيات عملية للاستفادة من قواعد بيانات المتجهات والتضمينات في مشاريعك.

هيكل الدورة

لتسهيل فهم الدورة، دعونا نلقي نظرة سريعة على هيكلها. سنبدأ بتقديم مفهوم التضمينات وقواعد بيانات المتجهات، وفهم آلية عملها. سنستكشف دور قواعد بيانات المتجهات في نماذج اللغات الكبيرة (LLMs). بعد ذلك، سنقدم لمحة عامة عن الطرق الرياضية المستخدمة لإيجاد التشابه بين المتجهات. سنستكشف نماذج تعلم الآلة المختلفة التي تحوّل بيانات النصوص والصور والصوت والفيديو إلى تضمينات متجهة. سنتعلم كيفية إنشاء تضمينات للنصوص باستخدام BERT، وللصور والفيديوهات باستخدام CNN، وللصوت باستخدام مخطط الطيف MELT، ولأنواع البيانات المدمجة باستخدام CLIP. باستخدام هذه التضمينات، بناء تطبيقات بحث التشابه الدلالي عبر البيانات أحادية ومتعددة الوسائط.

بعد فهم مفهوم التضمينات وكيفية إنشائها، سنستكشف مختلف قواعد بيانات المتجهات مفتوحة المصدر، بما في ذلك Chroma DB وFAISS وQdrant وMilvus. سنقدم لمحة عامة عن تصميمها وندرس الميزات مفتاح لكل قاعدة بيانات، مما يساعدنا على تحليل واختيار أفضل قاعدة بيانات لحالة استخدام معينة. سندمج قاعدة بيانات متجهات Chroma في مشروعنا من خلال أمثلة برمجية. سنتعلم كيفية إنشاء مثيل لقاعدة بيانات متجهات Chroma وإجراء عمليات مختلفة على قواعد البيانات، مثل تخزين المتجهات والاستعلام عنها. سنستكشف أيضًا تقنيات تحسين الأداء، مع التركيز على HNSW، وهي طريقة فهرسة المتجهات الأكثر شيوعًا لتحسين أداء الاستعلام.

خلال الدورة، بناء تطبيقات مُختلفة، مثل أنظمة مطابقة الوظائف وأنظمة كشف تشابه الصور والصوت والفيديو. وفي النهاية، سنُطبّق ما تعلمناه بناء نظام عملي لتوصيات الموسيقى. وأخيرًا، سنُختتم الدورة بتلخيص مفتاح النقاط المُستفادة ومناقشة الخطوات التالية في رحلتنا.

Flow of the course

نتائج التعلم

بنهاية هذه الدورة، ستكتسب فهمًا شاملًا لقواعد بيانات المتجهات والتضمينات، ومهارات عملية في توليد التضمينات ومعالجتها، والقدرة على بناء تطبيقات فعّالة باستخدام قواعد بيانات المتجهات مفتوحة المصدر. كما ستكون مستعدًا جيدًا لاستكشاف مواضيع متقدمة في قواعد بيانات المتجهات وتطبيق معرفتك على مشاريع واقعية.