Search⌘ K
AI Features

استخدام قواعد بيانات المتجهات في حلول الذكاء الاصطناعي

تعرف على قواعد البيانات المتجهة، التي تتيح البحث السريع والفعال وإدارة البيانات عالية الأبعاد الضرورية لتطبيقات الذكاء الاصطناعي التوليدي.

عند استكشاف عالم الذكاء الاصطناعي، ولا سيما عند التعمق في الذكاء الاصطناعي التوليدي ونماذج التعلم الموجه، نركز غالبًا على النماذج، ولكن ماذا عن البيانات؟ تُعد إدارة وتخزين واسترجاع كميات هائلة من البيانات أمرًا بالغ الأهمية. ويُعتبر استخدام قواعد بيانات المتجهات جزءًا مفتاح من هذه العملية، خاصةً عند التعامل مع البيانات المتجهة مثل التضمينات التي تُولدها نماذج التعلم الموجه. تُشكل هذه القواعد العمود الفقري لتطبيقات مثل روبوتات المحادثة وأنظمة التوصية، حيث يُعد استرجاع البيانات بسرعة ودقة أمرًا ضروريًا.

في هذا الدرس، سنشرح ماهية قواعد البيانات المتجهة، وكيفية عملها، وبعض الأدوات الشائعة المتاحة. بنهاية الدرس، ستدرك أهمية فهم قواعد البيانات المتجهة لكل من يطور أنظمة مدعومة بالذكاء الاصطناعي تستخدم قوة نماذج التعلم الموجه.

ما هي قاعدة بيانات المتجهات؟

قاعدة بيانات المتجهات هي قاعدة بيانات متخصصة مصممة لتخزين أنواع مختلفة من البيانات - النصوص والصور والصوت والفيديو - بتنسيق رقمي يُسمى متجهًا . يُمثل كل متجه كائنًا عبر أبعاد متعددة، حيث يُمثل كل بُعد سمة بيانات محددة. على سبيل المثال، قد يتضمن متجه الصورة أبعادًا لشدة البكسل وقنوات الألوان وخصائص النسيج والموقع المكاني.

من خلال تخزين البيانات كمتجهات، تُمكّن قواعد البيانات المتجهة من المعالجة والتحليل الفعالين لأنواع البيانات المتنوعة من خلال التقنيات الرياضية، مما يجعل من السهل التلاعب بالبيانات المعقدة متعددة الأبعاد والبحث فيها.

A vector database housing vectorized data
A vector database housing vectorized data

لماذا لا نستخدم قواعد البيانات التقليدية؟

لا تُعدّ قواعد البيانات التقليدية (سواء العلائقية أو غير العلائقية) مناسبةً لتخزين البيانات المتجهة والاستعلام عنها. ويعود ذلك إلى افتقارها إلى البنى الفعّالة وتقنيات الفهرسة اللازمة لعمليات البحث المتجهة عالية الأبعاد، مما يجعلها أبطأ في التعامل مع مهام مثل البحث الدلالي والاستعلامات القائمة على التشابه.

دور قواعد بيانات المتجهات في تطبيقات الذكاء الاصطناعي

لنبدأ بسيناريو افتراضي. أنت بصدد بناء روبوت محادثة يعمل بالذكاء الاصطناعي لمساعدة المستخدمين بتوصيات أفلام مخصصة أو معلومات عن تغير المناخ. كيف يتمكن هذا الروبوت من القيام بذلك؟ في الواقع، يقوم النظام بتحويل البيانات غير المهيكلة، كالنصوص والصور والتسجيلات الصوتية، إلى تمثيلات رقمية أو متجهات . هذه المتجهات هي تمثيلات رقمية للبيانات، تُجسد المعنى والعلاقات.

والآن، لننظر إلى التحدي: عندما يطرح المستخدم سؤالاً على برنامج الدردشة الآلي، يحتاج البرنامج إلى استعراض ملايين المتجهات للعثور على استجابة الأنسب في الوقت الفعلي. وبدون طريقة سريعة وفعالة لتخزين هذه المتجهات والبحث فيها، سيستغرق برنامج الدردشة الآلي وقتاً طويلاً جداً للرد. وهنا يأتي دور قواعد بيانات المتجهات. فهي تجعل هذه العملية سريعة وفعالة للغاية، مما يسمح لأنظمة الذكاء الاصطناعي بتخزين المتجهات وإدارتها واسترجاعها على نطاق واسع.

معلومة طريفة: كان أول استخدام معروف لتضمينات المتجهات في أواخر التسعينيات لمعالجة اللغة الطبيعية (NLP)، وهي الآن تشغل مساعدين مثل سيري وأليكسا!

تجدر الإشارة إلى أن قواعد بيانات المتجهات ضرورية لمهام مثل البحث الدلالي وأنظمة التوصية، ولكنها لا تُستخدم مع جميع أنواع بيانات الذكاء الاصطناعي. وتبرز أهميتها عند استخدام التضمينات في المهام التي تتطلب عمليات بحث سريعة عن التشابه.

كيف تعمل قواعد بيانات المتجهات؟

لتحقيق أقصى استفادة من قواعد بيانات المتجهات، من المفيد فهم المفهوم الأساسي الذي تقوم عليه، وهو البحث عن أقرب جار تقريبي (ANN). صُممت طريقة البحث هذه للعثور بسرعة على المتجهات المشابهة لمتجه الاستعلام، حتى عند التعامل مع ملايين نقاط البيانات.

The client application generates embeddings for its dataset using an embedding model and stores the generated embeddings in a vector database
1 / 2
The client application generates embeddings for its dataset using an embedding model and stores the generated embeddings in a vector database

دعونا نشرح العملية بالتفصيل:

  1. توليد التضمين: يتم تحويل النصوص والصور وما إلى ذلك إلى متجهات باستخدام نماذج مثل BERT أو Word2Vec. ينتج BERT تضمينات قائمة على السياق، بينما ينشئ Word2Vec تضمينات ثابتة.

  2. الفهرسة: يتم فهرسة المتجهات من أجل استرجاع سريع باستخدام تقنيات مثل التجزئة الحساسة للموقع (LSH) أو العالم الصغير الهرمي القابل للتنقل (HNSW).

  3. البحث: يتم تحويل الاستعلامات إلى متجهات، وتقوم خوارزميات أقرب جار تقريبي (ANN) بالعثور على متجهات مماثلة بسرعة، مع التضحية ببعض الدقة مقابل السرعة.

  4. الاسترجاع: يتم استرجاع المتجهات الأكثر صلة وتمريرها إلى نموذج الذكاء الاصطناعي لتوليد الاستجابات، مثل الإجابة على الأسئلة أو تقديم التوصيات.

الآن وقد رأيت كيف تعمل قواعد البيانات المتجهة ولماذا هي مهمة للغاية، فأنت مستعد لاتخاذ الخطوة التالية في رحلتك في مجال الذكاء الاصطناعي - استكشاف التوليد المعزز بالاسترجاع (RAG) وإطلاق العنان لمزيد من الإمكانات من أنظمة الذكاء الاصطناعي الخاصة بك!

لغز

Missing Cards - Horizontal
Kindly put the cards in order to generate the sequence of how vector databases work. Note that the “Retrieval” card is fixed and cannot be moved.

All Cards
1
2
3
4
Missing Cards
(Drag and drop the cards in the blank spaces)

هل أنت مستعد لاستكشاف المزيد؟

اكتشف المزيد عن قواعد بيانات المتجهات من خلال دورتنا المتخصصة:

قواعد البيانات المتجهة: من التضمينات إلى التطبيقات