...

/

فهرسة HNSW في قواعد بيانات المتجهات لتحسين الأداء

فهرسة HNSW في قواعد بيانات المتجهات لتحسين الأداء

تعرف على HNSW، وهي طريقة فهرسة شائعة تستخدم في قواعد بيانات المتجهات للبحث الفعال.

سنغطي ما يلي...

تحدي البحث من خلال مجموعات البيانات الكبيرة

Imagine we need to find similar embeddings for a query from a massive collection of embeddings stored locally or in a database. Without any indexing mechanism, this search would involve comparing the query embedding with each stored embedding individually, resulting in a search process that takes linear time proportional to the total number of embeddings. For large datasets, like those on the World Wide Web, this would require an exhaustive comparison, making the process extremely slow and impractical.

Press + to interact
Searching through large dataset
Searching through large dataset

الفهرسة لتسريع عمليات البحث

تستخدم قواعد البيانات الفهرسة لتسريع عملية البحث. والفهرسة هي عملية تنظيم البيانات لتحسين سرعة وكفاءة عمليات الاسترجاع. يعمل الفهرس كخريطة طريق أو مؤشر يُساعد على تحديد موقع البيانات المطلوبة والوصول إليها بسرعة دون الحاجة إلى البحث في مجموعة البيانات بأكملها بشكل تسلسلي. تُخزّن قواعد بيانات المتجهات البيانات على نموذج متجهات، حيث يُمثل كل متجه نقطة في فضاء متعدد الأبعاد. الهدف من الفهرسة في قواعد بيانات المتجهات هو العثور بسرعة على متجهات مشابهة أو أقرب إلى متجه استعلام مُحدد.

Press + to interact
Linear search takes more time while indexing helps quickly locate and access required data by finding the index that points to the required data and then searching from a reduced set of data
Linear search takes more time while indexing helps quickly locate and access required data by finding the index that points to the required data and then searching from a reduced set of data

تستخدم قواعد البيانات التقليدية أساليب فهرسة مثل أشجار B وجداول التجزئة ، وهي مناسبة تمامًا لأنواع البيانات القياسية. صُممت أساليب الفهرسة هذه لتحقيق عمليات بحث فعّالة للمطابقة التامة واستعلامات النطاق. من ناحية أخرى، تستخدم قواعد بيانات المتجهات أساليب فهرسة متخصصة مُحسّنة للمساحات عالية الأبعاد، مثل الرسوم البيانية لـ HNSW (عالم صغير قابل للملاحة هرميًا) مالكوف، يو أ.، وديمتري أ. ياشونين. "بحث تقريبي فعال وقوي لأقرب جار باستخدام رسوم بيانية هرمية قابلة للتنقل للعالم الصغير". معاملات معهد مهندسي الكهرباء والإلكترونيات في تحليل الأنماط والذكاء الاصطناعي، المجلد 42، العدد 4 (2018): 824-836. و أشجار KD أشجار KD مع الأخذ في الاعتبار أن الطريقة الأخيرة تُفضّل استخدامها مع البيانات منخفضة إلى متوسطة الأبعاد (حتى عشرة أبعاد). صُممت هذه الطرق لعمليات البحث عن التشابه، حيث يكون الهدف هو العثور على نقاط البيانات الأقرب إلى نقطة استعلام مُحددة في فضاء المتجه. في هذا الدرس، سنتعمق في HNSW، وهي طريقة فهرسة متطورة تُستخدم في قواعد بيانات متجهة مُختلفة.

الرسم البياني للعالم الصغير القابل للملاحة الهرمي (HNSW)

رسوم بيانية HNSW هي هياكل بيانات متقدمة مصممة للبحث التقريبي عن أقرب جار (ANN). تجمع هذه الرسوم بين مفهومي رسوم بيانية العالم الصغير القابلة للتصفح وقوائم التخطي، مما يتيح البحث والتنقل بكفاءة في مجموعات البيانات الكبيرة.

رسم بياني للعالم الصغير القابل للملاحة (نيو ساوث ويلز)

رسوميات العالم الصغير القابلة للتنقل (NSW) هي هياكل بيانات تُسهّل البحث والتنقل بكفاءة في مجموعات البيانات الكبيرة، وخاصةً في مجال بحث الشبكات العصبية الاصطناعية. ينبع مفهوم "العالم الصغير" في رسوميات العالم الصغير القابلة للتنقل من "ظاهرة العالم الصغير" في نظرية الشبكات الاجتماعية، والتي تشير إلى إمكانية الوصول إلى معظم العقد في شبكة كبيرة من أي مصدر آخر. العقدة تشير العقدة إلى شخص في شبكة اجتماعية. في قواعد بيانات المتجهات، تشير إلى متجه. من خلال عدد قليل نسبيًا من الروابط الوسيطة. وقد شاع هذا المفهوم بفضل نظرية "درجات الانفصال الست" الشهيرة، التي تقترح أن أي شخصين في العالم يفصل بينهما، في المتوسط، ستة روابط اجتماعية فقط. واتس وستروغاتز واتس، دنكان ج.، وستيفن هـ. ستروغاتز. "الديناميكيات الجماعية لشبكات "العالم الصغير". مجلة الطبيعة، 393، العدد 6684 (1998): 440-442. قام جيمس جوبز وآخرون بصياغة هذه الفرضية رسميًا في نظرية الشبكات في عام 1998، حيث قدموا فكرة مفادها أن الشبكات في العالم الحقيقي غالبًا ما تحتوي على معاملات تجميع عالية وأطوال مسارات متوسطة قصيرة.

Press + to interact
Representing a navigable small-world graph
Representing a navigable small-world graph
  • يعني التكتل ...