التضمينات متعددة الوسائط
تعرف على التضمينات المتعددة الوسائط وتطبيقاتها من خلال مثال لإنشاء تضمينات لمجموعات البيانات النصية والصور، مما يتيح البحث باستخدام أي من الوسائط.
سنغطي ما يلي...
التضمينات متعددة الوسائط: ماذا تعني؟
التضمينات متعددة الوسائط هي تمثيلات رقمية للبيانات تدمج معلومات من أنواع بيانات متعددة - نصوص، صور، فيديو، وصوت - في مساحة خصائص مشتركة. تلتقط هذه التضمينات العلاقات والتفاعلات بين أنواع البيانات المختلفة. يُسهّل هذا التمثيل الموحد لأنواع البيانات المختلفة ميزات البحث الحديثة، مثل البحث عن المحتوى ذي الصلة عبر أنماط بيانات مختلفة باستخدام الصور، النصوص، الصوت، الفيديو، إلخ. في هذا الدرس، سنعمل مع الصور والنصوص لتبسيط الأمور.
واجهات برمجة التطبيقات للتضمين متعدد الوسائط
توفر العديد من واجهات برمجة التطبيقات نماذج مُدرَّبة مسبقًا لتوليد تضمينات متعددة الوسائط، مما يُسهِّل دمج هذه الإمكانيات في تطبيقات مُختلفة. فيما يلي بعض واجهات برمجة التطبيقات الشائعة الاستخدام للتضمين متعدد الوسائط.
نموذج CLIP من OpenAI: CLIP (التدريب المسبق للغة التباينية والصور) من OpenAI هو نموذج مصمم لفهم الصور والنصوص وربطها. يُولّد هذا النموذج عادةً تضمينات ذات 512 بُعدًا لكلٍّ من الصور والنصوص. تُمكّن هذه التضمينات النموذج من فهم المعلومات المرئية والنصية ومواءمتها في مساحة كامنة مشتركة، مما يُتيح تصنيفًا من الصفر واسترجاع الصور إلى نص.
تضمينات جوجل متعددة الوسائط: يُولّد نموذج جوجل للتضمين متعدد الوسائط تضمينات متجهية ذات 1408 أبعاد من المُدخلات التي نُقدّمها، والتي يُمكن أن تشمل مزيجًا من الصور والنصوص وبيانات الفيديو. يُمكن استخدام متجهات التضمين هذه للبحث عن الصور والفيديوهات، وتصنيفها، وتقديم توصيات الإعلانات أو المنتجات بناءً على صورة أو فيديو.
خدمة تحليل الصور بتقنية الذكاء الاصطناعي من مايكروسوفت أزور: توفر أزور نموذج تضمين متعدد الوسائط يُولّد تضمينات متجهية ذات 1024 بُعدًا للصور (أو إطارات الفيديو) والنصوص. تدعم هذه التضمينات تطبيقات مثل إدارة الأصول الرقمية، والأمن، واسترجاع الصور الجنائية، والتجارة الإلكترونية، والأزياء، من خلال تمكين عمليات البحث بناءً على الميزات والأوصاف المرئية. مع ذلك، فإن هذا النموذج غير مُصمم لتحليل الصور الطبية، ولا ينبغي استخدامه للأغراض الطبية.
ملاحظة: سوف نستخدم واجهة برمجة API CLIP للتضمين المتعدد الوسائط من OpenAI في أمثلتنا.
API برمجة تطبيقات التضمين المتعددة الوسائط من OpenAI: CLIP
يتم تدريب CLIP على مجموعة بيانات صور كبيرة مع أوصاف نصية مقابلة. يتم ترميز كل زوج من الصور والنصوص في تضمينات باستخدام مُرمِّزين: مُرمِّز نصي ومُرمِّز صورة، كما هو موضح في ...