تضمينات متعددة الوسائط
تعرف على التضمينات متعددة الوسائط وتطبيقاتها من خلال مثال على إنشاء تضمينات لمجموعات بيانات الصور والنصوص، مما يتيح البحث عن طريق أي من الوسائط.
التضمينات متعددة الوسائط: ماذا تعني؟
تُعدّ التضمينات متعددة الوسائط تمثيلات رقمية للبيانات، حيث تدمج المعلومات من أنواع بيانات متعددة - كالنصوص والصور والفيديوهات والصوتيات - في فضاء ميزات مشترك. وتُجسّد هذه التضمينات العلاقات والتفاعلات بين أنواع البيانات المختلفة. يُسهّل هذا التمثيل الموحد لأنواع البيانات المختلفة ميزات البحث الحديثة، مثل البحث عن المحتوى ذي الصلة عبر وسائط البيانات المختلفة باستخدام الصور والنصوص والصوتيات والفيديويات، وما إلى ذلك. في هذا الدرس، سنعمل مع الصور والنصوص لتبسيط الأمور.
واجهات برمجة تطبيقات التضمين متعدد الوسائط
توفر العديد من واجهات برمجة التطبيقات نماذج مُدرَّبة مسبقًا لإنشاء تمثيلات متعددة الوسائط، مما يُسهِّل دمج هذه الإمكانيات في مختلف التطبيقات. فيما يلي قائمة ببعض واجهات برمجة التطبيقات الشائعة الاستخدام لإنشاء تمثيلات متعددة الوسائط.
نموذج CLIP من OpenAI: نموذج CLIP (التدريب المسبق للغة والصور المتباينة) من OpenAI مصمم لفهم الصور والنصوص وربطها ببعضها. يقوم هذا النموذج عادةً بإنشاء تمثيلات مضمنة ذات 512 بُعدًا لكل من الصور والنصوص. تُمكّن هذه التمثيلات النموذج من فهم المعلومات المرئية والنصية ومواءمتها في فضاء كامن مشترك، مما يتيح تصنيف البيانات واسترجاع النصوص من الصور دون الحاجة إلى تدريب مسبق.
تضمينات جوجل متعددة الوسائط: يُنشئ نموذج تضمينات جوجل متعددة الوسائط تضمينات متجهة ذات 1408 بُعدًا من المدخلات التي نقدمها، والتي قد تشمل مزيجًا من الصور والنصوص وبيانات الفيديو. يمكن استخدام متجهات التضمين هذه للبحث عن الصور والفيديوهات، وتصنيفها، وتقديم توصيات بالإعلانات أو المنتجات بناءً على صورة أو فيديو.
خدمة تحليل الصور بالذكاء الاصطناعي من مايكروسوفت أزور: توفر أزور نموذج تضمين متعدد الوسائط يُنشئ تضمينات متجهة ذات 1024 بُعدًا للصور (أو إطارات الفيديو) والنصوص. تدعم هذه التضمينات تطبيقاتٍ مثل إدارة الأصول الرقمية، والأمن، واسترجاع الصور الجنائية، والتجارة الإلكترونية، والأزياء، وذلك من خلال تمكين عمليات البحث بناءً على السمات المرئية والأوصاف. مع ذلك، فإن هذا النموذج غير مُصمم لتحليل الصور الطبية، ولا يُنصح باستخدامه لأغراض طبية.
ملاحظة: سنستخدم واجهة برمجة API تضمين الوسائط المتعددة CLIP من OpenAI في أمثلتنا.
API برمجة تطبيقات تضمين الوسائط المتعددة من OpenAI: CLIP
يتم تدريب نموذج CLIP على مجموعة بيانات صور كبيرة مع وصف نصي مطابق. يتم ترميز كل زوج من الصورة والنص إلى تضمينات باستخدام مُرمِّزين: مُرمِّز نصي ومُرمِّز صورة، كما هو موضح في ...