نماذج التضمين لأنواع البيانات المختلفة
استكشف نماذج التضمين المختلفة المستخدمة لإنشاء تضمينات لأنواع مختلفة من البيانات.
نماذج التضمين
تُعدّ نماذج التضمين حجر الزاوية في التعلّم الآلي والذكاء الاصطناعي، إذ تُوفّر آليةً لتمثيل البيانات الخام بصيغةٍ مُهيكلةٍ وقابلةٍ للتفسير. ومن خلال تحويل البيانات إلى فضاءات متجهة متصلة، تُمكّن نماذج التضمين الخوارزميات من استخلاص العلاقات المعقدة والفروق الدلالية الدقيقة الكامنة في المعلومات الأساسية.
في الأقسام التالية، سنتعرف على أنواع مختلفة من نماذج التضمين المصممة خصيصًا لطرائق البيانات المختلفة.
نماذج تضمين الكلمات
تمثيلات الكلمات هي تمثيلات رقمية للكلمات في فضاء متجهي متصل. تُجسّد هذه التمثيلات العلاقات الدلالية بين الكلمات بناءً على استخدامها في مجموعة نصوص معينة. تُسهّل تمثيلات الكلمات مهام معالجة اللغة الطبيعية، إذ تُمكّن الخوارزميات من فهم معنى الكلمات وسياقها بطريقة أكثر وضوحًا وهيكلية، وذلك من خلال تمثيل الكلمات كمتجهات كثيفة في فضاء متجهي متصل. يُجسّد كل بُعد في متجه التمثيل جانبًا من معنى الكلمة، مما يجعل التمثيل أكثر إيجازًا وثراءً دلاليًا. غالبًا ما تُستخدم تمثيلات الكلمات إدخال للعديد من مهام معالجة اللغة الطبيعية، مثل تحليل المشاعر، وترجمة اللغات، وتصنيف النصوص، والتعرف على الكيانات المسماة.
تشمل نماذج تضمين الكلمات الشائعة Word2Vec و GloVe (المتجهات العالمية لتمثيل الكلمات) و FastText و ELMO (التضمينات من نماذج اللغة) و BERT (تمثيلات المشفر ثنائي الاتجاه من المحولات).
Word2Vec: Word2Vec هو نموذج شبكة عصبية سطحية يتعلم تضمينات الكلمات من خلال التنبؤ بالكلمات المجاورة في مجموعة كبيرة من النصوص.
GloVe (المتجهات العالمية لتمثيل الكلمات): GloVe هي خوارزمية تعلم غير خاضعة للإشراف للحصول على تضمينات الكلمات عن طريق تحليلها إلى عوامل.
.مصفوفة التواجد المشترك للكلمات تُستخدم مصفوفة التواجد المشترك لتتبع عدد مرات ظهور أزواج الكلمات معًا ضمن سياق محدد. لكل كلمة في المستند، ننظر إلى نطاق الكلمات المحيطة بها. على سبيل المثال، إذا كان حجم النطاق 3، فإننا نأخذ في الاعتبار الكلمات الثلاث التي تسبق الكلمة المستهدفة والكلمات الثلاث التي تليها. مصفوفة التواجد المشترك هي مصفوفة تُظهر كل قيمة فيها عدد مرات ظهور كلمة ما ضمن نطاق كلمة أخرى. تساعد هذه المصفوفة في تحديد العلاقة بين الكلمات بناءً على تقاربها في النص. FastText: يقوم FastText بتوسيع Word2Vec من خلال مراعاة معلومات الكلمات الفرعية لإنشاء تضمينات الكلمات، مما يتيح له التقاط أوجه التشابه الصرفية بين الكلمات.
ELMo (التضمينات من نماذج اللغة): يقوم ELMo بإنشاء تضمينات الكلمات السياقية من خلال الجمع بين الميزات من نموذج لغة ثنائي الاتجاه تم تدريبه على مجموعة كبيرة من النصوص.
BERT (تمثيلات المشفر ثنائي الاتجاه من المحولات): يستخدم BERT بنية المحولات لتوليد تضمينات الكلمات السياقية. يقوم بتدريب تمثيل ثنائي الاتجاه عميق مسبقًا على مجموعة كبيرة من النصوص، والتي يمكن ...