تضمين النماذج لأنواع البيانات المختلفة
استكشف نماذج التضمين المختلفة المستخدمة لإنشاء تضمينات لأنواع مختلفة من البيانات.
سنغطي ما يلي...
نماذج التضمين
تُعد نماذج التضمين ركنًا أساسيًا في التعلم الآلي والذكاء الاصطناعي. فهي توفر آليةً لتمثيل البيانات الخام بصيغة منظمة وقابلة للتفسير. ومن خلال تحويل البيانات إلى فضاءات متجهية متصلة، تُمكّن نماذج التضمين الخوارزميات من التقاط العلاقات المعقدة والفروق الدلالية الدقيقة الكامنة في المعلومات الأساسية.
في الأقسام التالية، سنتعرف على أنواع مختلفة من نماذج التضمين المصممة لتناسب أنماط البيانات المختلفة.
نماذج تضمين الكلمات
تضمينات الكلمات هي تمثيلات رقمية للكلمات في فضاء متجه متصل. تلتقط هذه التضمينات العلاقات الدلالية بين الكلمات بناءً على استخدامها في مجموعة نصية معينة. تُسهّل تضمينات الكلمات مهام معالجة اللغة الطبيعية من خلال تمكين الخوارزميات من فهم معنى الكلمات وسياقها بطريقة أكثر وضوحًا وهيكلية، وذلك بتمثيل الكلمات كمتجهات كثيفة في فضاء متجه متصل. يلتقط كل بُعد في متجه التضمين جانبًا من معنى الكلمة، مما يجعل التمثيل أكثر إحكامًا وثراءً دلاليًا. غالبًا ما تُستخدم تضمينات الكلمات كميزات إدخال لمهام معالجة اللغة الطبيعية (NLP)، مثل تحليل المشاعر، وترجمة اللغات، وتصنيف النصوص، والتعرف على الكيانات المسماة.
تتضمن نماذج تضمين الكلمات الشائعة Word2Vec، وGloVe (المتجهات العالمية لتمثيل الكلمات)، وFastText، وELMO (التضمينات من نماذج اللغة)، وBERT (تمثيلات المشفر ثنائي الاتجاه من المحولات).
Word2Vec: Word2Vec هو نموذج شبكة عصبية سطحية يتعلم تضمينات الكلمات من خلال التنبؤ بالكلمات المجاورة في مجموعة كبيرة من النصوص.
GloVe (المتجهات العالمية لتمثيل الكلمات): GloVe هي خوارزمية تعلم غير خاضعة للإشراف للحصول على تضمينات الكلمات من خلال تحليل العوامل
.مصفوفة التواجد المشترك للكلمات تتتبع مصفوفة التكرار عدد مرات ظهور أزواج الكلمات معًا في سياق محدد. لكل كلمة في مستند، ننظر إلى نافذة الكلمات المحيطة. على سبيل المثال، إذا ضُبط حجم النافذة على 3، فإننا نأخذ في الاعتبار الكلمات الثلاث التي تسبق الكلمة المستهدفة والكلمات الثلاث التي تليها. مصفوفة التكرار هي مصفوفة تُظهر كل قيمة فيها عدد مرات ظهور كلمة ما في نافذة سياق كلمة أخرى. تساعد هذه المصفوفة على تحديد العلاقة بين الكلمات بناءً على قربها في النص. FastText: يقوم FastText بتوسيع Word2Vec من خلال مراعاة معلومات الكلمة الفرعية لتوليد تضمينات الكلمات، مما يتيح له التقاط أوجه التشابه الصرفية بين الكلمات.
ELMo (التضمينات من نماذج اللغة): يقوم ELMo بإنشاء تضمينات كلمات سياقية من خلال الجمع بين الميزات من نموذج لغوي ثنائي الاتجاه تم تدريبه على مجموعة كبيرة من النصوص.
BERT (تمثيلات مُرمِّز ثنائية الاتجاه من المُحوِّلات): يستخدم BERT بنية مُحوِّلة لتوليد تضمينات كلمات مُركَّبة. يُدرِّب مُسبقًا تمثيلًا ثنائي الاتجاه عميقًا على مجموعة بيانات كبيرة، والذي يُمكن بعد ذلك ضبطه بدقة لأداء ...