Search⌘ K
AI Features

توليد تضمينات بيانات نصية باستخدام BERT

تعلم كيفية استخدام BERT لإنشاء تضمينات لبيانات نصية، بدءًا من تضمينات مستوى الكلمة وحتى تضمينات مستوى الجملة والمستند.

مجموعة البيانات

في مثالنا الكامل في نهاية الدرس، سنستخدم مجموعة بيانات المسميات الوظيفية والأوصاف https://www.kaggle.com/datasets/kshitizregmi/jobs-and-job-description لإنشاء تضمينات نصية وإجراء بحث دلالي للعثور على وظائف تطابق استعلامًا معينًا.

سنتبع منهجًا منظمًا في هذا المثال، بدءًا بشرح نموذج التضمين. ثم سنشرح عملية توليد تضمينات الكلمات والجمل/المستندات باستخدام أمثلة نصية بسيطة. وأخيرًا، سنطبق ما تعلمناه على مجموعة بيانات "المسمى الوظيفي ووصفه" بناء تطبيق صغير للبحث عن وظائف.

نموذج التضمين: BERT

يُعد BERT خيارًا شائعًا لإنشاء تضمينات الكلمات والجمل والمستندات.

يُعدّ BERT (تمثيلات المشفر ثنائي الاتجاه من المحولات) نموذجًا متطورًا لمعالجة اللغة الطبيعية، طوّرته جوجل. وهو مصمم لالتقاط السياق ثنائي الاتجاه للكلمات في مجموعة نصوص من خلال التدريب المسبق على كميات كبيرة من بيانات نصية غير مصنفة. تشمل المكونات الرئيسية لنموذج تضمين BERT ما يلي:

  • التجزئة: يقوم نموذج BERT بتجزئة النص إدخال إلى كلمات فرعية باستخدام تقنية WordPiece. وهذا يُمكّن BERT من التعامل مع الكلمات غير الموجودة في القاموس ورصد الاختلافات الصرفية.

  • بنية المحولات: يستخدم نموذج BERT بنية محولات تتكون من طبقات متعددة من آليات الانتباه الذاتي وشبكات عصبية أمامية التغذية. تُمكّن هذه البنية نموذج BERT من استخلاص المعلومات السياقية من السياقين الأيمن والأيسر لكل كلمة في الجملة.

  • التدريب المسبق: يتم تدريب نموذج BERT مسبقًا على مجموعات نصوص ضخمة باستخدام مهمتين للتعلم غير الخاضع للإشراف: نموذج اللغة المقنّع (MLM) وتوقع الجملة التالية (NSP). في نموذج اللغة المقنّع، يتنبأ BERT بالكلمات المقنّعة في الجملة بناءً على سياق الكلمات المحيطة بها. أما في توقع الجملة التالية، فيتنبأ BERT بما إذا كانت جملتان متتاليتان في النص الأصلي.

  • توليد التضمينات: خلال مرحلة التدريب المسبق، يتعلم نموذج BERT تضمينات سياقية لكل رمز في النص إدخال . تُجسد هذه التضمينات معنى الكلمات الفردية وعلاقاتها بالكلمات المحيطة بها في سياق الجملة.

  • الضبط الدقيق: بعد التدريب المسبق، يمكن ضبط نموذج BERT بدقة على مهام لاحقة مثل تصنيف النصوص، والتعرف على الكيانات المسماة، وتحليل المشاعر. يعمل الضبط الدقيق على تكييف معلمات BERT مع المهمة المحددة، مما يحسن أدائه.

نموذج BERT المدرب مسبقًا (bert-base-uncased )

الbert-base-uncased هذا النموذج هو نسخة مُدرَّبة مسبقًا من نموذج BERT الذي طورته جوجل. وهو أداة فعّالة لإنشاء تمثيلات عالية الجودة تُجسّد المعلومات السياقية والمعنى الدلالي في النصوص اللغوية الطبيعية. سنستخدمه لإنشاء تمثيلات للكلمات والجمل والمستندات.

  • حجم النموذج:bert-base-uncased يشير هذا إلى النسخة الأساسية من نموذج BERT، والتي تتكون من 12 طبقة تحويل، و768 وحدة مخفية (أبعاد) في كل طبقة، و110 ملايين مُعامل إجمالاً. وهي نسخة أصغر نسبيًا مقارنةً بالنماذج الأكبر حجمًا مثلbert-large .

  • صيغة "بدون كتابة الأحرف الكبيرة": تشير هذه الصيغة إلى أن النموذج مُدرَّب على نص غير مكتوب بأحرف كبيرة، حيث يتم تحويل جميع الأحرف إلى أحرف صغيرة أثناء عملية التجزئة. هذه الصيغة مناسبة للمهام التي لا تُعدّ فيها حساسية الأحرف الكبيرة أمرًا بالغ الأهمية. ...