...

/

إنشاء تضمينات بيانات نصية باستخدام BERT

إنشاء تضمينات بيانات نصية باستخدام BERT

تعرف على كيفية استخدام BERT لإنشاء تضمينات لبيانات النصوص، بدءًا من تضمينات على مستوى الكلمة وحتى تضمينات على مستوى الجملة والمستند.

سنغطي ما يلي...

مجموعة البيانات

في مثالنا الكامل في نهاية الدرس، سنستخدم مجموعة بيانات المسمى الوظيفي والوصف https://www.kaggle.com/datasets/kshitizregmi/jobs-and-job-description لتوليد تضمينات نصية وإجراء بحث دلالي للعثور على وظائف تطابق استعلامًا معينًا.

سنتبع نهجًا منهجيًا في هذا المثال، بدءًا بشرح نموذج التضمين. ثم سنشرح عملية إنشاء تضمينات الكلمات والجمل/المستندات باستخدام أمثلة نصية بسيطة. وأخيرًا، سنطبق ما تعلمناه على مجموعة بيانات "المسمى الوظيفي والوصف" بناء تطبيق صغير للبحث عن وظائف.

نموذج التضمين: BERT

يُعد BERT خيارًا شائعًا لإنشاء تضمينات الكلمات والجمل والمستندات.

BERT (تمثيلات مُرمِّز ثنائية الاتجاه من المُحوِّلات) هو نموذج مُتطوِّر لمعالجة اللغة الطبيعية، طُوِّر من قِبَل جوجل. صُمِّمَ هذا النموذج لالتقاط السياق ثنائي الاتجاه للكلمات في مجموعة نصية من خلال التدريب المُسبق على كميات كبيرة من بيانات النصوص غير المُصنَّفة. تشمل المكونات الرئيسية لنموذج تضمين BERT ما يلي:

  • الترميز: يُحوّل BERT النص إدخال إلى رموز كلمات فرعية باستخدام ترميز WordPiece. هذا يُمكّن BERT من التعامل مع الكلمات غير المُستخدمة في المفردات ورصد الاختلافات الصرفية.

  • بنية المحول: يستخدم BERT بنية محولة تتكون من طبقات متعددة من آليات الانتباه الذاتي وشبكات عصبية تغذية أمامية. تُمكّن هذه البنية BERT من التقاط المعلومات السياقية من السياقين الأيمن والأيسر لكل كلمة في الجملة.

  • التدريب المسبق: يُدرَّب BERT مسبقًا على مجموعات نصوص كبيرة باستخدام مهمتي تعلُّم غير مُراقَب: نموذج اللغة المُقنَّع (MLM) والتنبؤ بالجملة التالية (NSP). في نموذج اللغة المُقنَّع، يتنبَّأ BERT بالكلمات المُقنَّعة في الجملة بناءً على سياق الكلمات المحيطة بها. أما في نموذج NSP، فيتنبَّأ BERT بظهور جملتين متتاليتين في النص الأصلي.

  • توليد التضمين: أثناء التدريب المسبق، يتعلم BERT تضمينات سياقية لكل رمز في النص إدخال . تلتقط هذه التضمينات معنى الكلمات الفردية وعلاقتها بالكلمات المحيطة بها في سياق الجملة.

  • الضبط الدقيق: بعد التدريب المسبق، يُمكن ضبط BERT بدقة في المهام اللاحقة، مثل تصنيف النصوص، والتعرف على الكيانات المُسمّاة، وتحليل المشاعر. يُكيّف الضبط الدقيق مُعاملات BERT مع المهمة المُحددة، مما يُحسّن أدائها.

نموذج BERT المدرب مسبقًا ( bert-base-uncased )

نموذج bert-base-uncased هو نسخة مُدرَّبة مسبقًا من BERT، طوَّرتها جوجل. وهو أداة فعّالة لتوليد تضمينات عالية الجودة، تلتقط المعلومات السياقية والمعنى الدلالي في نصوص اللغة الطبيعية. سنستخدمه لتوليد تضمينات للكلمات والجمل والمستندات.

  • حجم النموذج: يشير bert-base-uncased إلى الإصدار الأساسي من BERT، والذي يتكون من 12 طبقة محولات، و768 وحدة مخفية (أبعاد) في كل طبقة، و110 ملايين معلمة إجمالاً. وهو إصدار أصغر نسبيًا مقارنةً بالإصدارات الأكبر حجمًا مثل bert-large .

  • متغير غير مُعَلَّم: يشير هذا المتغير إلى أن النموذج مُدرَّب على نص غير مُعَلَّم، حيث يُحوَّل النص بأكمله إلى أحرف صغيرة أثناء عملية الترميز. هذا المتغير مناسب للمهام التي لا تُعَدُّ فيها حساسية حالة الأحرف أمرًا بالغ الأهمية. ...