ترميز النص
تعرف على كيفية تقسيم النص إلى رموز باستخدام أساليب معالجة اللغة الطبيعية والمحولات.
سنغطي ما يلي...
للبدء في استخدام المحولات لتطوير روبوتات الدردشة، من الضروري فهم كيفية تفسير الآلات للنصوص. بما أن الآلات تعتمد في الأساس على الأرقام، نبدأ بتحويل النص إلى نموذج يمكن للآلات فهمها من خلال عملية تُسمى "الترميز". الترميز هو حلقة الوصل بين النص الخام والبيانات القابلة للقراءة آليًا، حيث يُقسّم النص إلى وحدات أصغر أو رموز. تُعد هذه الخطوة أساسية لتطوير روبوتات الدردشة، إذ تتيح لنا معالجة مُدخلات المستخدم مُسبقًا.
Tokenization: Breaking down text
نبدأ بتقسيم النص أو إدخال إلى رموز.
دعونا نلقي نظرة على مثال بسيط لكيفية تقسيم النص إلى رموز.
في الأساس، يُقسّم النص إلى كلمات، بما في ذلك الفواصل والنقاط والفواصل، وما إلى ذلك. ويمكن تطوير عملية الترميز بتطبيق أساليب دقيقة.
الخطوة الأولى هي تحويل جميع الكلمات إلى أحرف صغيرة. تساعد هذه العملية على توحيد المدخلات في سياقات مختلفة، وهي ضرورية لتحسين أداء النموذج، إذ تُقلل حجم المفردات التي يحتاجها. ويعني حجم المفردات الأصغر تعقيدًا حسابيًا أقل وقدرات تعميم أفضل، مما يجعل روبوت المحادثة أكثر كفاءة واستجابة.
الآن نقسم النص إلى كلمات. يمكن تقسيم النص وفقًا لقواعد محددة. على سبيل المثال، ...