تجزئة النص إلى رموز

تعرف على كيفية تقسيم النص إلى رموز باستخدام أساليب معالجة اللغة الطبيعية والمحولات.

سنغطي ما يلي...

التجزئة: تحليل النص
مقدمة إلى NLTK لمعالجة النصوص
- ترميز النص باستخدام تقنيات معالجة اللغة الطبيعية
- ممارسة التجزئة باستخدام NLTK
تعزيز التجزئة باستخدام نماذج المحولات
- ترميز النص باستخدام المحولات
- ممارسة التجزئة باستخدام المحولات
التحديات والاعتبارات في معالجة النصوص

للبدء في استخدام المحولات لتطوير روبوتات الدردشة، من الضروري فهم كيفية تفسير الآلات للنصوص. بما أن الآلات تعتمد في الأساس على الأرقام، نبدأ بتحويل النص إلى نموذج يمكن للآلات فهمها من خلال عملية تُسمى "الترميز". الترميز هو حلقة الوصل بين النص الخام والبيانات القابلة للقراءة آليًا، حيث يُقسّم النص إلى وحدات أصغر أو رموز. تُعد هذه الخطوة أساسية لتطوير روبوتات الدردشة، إذ تتيح لنا معالجة مُدخلات المستخدم مُسبقًا.

في الأساس، يُقسّم النص إلى كلمات، بما في ذلك الفواصل والنقاط والفواصل، وما إلى ذلك. ويمكن تطوير عملية الترميز بتطبيق أساليب دقيقة.

الخطوة الأولى هي تحويل جميع الكلمات إلى أحرف صغيرة. تساعد هذه العملية على توحيد المدخلات في سياقات مختلفة، وهي ضرورية لتحسين أداء النموذج، إذ تُقلل حجم المفردات التي يحتاجها. ويعني حجم المفردات الأصغر تعقيدًا حسابيًا أقل وقدرات تعميم أفضل، مما يجعل روبوت المحادثة أكثر كفاءة واستجابة.
الآن نقسم النص إلى كلمات. يمكن تقسيم النص وفقًا لقواعد محددة. على سبيل المثال، يمكن تقسيمه إلى مسافات، أو نقطتين، أو علامات ترقيم، أو أحرف خاصة مثل سطر جديد (\n)، أو حتى وسوم HTML، وذلك حسب بنية النص ومتطلبات المهمة.
التفريع أو التقسيم إلى أجزاء لفظية مصطلحان شائعان في مجال معالجة اللغات الطبيعية. يُزيل التفريع الأجزاء النهائية (اللاحقة) أو الأجزاء الأولية (البادئة). على سبيل المثال، تصبح الجملة "إنه من النوع الذي يحب القراءة أثناء السفر" بعد التفريع "إنه من النوع الذي يحب القراءة أثناء السفر". أما التقسيم إلى أجزاء لفظية (من كلمة "ليما")، فيحدد ما إذا كانت لكلمتين جذور أو أصول متشابهة. على سبيل المثال، كلمتا "فئران" و"فأر" متماثلتان. الهدف من هذين المصطلحين هو تبسيط النص وإزالة الكلمات غير الضرورية من السياق.
تُسهم إزالة الكلمات غير المرغوبة في تبسيط النص إدخال من خلال إزالة الكلمات المُزعجة مثل "the" و"a" و"are". على سبيل المثال، تصبح الجملة "يا أوليفر، سائق رائع!" "يا أوليفر، سائق رائع". تُوفر مكتبات متعددة في Python وظائف لإزالة الكلمات غير المرغوبة.

مجموعة أدوات اللغة الطبيعية (NLTK) هي مكتبة توفر واجهات سهلة الاستخدام لأكثر من 50 موردًا لغويًا ومعجميًا، مثل WordNet. كما تتضمن مجموعة من مكتبات معالجة النصوص للتصنيف، والترميز، والتقسيم إلى أجزاء، والوسم، والتحليل، والاستدلال الدلالي، بالإضافة إلى أغلفة لمكتبات معالجة اللغة الطبيعية عالية الكفاءة، ومنتدى نقاش فعّال.

Python

# Import libraries
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')
# User input text
text = """Artificial intelligence will change the way we think, \
operate, and communicate. We believe that Artificial General \
Intelligence, refered to as AGI, would be reached in the \
next 5 to 7 years."""
# Start by converting the text to a lower case
text = text.lower()
print('Lowercase text:')
print('-'*80)
print(text)
# Tokenize text
tokens = word_tokenize(text)
# Output the tokens
print('-'*80)
print('Tokenized text:')
print('-'*80)
print(tokens)

في هذا الكود نقوم بالخطوات التالية:

الأسطر 1-4 : نقوم باستيراد مكتبة NLTK ووظيفتهاword_tokenize .
الأسطر 6-10 : نقدم النص المراد تقسيمه إلى رموز.
الأسطر 12-16 : نقوم بتحويل النص إلى أحرف صغيرة، ثم نقوم بطباعته.
الأسطر 18-24 : نقوم بتقسيم النص إلى رموز باستخدام الكلمة الوظيفية tokenized، ثم نقوم بطباعته.

بينما توفر تقنية معالجة اللغة الطبيعية (NLTK) أساسًا متينًا، توفر نماذج المحولات قدرات ترميز متقدمة تُعزز فهم روبوت الدردشة لدينا لتفاصيل اللغة. يستضيف Hugging Face مجموعة واسعة من نماذج المحولات المُدربة مسبقًا، مُقدمًا مجموعة من وحدات الترميز المُصممة لمهام معالجة اللغة الطبيعية (NLP) المُتنوعة. تستخدم نماذج، مثل BERT أو GPT، أساليب ترميز تُراعي السياق وتفاصيل الكلمات الفرعية، مُوفرةً مستوى أعمق من تحليل النصوص مُقارنةً بالطرق الأساسية.

دعونا نفهم الاختلافات والقدرات لكل طريقة:

Python

# Import libraries
# pip install transformers
# pip install tensorflow
from transformers import AutoTokenizer
# Define the model name
model_name = 'bert-large-uncased'
# Initialize tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)
# User input text
text = """Artificial intelligence will change the way we think, \
operate, and communicate. We believe that Artificial General \
Intelligence, refered to as AGI, would be reached in the \
next 5 to 7 years."""
print('Current text:')
print('-'*80)
print(text)
# Tokenize text
tokens = tokenizer.tokenize(text)
# Output the tokens
print('-'*80)
print('Tokenized text:')
print('-'*80)
print(tokens)

في هذا الكود نقوم بالخطوات التالية:

الأسطر 1-4 : نقوم باستيراد مكتبة المحولات ووظيفتهاAutoTokenizer .
السطرين 6-7 : نقوم بتحديد نموذج المحول الذي سيتم استخدامه.
السطرين 9-10 : نقوم بتهيئةtokenizer وظيفة.
الأسطر 12-16 : نقدم النص المراد تقسيمه إلى رموز.
الأسطر 18-20 : نقوم بطباعة النص الحالي.
الأسطر 22-28 : نقوم بتقسيم النص إلى رموز باستخدام محول الرموز، ثم نقوم بطباعته.

تُطرح معالجة النصوص في تطوير روبوتات الدردشة العديد من التحديات والاعتبارات، بدءًا من تعقيد اللغة البشرية وضرورة أن تفهم النماذج استفسارات المستخدمين وتستجيب لها بدقة. ومن أهم هذه التحديات التعامل مع تنوع الأنماط اللغوية بين مختلف اللغات واللهجات، مما قد يؤثر على قدرة روبوت الدردشة على تفسير الرسائل بشكل صحيح. ويتطلب ضمان فهم النموذج لنوايا المستخدم بدقة معالجة مسبقة دقيقة لبيانات النص لإزالة أي غموض.

علاوة على ذلك، يُشكّل التعامل مع اللغة العامية والتعبيرات الاصطلاحية والتعبيرات العامية تحديات إضافية، إذ قد تختلف باختلاف الثقافات والمجتمعات. يُعدّ دمج آليات لتفسير هذه التعبيرات بشكل صحيح أمرًا أساسيًا لبناء روبوتات دردشة تُشرك المستخدمين بشكل طبيعي. كما تُعدّ إدارة الأخطاء المطبعية والإملائية أمرًا أساسيًا للحفاظ على المتانة، إذ تتطلب خوارزميات متطورة تُمكّن من تحديد الأخطاء وتصحيحها دون إساءة تفسير رسالة المستخدم.

يتطلب التعامل مع هذه التحديات والاعتبارات في معالجة النصوص مزيجًا من تقنيات معالجة اللغة الطبيعية المتقدمة وخيارات تصميم دقيقة. بالتركيز على هذه الجوانب، يمكن للمطورين إنشاء روبوتات دردشة لا تفهم إدخال المستخدم وتعالجها بفعالية فحسب، بل تقدم أيضًا تجارب محادثة تفاعلية ومفيدة وتفاعلية.

Feature	NLTK	Transformers
Approach	Rule-based	Contextual
Handling Subwords	Not directly supported	Handles subwords efficiently
Context Sensitivity	Operates on individual tokens	considers sentence context
Performance on New Words	Struggles with out-of-vocabulary (OOV) words	Handles OOV words through subword tokenization
Computational Efficiency	Generally fast and lightweight	Can be computationally intensive due to model complexity
Output	List of tokens	Tokens with attention to context

1.مقدمة في بناء روبوتات المحادثة

2.فهم المحولات

Project

3.فهم نماذج اللغة الكبيرة (LLMs)

4.جمع البيانات وإعدادها

5.تحسين سير عمل RAG باستخدام LangChain

6.سلاسل الهندسة والاسترجاع الفورية

7.تطوير واجهة مستخدم روبوت محادثة باستخدام Streamlit

8.دمج وتقييم روبوتات المحادثة

9.مشروع التخرج

10.الخاتمة والتطورات المستقبلية

تجزئة النص إلى رموز

التجزئة: تحليل النص

مقدمة إلى NLTK لمعالجة النصوص

ترميز النص باستخدام تقنيات معالجة اللغة الطبيعية

ممارسة التجزئة باستخدام NLTK

تعزيز التجزئة باستخدام نماذج المحولات

ترميز النص باستخدام المحولات

ممارسة التجزئة باستخدام المحولات

التحديات والاعتبارات في معالجة النصوص