Search⌘ K
AI Features

لمحة عامة عن المحولات

تعرف على كيفية إحداث المحولات ثورة في مجال التعلم العميق.

نماذج المحولات في الذكاء الاصطناعي المحادثة

على مدى العقود الماضية، أدت التطورات المتعددة في مجال معالجة اللغة الطبيعية (NLP) إلى تحقيق نماذج لغوية كبيرة (LLMs)، وعلى وجه الخصوص، إدخال المحولات. وقد طُرح هذا المفهوم في ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" عام ٢٠١٧، أعدها آشيش فاسواني وآخرون.

أحدثت المحولات ثورةً في مجال التعلم العميق، إذ قدمت بنيةً حديثةً تتفوق على الشبكات العصبية المتكررة (RNNs) وشبكات الذاكرة طويلة المدى (LSTM) التي كانت تُستخدم على نطاق واسع في التعلم العميق. لا تُبسط هذه البنية بنية الشبكات العصبية فحسب، بل تُقلل أيضًا من وقت التدريب بشكل كبير.

The evolution of NLP through time
The evolution of NLP through time

كانت الشبكات العصبية العميقة قيد التطوير لعقود. في تسعينيات القرن الماضي، وُضعت الشبكات العصبية المتكررة (RNNs). وبعد عامين، طُرحت شبكات الذاكرة طويلة المدى (LSTMs) عام ١٩٩٧. انتشر مفهوم آلية الانتباه الأساسية واستُخدم في بنى الشبكات العصبية حوالي عام ٢٠١٤، وساهم في تحسين أداء نماذج متسلسلة مختلفة، بما في ذلك الشبكات العصبية المتكررة (RNNs) والشبكات طويلة المدى (LSTMs) والوحدات المتكررة المبوّبة (GRUs). طُرح نموذج المحول في ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" عام ٢٠١٧. أصدر باحثون في جوجل نموذج BERT (تمثيلات المشفر ثنائي الاتجاه من المحولات) عام ٢٠١٨، ليصبح من أوائل النماذج التي تستخدم بنية المحول في مهام معالجة اللغة الطبيعية (NLP). تُستخدم نماذج المحولات على نطاق واسع، مع العديد من التعديلات والتحسينات في عام ٢٠١٨. نماذج مثل GPT وT5 وغيرها تُوظّف وتُظهر مرونة وفعالية بنيتها. تُستخدم المحولات على نطاق واسع في الذكاء الاصطناعي التوليدي، اعتبارًا من عام ٢٠٢٠، حيث تُظهر نماذج مثل GPT-3 قدرات مذهلة في توليد نصوص تُشبه النصوص البشرية.

بشكل أساسي، تُعالج المُحوِّلات النصوص عن طريق ترميز الكلمات. الترميز هو عملية تحويل النص إلى وحدات أصغر، أو رموز، مثل الكلمات أو الكلمات الفرعية. تُعد هذه الخطوة أساسية لتحويل اللغة الطبيعية إلى صيغة يُمكن للنموذج معالجتها. ثم تُحوَّل هذه الرموز إلى تمثيلات متجهية باستخدام جداول تضمين الكلمات، مما يُمكِّن النموذج من فهم النص وتوليده. تُستخدم المُحوِّلات في العديد من التطبيقات التي نستخدمها يوميًا، مثل ميزات إكمال النص في تطبيقات مراسلة الهواتف الذكية (التنبؤ بالكلمة التالية والتصحيح التلقائي).

Device keyboard
Device keyboard

بمجرد تضمين النص، تقوم آلية الاهتمام داخل نموذج المحول بمعالجة وتفسير بيانات إدخال ، مما يوفر فهمًا أكثر دقة وقدرة على إنشاء نص. وبشكل أساسي، تسمح آلية الاهتمام للنموذج بالتركيز على أجزاء مختلفة من بيانات إدخال عند إنشاء كل كلمة في إخراج من خلال الانتباه إلى الكلمة الأكثر صلة في كل خطوة من التسلسل. ويتحقق ذلك من خلال حساب مقدار الأهمية التي يجب أن تتلقاها كل كلمة في تسلسل إدخال بالنسبة للكلمات الأخرى عند التنبؤ بكلمة معينة في إخراج. تستخدم آلية الاهتمام الذاتي مجموعات من الاستعلامات والمفاتيح والقيم المستمدة من بيانات إدخال لإجراء هذا الحساب. ونتيجة لذلك، يمكن للمحولات فهم السياق والعلاقات بين الكلمات. تتيح هذه القدرة على تخصيص الاهتمام عبر تسلسل إدخال للمحولات إنشاء استجابات تعزز جودة التفاعل في تطبيقات مثل برامج الدردشة الآلية.

يُمرَّر إخراج آلية الانتباه الذاتي عبر شبكة عصبية تغذية أمامية لمعالجة تلك البيانات قبل إخراج النهائي. في التطبيقات العملية، مثل كتابة الرسائل في تطبيق مراسلة، تُقترَح بضع كلمات على المستخدم. بعد ذلك، تُرسَل الجملة إلى شبكة عصبية تتنبأ بالكلمات المحتملة التالية باستخدام متجه احتمالي، كما هو موضح أدناه.

Neural network
Neural network

تسمح هذه القدرة التنبؤية النابعة من قدرة المحول على تقييم السياق ومدى أهمية كل كلمة في التسلسل، بتوليد اقتراحات ذات صلة بالسياق، مما يعزز تجربة المستخدم.

فهم بنية المحولات

على الرغم من أن بنية المحولات أقل تعقيدًا في الفهم من الشبكات العصبية المتكررة، إلا أنها تتكون من العديد من الكتل والطبقات، حيث يتألف كل مكون من عدة طبقات إضافية. فيما يلي بنية المحولات الشهيرة:

Transformers architecture
Transformers architecture

لفهم المحولات، نحتاج إلى فصل بنيتها إلى كتلتين رئيسيتين: المشفر (على الجانب الأيسر من الصورة السابقة) وفك التشفير (على الجانب الأيمن).

المشفر

  1. يتم إرسال النص إلى نموذج المحول.

  2. يتم ترميز النص باستخدام أساليب التجزئة والتضمين.

  3. يتم تطبيق الترميز الموضعي على متجه إخراج السابق للحفاظ على ترتيب الكلمات في الجملة أو الفقرة.

  4. يتم إجراء الانتباه الذاتي باستخدام متجهات الاستعلام مفتاح قيمة على المتجهات الموضعية المشفرة. يُؤخذ حاصل الضرب النقطي بين الاستعلامات والمفاتيح لإنتاج درجة (انظر الصورة 1 أدناه)، والتي تُقاس بعد ذلك وتُمرر عبر دالة سوفت ماكس لإنشاء أوزان الانتباه (انظر الصورة 2 أدناه). تُستخدم الأوزان لإنشاء مجموع مرجح لمتجهات قيمة . رياضيًا، يمكن تمثيل ذلك على النحو التالي:

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

  1. تُضاف متجهات إخراج من آلية الانتباه الذاتي إلى متجهات إدخال الأصلية عبر اتصال متبقي. يضيف الاتصال المتبقي ببساطة إدخال طبقة فرعية (مثل طبقة الانتباه الذاتي أو طبقة الشبكة العصبية للتغذية الأمامية) إلى إخراج، مما يسمح بتدرج البيانات بالتدفق مباشرةً عبر الشبكة. يُخفف هذا من خطر تلاشي التدرجات أثناء الانتشار العكسي، ويُمكّن النماذج الأعمق من التعلم بفعالية. ثم يُطبق تطبيع الطبقة على هذا إخراج المُدمج.

  2. تُمرَّر متجهات إخراج المُعَيَّرة إلى شبكة عصبية تغذية أمامية (انظر الصورة 3 أدناه) لمعالجة الرموز، ويُنتَج لكل رمز إخراج إخراج يُمثِّل مساحة ميزة مُحوَّلة. يُضاف إخراج بعد ذلك إلى متجهات إدخال الأصلية عبر اتصال متبقٍّ . ثم يُطبَّق تطبيع الطبقة على هذا إخراج المُجمَّع.

Image 1: Multi-head attention model
Image 1: Multi-head attention model
Image 2: Scaled dot-product attention model
Image 2: Scaled dot-product attention model
Image 3: Feedforward network
Image 3: Feedforward network

فك التشفير

  1. يُدخل النص إخراج من الخطوة السابقة إلى وحدة فك ترميز نموذج المحول، ويُنقل عمدًا إلى اليمين لضمان تنبؤ النموذج بكل رمز لاحق بناءً على الرموز التي سبقته فقط. يُعدّ هذا إدخال إلى اليمين ضروريًا أثناء التدريب، إذ يُمكّن النموذج من تعلم تنبؤ دقيق رمز مع مراعاة السياق، وذلك بمنعه من رؤية رمز المستقبلي المُكلَّف بالتنبؤ به.

  2. يُرمَّز النص مجددًا باستخدام طريقتي الترميز والتضمين لضمان تمثيل موحد مع إخراج المُرمِّز. تُوازِي هذه العملية مساحة تمثيل النص المُولَّد مع مساحة إدخال، وهو أمرٌ أساسيٌّ لتوليد نصٍّ متماسكٍ وواعٍ للسياق.

  3. الترميز الموضعي يُزوِّد النموذج بسياق موقع كل رمز ضمن التسلسل بإضافة متجه فريد إلى تضمين كل رمز، يُمثِّل موقعه في التسلسل. يُطبَّق هذا الترميز على متجه إخراج السابق للحفاظ على ترتيب الكلمات في الجملة أو الفقرة.

  4. يستخدم مُفكِّك التشفير الانتباه الذاتي المُقنَّع بطريقة مشابهة للمُرمِّز، ولكنه يُخفي الرموز المستقبلية. هذا يُتيح للنموذج التنبؤ بالرموز المستقبلية ويمنعه من الانتباه إلى المواضع المستقبلية في التسلسل.

  5. الاستعلامات في هذه الخطوة تأتي من الخطوة السابقة طبقة الاهتمام الذاتي المقنعة لفك التشفير، بينما تأتي المفاتيح والقيم من إخراج المشفر. يسمح هذا لفك التشفير بالاهتمام بتسلسل إدخال بأكمله. يتم إجراء الاهتمام الذاتي باستخدام متجهات الاستعلام مفتاح قيمة على المتجهات المشفرة الموضعية (راجع الصورة 1 أعلاه). يتم أخذ حاصل ضرب نقطي بين الاستعلامات والمفاتيح لإنتاج درجة، والتي يتم بعد ذلك قياسها وتمريرها من خلال دالة سوفت ماكس لإنشاء أوزان الاهتمام (راجع الصورة 2 أعلاه). تُستخدم الأوزان لإنشاء مجموع مرجح لمتجهات قيمة . تتم إضافة متجهات إخراج من آلية الاهتمام الذاتي إلى متجهات إدخال الأصلية من خلال اتصال متبقي. ثم يتم تطبيق تطبيع الطبقة على هذا إخراج المدمج.

  6. تُمرَّر متجهات إخراج المُعَيَّرة إلى شبكة عصبية تغذية أمامية (انظر الصورة 3 أعلاه) لمعالجة الرموز، ويُنتَج لكل رمز إخراج إخراج يُمثِّل مساحة ميزة مُحوَّلة. يُضاف إخراج مرة أخرى إلى متجهات إدخال الأصلية عبر اتصال متبقٍّ. ثم يُطبَّق تطبيع الطبقة على هذا إخراج المُجمَّع.

  7. يتم تمرير إخراج عبر دالة تحويل خطي لتحويل إخراج فك التشفير إلى لوجيت (درجات لكل رمز تالي محتمل). يمكن تمثيل ذلك رياضيًا على النحو التالي:

logits=Wooutput+b\text{logits} = W_o \cdot \text{output} + b

  1. أخيرًا، تُضاف طبقة دالة سوفت ماكس لتوليد احتمالات رمز التالي في تسلسل الكلمات (انظر الصورة 4 أدناه). رياضيًا، يمكن تمثيل ذلك على النحو التالي:

softmax(xi)=exijexj\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}

Image 4: Linear and softmax transformation
Image 4: Linear and softmax transformation

الاستفادة من المحولات في تطوير روبوتات المحادثة

الخطوة الأهم في استخدام المحولات لتطوير روبوتات الدردشة هي اختيار النموذج المناسب. مع توفر مجموعة واسعة من النماذج، مثل GPT (المحول التوليدي المُدرَّب مسبقًا)، وBERT (تمثيلات المُرمِّز ثنائي الاتجاه من المحولات)، وT5 (مُحوِّل نقل النص إلى نص)، يعتمد الاختيار على المتطلبات الخاصة بروبوت الدردشة. على سبيل المثال، تُعدُّ Falcon وMistral وLlama2، وهي نماذج LLM قائمة على المحولات، مثالية لإنشاء روبوتات دردشة تتطلب طلاقة عالية في المحادثة. يُعدُّ BERT، بفضل فهمه العميق للسياق وفروق اللغة، مناسبًا لروبوتات الدردشة التي تُركِّز على الإجابة على استفسارات بسيطة مُحدَّدة بدقة وسرعة وكفاءة. أما T5، فهو نموذج مُصمَّم لمجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP)، بما في ذلك الترجمة والتلخيص والإجابة على الأسئلة، بفضل نهجه في تحويل النص إلى نص، وهو مثالي لروبوتات الدردشة التي تتطلب مجموعة متنوعة من التحويلات اللغوية.

يحتاج المطورون إلى مراعاة عدة عوامل

  • فهم اللغة وتوليدها : من الاعتبارات المهمة مدى فهم النموذج للغة وكيفية توليدها. تحدد هذه القدرة فعالية روبوت المحادثة في تفسير مدخلات المستخدم وإنتاج استجابات متماسكة تؤثر على تجربة المستخدم.

  • الموارد الحاسوبية: تختلف المتطلبات الحاسوبية للنماذج المختلفة اختلافًا كبيرًا. فبينما قد يتمكن المطور من تدريب نموذج لاما بسبعة مليارات معلمة على جهاز كمبيوتر، فإن نموذج فالكون بثمانين مليار معلمة سيحتاج إلى وحدات معالجة رسومية (GPU) قوية متعددة ليتمكن من التدريب. يُبرز هذا التمييز الاعتبارات العملية التي يجب على المطورين مراعاتها لتحقيق التوازن بين قدرات النموذج والبنية التحتية الحاسوبية المتاحة.

  • التعاريف: تلعب العوامل التالية دورًا حاسمًا في فهم أداء النموذج وتحسينه:

    • المعلمات: تشير إلى عدد الأوزان القابلة للتدريب في النموذج، والتي تختلف عن حجم المفردات أو الرموز التي تم تدريب النموذج عليها.

    • الأوزان القابلة للتدريب: هذه هي المكونات الموجودة داخل الشبكة العصبية والتي يتم تحسينها من خلال التعلم من البيانات، مما يسمح للنموذج بإجراء تنبؤات دقيقة عن طريق حساب دالة الخسارة في النموذج: قيمة التنبؤية مطروحًا منها قيمة الفعلية.

    • دالة الخسارة في النموذج: صيغة رياضية تقيس الفرق بين إخراج المتوقع للنموذج والقيم المستهدفة الفعلية لمجموعة بيانات. تُحدد هذه الدالة مقدار خطأ النموذج أو خسارته، مما يوفر مقياسًا لتقييم أداء النموذج.

نشر روبوت المحادثة في سيناريو واقعي

الهدف أو الخطوة الأخيرة لأي برنامج ماجستير في القانون هو نشر روبوت المحادثة في بيئة واقعية، مما يجعله متاحًا للمستخدمين عبر منصة إلكترونية، مثل موقع إلكتروني أو تطبيق جوال أو منصة تواصل اجتماعي. يتضمن النشر دمج روبوت المحادثة مع البنية التحتية الحالية أو إنشاء بنية جديدة، لضمان قدرته على التعامل مع استفسارات المستخدمين المتعددة في الوقت الفعلي. تتطلب هذه المرحلة إعداد أنظمة مراقبة وتسجيل لتتبع أداء روبوت المحادثة، وتحديد أي مشاكل، وجمع ملاحظات المستخدمين للتحسين المستمر. بعد النشر، تُعد الصيانة المستمرة ضرورية لتحديث النموذج أو تعزيزه ببيانات جديدة لتحسين استجاباته، وللتكيف مع التغييرات الجديدة في سلوك المستخدم أو البيانات الواردة الجديدة. يتطلب نشر روبوت المحادثة بنجاح تخطيطًا دقيقًا، وبنية تحتية متينة، والتزامًا بالتعلم والتكيف المستمرين.

تُبرز دراسة الحالة الخاصة بنا العملية الشاملة للاستفادة من نماذج المحولات لتطوير روبوت محادثة نشر . بدءًا من اختيار النموذج المناسب وضبطه بدقة باستخدام بيانات خاصة بالمجال، وصولًا إلى نشر روبوت المحادثة وصيانته في بيئة واقعية، تُعدّ كل خطوة أساسية لإنشاء روبوت محادثة سريع الاستجابة وفعال وسهل الاستخدام، يُلبي الاحتياجات المحددة لجمهوره المستهدف.

ملاحظة: يُرجى العلم أن نماذج ماجستير إدارة الأعمال المستخدمة في جميع دفاتر الدروس التالية مُستضافة على منصة Hugging Face ، التي تُحدّث وتُدير مستودع نماذجها. في حالات نادرة جدًا، قد تُحذف نماذج مُحددة لأسباب مُختلفة، مثل تغييرات السياسات التي يُجريها مُساهمو النماذج. إذا واجهتَ خطأً يُشير إلى عدم توفر نموذج، يُرجى زيارة مركز نماذج Hugging Face على الرابط https://huggingface.co/models والبحث عن نموذج بديل يُناسب نفس المهمة، ثم استبدال النموذج غير المُتاح.

بالإضافة إلى ذلك، يتم إنتاج الأمثلة والمخرجات الناتجة عن نماذج LLM في جميع الدروس التالية باستخدام نماذج اللغة الأساسية، والتي على الرغم من دقتها بشكل عام، إلا أنها قد تكرر المعلومات في بعض الأحيان أو تنتج محتوى أقل دقة.