...
/نظرة عامة على المحولات
نظرة عامة على المحولات
تعرف على كيفية إحداث المحولات ثورة في مجال التعلم العميق.
سنغطي ما يلي...
Transformer models in conversational AI
على مدى العقود الماضية، أدت التطورات المتعددة في مجال معالجة اللغة الطبيعية (NLP) إلى تحقيق نماذج لغوية كبيرة (LLMs)، وعلى وجه الخصوص، إدخال المحولات. وقد طُرح هذا المفهوم في ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" عام ٢٠١٧، أعدها آشيش فاسواني وآخرون.
أحدثت المحولات ثورةً في مجال التعلم العميق، إذ قدمت بنيةً حديثةً تتفوق على الشبكات العصبية المتكررة (RNNs) وشبكات الذاكرة طويلة المدى (LSTM) التي كانت تُستخدم على نطاق واسع في التعلم العميق. لا تُبسط هذه البنية بنية الشبكات العصبية فحسب، بل تُقلل أيضًا من وقت التدريب بشكل كبير.
كانت الشبكات العصبية العميقة قيد التطوير لعقود. في تسعينيات القرن الماضي، وُضعت الشبكات العصبية المتكررة (RNNs). وبعد عامين، طُرحت شبكات الذاكرة طويلة المدى (LSTMs) عام ١٩٩٧. انتشر مفهوم آلية الانتباه الأساسية واستُخدم في بنى الشبكات العصبية حوالي عام ٢٠١٤، وساهم في تحسين أداء نماذج متسلسلة مختلفة، بما في ذلك الشبكات العصبية المتكررة (RNNs) والشبكات طويلة المدى (LSTMs) والوحدات المتكررة المبوّبة (GRUs). طُرح نموذج المحول في ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" عام ٢٠١٧. أصدر باحثون في جوجل نموذج BERT (تمثيلات المشفر ثنائي الاتجاه من المحولات) عام ٢٠١٨، ليصبح من أوائل النماذج التي تستخدم بنية المحول في مهام معالجة اللغة الطبيعية (NLP). تُستخدم نماذج المحولات على نطاق واسع، مع العديد من التعديلات والتحسينات في عام ٢٠١٨. نماذج مثل GPT وT5 وغيرها تُوظّف وتُظهر مرونة وفعالية بنيتها. تُستخدم المحولات على نطاق واسع في الذكاء الاصطناعي التوليدي، اعتبارًا من عام ٢٠٢٠، حيث تُظهر نماذج مثل GPT-3 قدرات مذهلة في توليد نصوص تُشبه النصوص البشرية.
بشكل أساسي، تُعالج المُحوِّلات النصوص عن طريق ترميز الكلمات. الترميز هو عملية تحويل النص إلى وحدات أصغر، أو رموز، مثل الكلمات أو الكلمات الفرعية. تُعد هذه الخطوة أساسية لتحويل اللغة الطبيعية إلى صيغة يُمكن للنموذج معالجتها. ثم تُحوَّل هذه الرموز إلى تمثيلات متجهية باستخدام جداول تضمين الكلمات، مما يُمكِّن النموذج من فهم النص وتوليده. تُستخدم المُحوِّلات في العديد من التطبيقات التي نستخدمها يوميًا، مثل ميزات إكمال النص في تطبيقات مراسلة الهواتف الذكية (التنبؤ بالكلمة التالية والتصحيح التلقائي).
بمجرد تضمين النص، تقوم آلية الاهتمام داخل نموذج المحول بمعالجة وتفسير بيانات إدخال ، مما يوفر فهمًا أكثر دقة وقدرة على إنشاء نص. وبشكل أساسي، تسمح آلية الاهتمام للنموذج بالتركيز على أجزاء مختلفة من بيانات إدخال عند إنشاء كل كلمة في إخراج من خلال الانتباه إلى الكلمة الأكثر صلة في كل خطوة من التسلسل. ويتحقق ذلك من خلال حساب مقدار الأهمية التي يجب أن تتلقاها كل كلمة في تسلسل إدخال بالنسبة للكلمات الأخرى عند التنبؤ بكلمة معينة في إخراج. تستخدم آلية الاهتمام الذاتي مجموعات من الاستعلامات والمفاتيح والقيم المستمدة من بيانات إدخال لإجراء هذا الحساب. ونتيجة لذلك، يمكن للمحولات فهم السياق والعلاقات بين الكلمات. تتيح هذه القدرة على تخصيص الاهتمام عبر تسلسل إدخال للمحولات إنشاء استجابات تعزز جودة التفاعل في تطبيقات مثل برامج الدردشة الآلية.
يُمرَّر إخراج آلية الانتباه الذاتي عبر شبكة عصبية تغذية أمامية لمعالجة تلك البيانات قبل إخراج النهائي. في التطبيقات العملية، مثل كتابة الرسائل في تطبيق مراسلة، تُقترَح بضع كلمات على المستخدم. بعد ذلك، تُرسَل الجملة إلى شبكة عصبية تتنبأ بالكلمات المحتملة التالية باستخدام متجه احتمالي، كما هو موضح أدناه.
تسمح هذه القدرة التنبؤية النابعة من قدرة المحول على تقييم السياق ومدى أهمية كل كلمة في التسلسل، بتوليد اقتراحات ذات صلة بالسياق، مما يعزز تجربة المستخدم.
Understanding transformer architecture
على الرغم من أن بنية المحولات أقل تعقيدًا في الفهم من الشبكات العصبية المتكررة، إلا أنها تتكون من العديد من الكتل والطبقات، حيث يتألف كل مكون من عدة طبقات إضافية. فيما يلي بنية المحولات الشهيرة:
لفهم المحولات، نحتاج إلى فصل بنيتها إلى كتلتين رئيسيتين: المشفر (على الجانب الأيسر من الصورة السابقة) وفك التشفير (على الجانب الأيمن).
The encoder
يتم إرسال النص إلى نموذج المحول.
يتم ترميز النص باستخدام أساليب التجزئة والتضمين.
يتم تطبيق الترميز الموضعي على متجه إخراج السابق للحفاظ على ترتيب الكلمات في الجملة أو الفقرة.
يتم إجراء الانتباه الذاتي باستخدام متجهات الاستعلام مفتاح قيمة على المتجهات الموضعية المشفرة. يُؤخذ حاصل الضرب النقطي بين الاستعلامات والمفاتيح لإنتاج درجة (انظر الصورة 1 أدناه)، والتي تُقاس بعد ذلك وتُمرر عبر دالة سوفت ماكس لإنشاء أوزان الانتباه (انظر الصورة 2 أدناه). تُستخدم الأوزان لإنشاء مجموع مرجح لمتجهات قيمة . رياضيًا، ...