...
/نظرة عامة على نماذج اللغة الكبيرة (LLMs)
نظرة عامة على نماذج اللغة الكبيرة (LLMs)
تعرف على نماذج الأساس، ومهامها اللاحقة، وكيفية توسعها، ولماذا هي خيالية.
سنغطي ما يلي...
Transformer architecture in LLMs
أحدثت بنية المحول ثورةً في طريقة تدريب نماذج معالجة اللغة الطبيعية، وذلك من خلال مواءمة كلمات إدخال أو الرموز باستخدام تقنيات الانتباه، مما زاد من كفاءتها. تُدرّب نماذج المحول باستخدام كميات هائلة من البيانات، ونحن نتحدث عن مليارات الرموز، وليس آلافها. وبهذا المعنى، يُعدّ الحجم عاملاً أساسياً ومهماً. فكلما زادت البيانات التي يُدرّب عليها النموذج، كان أداؤه أفضل من حيث المبدأ. ولأن النماذج تُدرّب على هذه الكمية الهائلة من البيانات، فإننا نُشير إليها بنماذج اللغة الكبيرة (LLMs) . تُدرّب نماذج اللغة الكبيرة مُسبقاً على كميات هائلة من البيانات، ويمكن ضبطها بدقة لتنفيذ العديد من المهام اللاحقة المحددة والمتخصصة باستخدام مجموعة بيانات صغيرة نسبياً.
نظراً لقدرة نماذج ماجستير القانون على نقل ما تعلمته إلى المهام اللاحقة، ونظراً لتعدد استخداماتها، فإننا نشير إليها أيضاً باسم النماذج الأساسية. يمكننا التمييز بين نوعين من نماذج ماجستير القانون القائمة على المحولات ومهامها اللاحقة. نماذج مثل BERT، الذي يستخدم جزء التشفير من المحول، ونماذج مثل GPT، الذي يستخدم جزء فك التشفير من المحول. صُمم BERT لفهم سياق النص ثنائي الاتجاه، وهو مثالي لمهام مثل تحليل المشاعر، وتصنيف النصوص، ونمذجة المواضيع. في مجال الرعاية الصحية، يُستخدم BERT لتحليل السجلات الصحية الإلكترونية للحصول على رؤى ثاقبة، مما يساعد في التشخيص المبكر لأمراض مثل السكري أو أمراض القلب. من ناحية أخرى، يُعد GPT نموذجاً يركز على فك التشفير، ويتميز بقدرته على توليد نصوص متماسكة وذات صلة بالسياق، وهو مثالي لتطبيقات توليد اللغات وروبوتات الدردشة. وقد ساهمت نماذج مماثلة لـ GPT في تطوير مجال ترجمة اللغات، مما أتاح خدمات ترجمة آنية واعية بالسياق، مما يُسهم في تجاوز حواجز اللغة.
نرى بشكل متزايد أن أنظمة LLM، مثل GPT، يتم بناؤها باستخدام جزء فك التشفير فقط من المحولات، كما هو الحال في الصورة أدناه.
تشير نماذج LLM التي تعتمد على فك التشفير فقط إلى أن النماذج مدربة مسبقًا بالفعل، ونتيجة لذلك، لا يمكننا استخدام سوى جزء فك التشفير بعد ذلك لاستنتاج النص، مثل التنبؤ بالكلمة التالية في الجملة.
Scaling LLMs
من خلال التجارب، لوحظ أن زيادة حجم البيانات التي تُدرَّب عليها نماذج LLMs يمكن أن تزيد من قدرتها ودقتها. فعند زيادة معلمات النموذج، ...