أنواع الضبط الدقيق
تعرف على أنواع مختلفة من الضبط الدقيق لدرجة الماجستير في القانون.
سنغطي ما يلي...
الكون المثالى تقنية فعّالة لتكييف نماذج اللغة المُدرَّبة مسبقًا مع مهام ومجموعات بيانات مُحددة، مما يُطلق العنان لكامل إمكاناتها لتحقيق الأداء الأمثل. وقد ظهرت تقنيات ضبط دقيقة مُختلفة مع استمرار تطور مجال معالجة اللغات الطبيعية. ولكلٍّ منها نقاط قوتها وحدودها وحالات استخدامها الخاصة.
يؤثر اختيار تقنية الضبط الدقيق بشكل كبير على أداء النموذج. يوضح الجدول أدناه التوزيع الكامل لتقنيات الضبط الدقيق:
دعونا نستكشف كل واحد منهم واحدًا تلو الآخر ونرى كيف تختلف هذه التقنيات عن بعضها البعض.
الضبط الدقيق غير المعياري
الضبط الدقيق غير المعياري هو النوع الذي يعمل بتمرير البيانات الخاصة بالمهمة كسياق دون تدريب أيٍّ من معلمات النموذج. يستخدم النموذج المعلومات السياقية المُقدمة لتعزيز دقته وكفاءته في المهام الجديدة. هذه هي الطريقة الفعالة من حيث التكلفة لتخصيص النموذج بأقل جهد وموارد.
فيما يلي الطرق لإجراء الضبط الدقيق غير المعلمي:
التعلم في السياق
التعلم السياقي هو نهج لتحسين استجابة النموذج من خلال توفير أمثلة محددة للمهام إدخال. يعمل هذا النهج من خلال توفير وصف المهمة والأمثلة ذات الصلة كسياق في
هذه هي أبسط طريقة لضبط النموذج بدقة دون الحاجة إلى أي معرفة تقنية، ولكنها تنطوي أيضًا على بعض القيود. لكل نموذج...
الجيل المعزز بالاسترجاع (RAG)
التوليد المُعزَّز بالاسترجاع (RAG) هو إطار عمل للذكاء الاصطناعي يستخدم قاعدة معارف خارجية مع نموذج مُدرَّب مسبقًا لتخصيص النموذج لمهام محددة. يعمل هذا الإطار من خلال توفير بيانات خاصة بالمهمة كذاكرة خارجية للنموذج. يبحث النموذج في قاعدة المعارف لكل استعلام للعثور على المعلومات ذات الصلة، ويُولِّد استجابة وفقًا لتفضيلات المستخدم. في تقنيات الضبط الدقيق غير المعياري، يُعدّ RAG من أكثر الطرق فعالية لتخصيص النموذج دون تغيير معلماته.
يعمل RAG بكفاءة عالية حتى حدٍّ معين من البيانات. مع ازدياد حجم قاعدة المعرفة، يزداد وقت استعلام النموذج، إذ يتعين عليه البحث في قاعدة المعرفة عن كل استعلام. كما أن سعة الذاكرة الخارجية الكبيرة قد تؤدي إلى زيادة تحميل المعلومات، مما يُسبب سوء تفسير وعدم دقة، مما قد يُضعف كفاءة النموذج ودقته بشكل عام.
ملاحظة: إذا كنت مهتمًا بمعرفة المزيد عن RAG، راجع دوراتنا التالية:
الضبط الدقيق البارامتري
الضبط الدقيق البارامتري هو النوع الذي يعمل عن طريق ضبط معلمات النموذج بدقة على مجموعات بيانات خاصة بمهمة محددة. يمكن أن يكون ذلك من خلال تدريب جميع معلمات النموذج أو تدريب عدد قليل منها فقط.
يتم تصنيف الضبط الدقيق البارامتري إلى ما يلي:
الضبط الدقيق الكامل
الضبط الدقيق الفعال البارامتري (PEFT)
دعونا نتعمق في تفاصيل كل مما يلي ونستكشف كيف تختلف:
الضبط الدقيق الكامل
الضبط الدقيق الكامل هو تقنية تتضمن تدريب جميع معلمات جميع طبقات النموذج. ينسى النموذج تدريجيًا المعرفة المكتسبة من التدريب المسبق ويكتسب معرفة جديدة من مجموعة البيانات الخاصة بالمهمة. يشبه هذا تدريب النموذج من الصفر، لذا يتطلب موارد حاسوبية ضخمة.
إن الضبط الدقيق الكامل له عيبان كبيران: التكاليف الحسابية العالية المطلوبة لتدريب جميع المعلمات والنسيان الكارثي، مما يتسبب في فقدان النموذج للمعرفة العامة والأنماط المكتسبة أثناء التدريب المسبق ويقلل من كفاءته الإجمالية.
يلزم إجراء ضبط دقيق شامل عندما تكون مجموعة البيانات المخصصة كبيرة ومختلفة اختلافًا كبيرًا عن بيانات ما قبل التدريب، مما يستلزم تدريب النموذج من الصفر. على سبيل المثال، يمكن ضبط نموذج مُدرَّب مسبقًا على لغة واحدة باستخدام بيانات متعددة اللغات، أو تدريب نموذج على مجال متخصص كالنصوص الطبية أو القانونية. بخلاف ذلك، تتوفر طرق فعّالة لضبط النموذج بدقة. دعونا نستكشفها واحدة تلو الأخرى.
الضبط الدقيق الفعال البارامتري (PEFT)
الضبط الدقيق البارامتري الفعال (PEFT) هو تقنية تتضمن تدريب المعلمات المختارة أو المضافة حديثًا لضبط النموذج بدقة. هذا يسمح للنموذج بالتكيف مع المهام الجديدة مع تغييرات طفيفة في النموذج المُدرَّب مسبقًا. من خلال تدريب النموذج على عدد أقل من المعلمات، يُقلِّل PEFT التكاليف الحسابية ويحافظ على المعرفة المُدرَّبة مسبقًا، مما يجعله نهجًا جذابًا للضبط الدقيق.
يتم تصنيف PEFT أيضًا إلى ما يلي:
الضبط الدقيق الجزئي
وحدات المحول
الضبط الدقيق المعاد معاملته
دعونا نبدأ باستكشاف الضبط الدقيق الجزئي بالتفصيل.
الضبط الدقيق الجزئي
يتعلم النموذج المُدرَّب مسبقًا التفاصيل العامة والخاصة بالمهمة في طبقات مختلفة من النموذج. الضبط الدقيق الجزئي ، المعروف أيضًا باسم الضبط الدقيق الانتقائي ، يعمل هذا النهج عن طريق تجميد الطبقات المهمة، أي الطبقات التي تعلمت تفاصيل وأنماط البيانات العامة، وتدريب طبقات إخراج فقط، التي تحتوي على تفاصيل خاصة بالمهمة، لتدريب إخراج النموذج على مهام محددة. يساعد هذا النهج النموذج على الحفاظ على المزيد من المعرفة المكتسبة قبل التدريب والتكيف مع البيانات الخاصة بالمهمة مع الحد الأدنى من تدريب النموذج.
هناك العديد من الطرق لتنفيذ الضبط الدقيق الجزئي، بما في ذلك BitFit (الضبط الدقيق لمصطلحات التحيز)، وLT-SFT (الضبط الدقيق المتناثر لتذكرة اليانصيب)، وDiff Pruning، وThreshold-Mask، وما إلى ذلك.
دعونا نلقي نظرة على تفاصيل بعض منهم.
BitFit: تعمل طريقة الضبط الدقيق لمصطلحات التحيز (BitFit) عن طريق تدريب مجموعة صغيرة فقط من معلمات النموذج، وبشكل خاص
، وتجميد بقية معلمات النموذج. لمصطلحات التحيز تأثير كبير على أداء النموذج، وتحديثها فقط يُنتج دقةً تُضاهي الضبط الدقيق الكامل لبيانات التدريب الصغيرة والمتوسطة الحجم.مصطلحات التحيز الانحياز ثابت يُضاف إلى المجموع المرجح للمدخلات قبل تمريره إلى دالة التنشيط. يسمح هذا للنموذج بنقل دالة التنشيط إلى اليسار أو اليمين، مما يُساعده في تعلم البيانات. LT-SFT: تتضمن طريقة الضبط الدقيق المتفرق لتذكرة اليانصيب (LT-SFT) تدريب الأوزان المهمة فقط في النموذج. تعمل هذه الطريقة بتحديد أهم الأوزان الناتجة عن مقارنة أوزان نموذج مُعدّل بدقة كاملة بناءً على بيانات خاصة بالمهمة مع النموذج المُدرّب مسبقًا. بعد ذلك، يتم ضبط الأوزان المختارة بدقة من أعلى k فقط عن طريق إنشاء مصفوفة ثنائية. تتطلب طريقة LT-SFT جهدًا مضاعفًا (الضبط الدقيق الكامل والضبط الدقيق للأوزان المهمة)، ولكنها تُحسّن الكفاءة لأنها تُحدّث الأوزان المهمة فقط.
يوفر الضبط الدقيق الجزئي الكثير من الموارد الحاسوبية، إذ يقتصر على تدريب معلمات محددة فقط، مما يجعله موفرًا للوقت والموارد. ومع ذلك، قد لا يحقق دائمًا نفس مستوى الأداء الخاص بالمهمة الذي يحققه الضبط الدقيق الكامل، خاصةً في المهام المعقدة التي تتطلب تعديلات كبيرة على النموذج. إضافةً إلى ذلك، يُخاطر الضبط الدقيق الجزئي أيضًا بالملاءمة المفرطة للمهمة الجديدة، إذ إن تحديث المعلمات المحددة فقط قد يؤدي إلى تعلم المزيد عن الميزات المتخصصة بدلًا من الميزات العامة. على الرغم من أن الضبط الدقيق الجزئي يتغلب على مشكلة النسيان الكارثي بتحديث المعلمات المحددة، إلا أنه لا يزال هناك فقدان لبعض المعرفة المُدرَّبة مسبقًا.
لمعالجة هذا القيد، تُستخدم تقنية PEFT الأكثر تطورًا، وهي الضبط الدقيق الإضافي. لنتعمق في التفاصيل ونرى كيف تعمل.
الضبط الدقيق الإضافي
يتضمن الضبط الدقيق الإضافي إضافة طبقات أو وحدات جديدة، تُعرف بالمحولات، إلى النموذج للضبط الدقيق. يُدرّب هذا الضبط فقط المعلمات القابلة للتدريب المضافة حديثًا دون تغيير معلمات النموذج المُدرّب مسبقًا.
تُساعدنا العديد من الطرق في تطبيق الضبط الدقيق الإضافي، بما في ذلك الضبط الفوري، وضبط البادئة، وضبط P، والضبط الجانبي السلمي (LST)، والضبط الفوري متعدد المهام (MPT)، والضبط الفعال للمعلمات مع تكيف خاص للرموز (PASTA). دعونا نستكشف بعضها بالتفصيل.
ضبط المطالبات: يتضمن إضافة الرموز القابلة للتدريب (المطالبات) إلى نص إدخال ، وتدريب هذه الرموز على التكيف مع المهام الجديدة. يعمل هذا عن طريق ربط المطالبات بنص إدخال ، وتدريب معلمات المطالبات فقط مع تجميد النموذج المُدرَّب مسبقًا.
ضبط البادئة: يتضمن ذلك إضافة مُطالبات ناعمة مُسبقًا إلى الحالات المخفية لطبقة الانتباه متعددة الرؤوس، وضبطها بدقة للتكيف مع المهام الجديدة. يعمل هذا باستخدام شبكة التغذية الأمامية (FFN) لتحديد معلمات المُطالبات الناعمة وضبط معلمات البادئة بدقة، مع الحفاظ على معلمات النموذج المُدرَّبة مُسبقًا ثابتة.
هذا النهج أسرع وأكثر كفاءةً في الضبط الدقيق، إذ يُركز على تدريب الطبقة الجديدة فقط، ويحافظ على كامل معرفة ما قبل التدريب للنموذج. هذا يجعل النهج أكثر كفاءةً في استخدام الموارد. مع ذلك، من ناحية أخرى، يُؤدي إضافة طبقات أو وحدات جديدة إلى النموذج إلى زيادة حجمه وتعقيده. بالإضافة إلى ذلك، هناك خطر مُحتمل من الإفراط في التجهيز، لأن الطبقات المُضافة حديثًا قد تُصبح مُتخصصة جدًا في بيانات مُحددة لمهمة مُعينة، مما يُقلل من التعميم على مهام أخرى. لمواجهة هذه التحديات، يُصبح الضبط الدقيق المُعاد مُعاملته مُتاحًا. دعونا نستكشف كيفية عمله بالتفصيل.
الضبط الدقيق المعاد معايرة
تتضمن تقنية الضبط الدقيق المُعاد ضبط معلماتها إضافة أو تعديل طبقات النموذج المُدرَّب مسبقًا لتقليل عدد المعلمات القابلة للتدريب. تعمل هذه التقنية عن طريق إعادة ضبط معلمات أوزان النموذج لتقريب الأوزان الأصلية مع الحفاظ على المعلومات المهمة. بعد ذلك، يتم تدريب الأوزان المُعاد ضبط معلماتها فقط، مع تجميد الأوزان المُدرَّبة مسبقًا لضبط النموذج بدقة.
يمكن استخدام العديد من الطرق لتنفيذ الضبط الدقيق المعاد معاملته، بما في ذلك LoRA (التكيف مع الرتبة المنخفضة)، وQLoRA (LoRA الكمي)، وKronA (محول كرونيكر)، وDyLoRA (LoRA الديناميكي)، وAdaLoRA (LoRA التكيفي)، وما إلى ذلك. دعونا نلقي نظرة على تفاصيل بعضها.
LoRA: يستخدم التكيف منخفض الرتبة (LoRA)
تقنية لتقليل معلمات النموذج المُدرَّب مسبقًا القابلة للتدريب مع الحفاظ على المعلومات المهمة. تُعيد هذه الطريقة ضبط معلمات الأوزان الأصلية (المعلمات) باستخدام مصفوفتين منخفضتي الرتبة. بعد ذلك، تُدرَّب المصفوفتان، مما يُجمِّد الأوزان المُدرَّبة مسبقًا لضبط النموذج بدقة في مهمة جديدة.تحويل منخفض الرتبة يتم استخدام تقنية التحويل منخفض الرتبة لتقريب مصفوفة كبيرة عن طريق تحليلها إلى حاصل ضرب مصفوفات أصغر. KronA: يعمل محول Kronecker (KronA) بشكل مشابه لـ LoRA، ولكن بدلاً من استخدام التحويل منخفض الرتبة، فإنه يستخدم
لتقليل المعلمات القابلة للتدريب. يتم تدريب المصفوفات المُحللة مع تجميد الأوزان المُدرَّبة مسبقًا لضبط النموذج في المهام الجديدة.تحلل منتج كرونيكر تحليل حاصل كرونيكر هو تقنية لتقريب مصفوفة بتحليلها إلى حاصل كرونيكر لمصفوفتين. يُمثِّل هذا الأسلوب المصفوفة الأصلية بكفاءة من حيث التخزين والحساب مع الحفاظ على رتبتها.
يتيح هذا النهج للنموذج التكيف بكفاءة مع المهام الجديدة دون المساس بمعرفته المُدرَّبة مسبقًا. وكما هو الحال مع جميع التقنيات الأخرى، فإن الضبط الدقيق المُعاد ضبطه له بعض القيود. فقد يواجه تحديات مثل محدودية التكيف أو عدم الملاءمة، خاصةً عند التعامل مع مجموعات البيانات المعقدة.
ملحوظة: راجع "
" للحصول على شرح أكثر تفصيلاً حول تقنيات PEFT. الضبط الدقيق الفعال للمعلمات للنماذج الكبيرة: دراسة شاملة هان، زيو، تشاو غاو، جينيانغ ليو، جيف تشانغ، وساي تشيان تشانغ. ٢٠٢٤. "الضبط الدقيق الفعال للمعلمات للنماذج الكبيرة: دراسة استقصائية شاملة". ArXiv.org. ٢٩ أبريل ٢٠٢٤. https://doi.org/10.48550/arXiv.2403.14608.
مقارنة أنواع الضبط الدقيق
دعونا نلقي نظرة عامة موجزة على جميع تقنيات الضبط الدقيق باستخدام جدول التلخيص التالي:
Fine-Tuning Technique | Definition | Use Cases | Limitations |
Full fine-tuning | It involves training all the parameters of the model. |
|
|
Partial fine-tuning | It works by trainining only the selected parameters while freezing rest of the parameters of the model. |
|
|
Additive fine-tuning | It introduces new layers or modules (adapters) that are fine-tuned for specific tasks while keeping the original pre-trained model frozen. |
|
|
Reparameterized fine-tuning | It reparameterizes the weights of the model to approximate the original weights while preserving important information and trains only the reparameterized weights freezing the pre-trained model. |
|
|
اختيار تقنية الضبط الدقيق الصحيحة
لقد استكشفنا تقنيات ضبط دقيقة متعددة، لكل منها نقاط قوتها ونقاط ضعفها وحالات استخدامها المحددة. يُعد اختيار الطريقة المناسبة أمرًا بالغ الأهمية أثناء ضبط النموذج لتحقيق الأداء المطلوب.
وفيما يلي بعض العوامل مفتاح التي ينبغي مراعاتها عند اختيار تقنية الضبط الدقيق:
حجم النموذج
تعقيد المهمة
الموارد الحاسوبية
احتياجات النشر
الحفاظ على المعرفة المُدربة مسبقًا
في هذه الدورة، سوف نستكشف ضبط LLM باستخدام LoRA:
تُعدّ تقنية LoRA حاليًا التقنية الأكثر استخدامًا للضبط الدقيق، نظرًا لتوازنها بين الكفاءة، والقدرة على التكيف، والحفاظ على المعرفة المُدرّبة مسبقًا. فهي تُمكّننا من ضبط النموذج بدقة في المهام دون الحاجة إلى موارد حسابية ضخمة، مما يجعلها خيارًا مثاليًا لمجموعة واسعة من التطبيقات، بدءًا من المهام الخاصة بمجال محدد وصولًا إلى عمليات النشر واسعة النطاق.