Search⌘ K
AI Features

أنواع الضبط الدقيق

تعرف على الأنواع المختلفة من التعديلات الدقيقة لبرنامج الماجستير في القانون.

الكون المثالى تُعدّ هذه التقنية فعّالة في تكييف نماذج اللغة المُدرّبة مسبقًا مع مهام ومجموعات بيانات مُحدّدة، ما يُتيح لها الاستفادة القصوى من إمكانياتها لتحقيق الأداء الأمثل. وقد ظهرت تقنيات ضبط دقيقة مُختلفة مع استمرار تطوّر مجال معالجة اللغات الطبيعية، ولكلٍّ منها نقاط قوّة وقيود وحالات استخدام خاصة بها.

يؤثر اختيار أسلوب الضبط الدقيق بشكل كبير على أداء النموذج. فيما يلي التوزيع الكامل لأساليب الضبط الدقيق:

Hierarchical structure of fine-tuning
Hierarchical structure of fine-tuning

دعونا نستكشف كل واحدة منها على حدة ونرى كيف تختلف هذه التقنيات عن بعضها البعض.

الضبط الدقيق غير البارامتري

الضبط الدقيق غير البارامتري هو نوع من أنواع الضبط يعتمد على تمرير بيانات خاصة بالمهمة كسياق دون تدريب أي معلمات للنموذج. يستخدم النموذج المعلومات السياقية المُقدمة لتحسين دقته وكفاءته في المهام الجديدة. هذه هي الطريقة الأمثل لتخصيص النموذج بأقل جهد وموارد.

فيما يلي طرق إجراء الضبط الدقيق غير البارامتري:

التعلم في السياق

التعلم في السياق هو أسلوب لتحسين استجابة النموذج من خلال تقديم أمثلة محددة للمهام إدخال. ويعمل هذا الأسلوب عن طريق توفير وصف المهمة والأمثلة ذات الصلة كسياق في اِسْتَدْعَى الموجه هو إدخال المقدمة إلى النموذج لتوليد استجابة. ، وتوجيه النموذج لتوليد استجابات تتناسب بشكل أفضل مع تفضيلات المستخدم.

In-context learning
In-context learning

هذه هي أبسط طريقة لضبط النموذج بدقة دون الحاجة إلى أي معرفة تقنية، ولكنها تنطوي أيضاً على بعض القيود. لكل نموذج... نافذة السياق نافذة السياق هي الحد الأقصى لعدد الرموز المميزة التي يمكن للنموذج معالجتها في وقت واحد. إن تقديم عدد كبير من الأمثلة في الموجه قد يشغل نافذة السياق، مما يترك مساحة أقل للمعلومات الإضافية (مثل التعليمات أو السياق أو أي معلومات أخرى، وما إلى ذلك) ويؤدي إلى فقدان المعلومات.

التوليد المعزز بالاسترجاع (RAG)

يُعدّ توليد البيانات المُعزز بالاسترجاع (RAG) إطار عمل للذكاء الاصطناعي يستخدم قاعدة معرفية خارجية مع نموذج مُدرّب مسبقًا لتخصيص النموذج لمهام مُحددة. ويعمل هذا الإطار من خلال تزويد النموذج ببيانات خاصة بكل مهمة كذاكرة خارجية. يبحث النموذج في قاعدة المعرفة لكل استعلام للعثور على المعلومات ذات الصلة، ثم يُولّد استجابة وفقًا لتفضيلات المستخدم. وفي تقنيات الضبط الدقيق غير البارامترية، يُعدّ توليد البيانات المُعزز بالاسترجاع (RAG) أحد أكثر الطرق فعالية لتخصيص النموذج دون تغيير معاييره.

How RAG works
How RAG works

يعمل نموذج RAG بكفاءة عالية حتى حد معين من البيانات. مع ازدياد حجم قاعدة المعرفة، يزداد وقت استعلام النموذج، إذ يتعين عليه البحث في قاعدة المعرفة لكل استعلام. كما أن الذاكرة الخارجية الكبيرة قد تؤدي إلى فرط المعلومات، مما يتسبب في سوء تفسيرات وعدم دقة قد تؤثر سلبًا على كفاءة النموذج ودقته.

ملاحظة: إذا كنت مهتمًا بمعرفة المزيد عن RAG، فراجع دوراتنا التالية:

الضبط الدقيق البارامتري

الضبط الدقيق البارامتري هو نوع من أنواع الضبط يعمل عن طريق ضبط معلمات النموذج بدقة على مجموعات بيانات خاصة بالمهمة. ويمكن أن يشمل ذلك تدريب جميع معلمات النموذج أو تدريب عدد قليل منها فقط. تحتوي الطبقة العليا على المزيد من المعرفة العامة حول البيانات التي تعلمها النموذج أثناء التدريب المسبق. بواسطة تجميد يشير مصطلح التجميد إلى الحفاظ على بعض معلمات النموذج دون تغيير أثناء عملية الضبط الدقيق، مما يسمح لها بالاحتفاظ بمعرفتها المدربة مسبقًا دون تحديثها أو تعديلها. بقية معلمات النموذج.

يُصنف الضبط الدقيق البارامتري إلى ما يلي:

  • ضبط دقيق كامل

  • الضبط الدقيق الفعال البارامتري (PEFT)

دعونا نتناول تفاصيل كل مما يلي ونستكشف أوجه الاختلاف بينها:

ضبط دقيق كامل

الضبط الدقيق الكامل هو أسلوب يتضمن تدريب جميع معلمات جميع طبقات النموذج. يتخلى النموذج تدريجيًا عن المعرفة المكتسبة من التدريب المسبق ويتعلم معرفة جديدة من مجموعة البيانات الخاصة بالمهمة. يشبه هذا تدريب النموذج من الصفر، ولذلك يتطلب موارد حاسوبية ضخمة.

Full fine-tuning
Full fine-tuning

إن عملية الضبط الدقيق الكامل لها عيبان رئيسيان: التكاليف الحسابية العالية المطلوبة لتدريب جميع المعلمات والنسيان الكارثي، مما يتسبب في فقدان النموذج للمعرفة العامة والأنماط المكتسبة أثناء التدريب المسبق ويقلل من كفاءته الإجمالية.

يتطلب الأمر ضبطًا دقيقًا كاملًا عندما تكون مجموعة البيانات المخصصة كبيرة ومختلفة اختلافًا كبيرًا عن بيانات التدريب المسبق، مما يستلزم تدريب النموذج من الصفر. على سبيل المثال، ضبط نموذج مُدرَّب مسبقًا على لغة واحدة على بيانات متعددة اللغات، أو تدريب نموذج على مجال متخصص كالنصوص الطبية أو القانونية. فيما عدا ذلك، توجد طرق فعالة لضبط النموذج. دعونا نستعرضها واحدة تلو الأخرى.

الضبط الدقيق الفعال البارامتري (PEFT)

الضبط الدقيق الفعال للبارامترات (PEFT) هو أسلوب يتضمن تدريب البارامترات المختارة أو المضافة حديثًا لضبط النموذج بدقة. يسمح هذا للنموذج بالتكيف مع المهام الجديدة بأقل قدر من التغييرات في النموذج المدرب مسبقًا. من خلال تدريب النموذج على عدد أقل من البارامترات، يقلل PEFT فعليًا من التكاليف الحسابية ويحافظ على المعرفة المدربة مسبقًا، مما يجعله نهجًا جذابًا للضبط الدقيق.

يتم تصنيف PEFT بشكل إضافي إلى ما يلي:

  • ضبط جزئي دقيق

  • وحدات المحول

  • إعادة ضبط المعلمات بدقة

لنبدأ باستكشاف الضبط الجزئي الدقيق بالتفصيل.

ضبط جزئي دقيق

يتعلم النموذج المدرب مسبقًا تفاصيل عامة وأخرى خاصة بالمهمة في طبقات مختلفة من النموذج. يُعرف الضبط الدقيق الجزئي أيضًا باسم الضبط الدقيق الانتقائي . تعتمد هذه الطريقة على تجميد الطبقات المهمة، أي الطبقات التي تعلمت التفاصيل والأنماط العامة للبيانات، وتدريب طبقات إخراج فقط، التي تحتوي على تفاصيل خاصة بالمهمة، لتدريب إخراج النموذج على مهام محددة. يساعد هذا النهج النموذج على الاحتفاظ بجزء أكبر من المعرفة المكتسبة مسبقًا والتكيف مع البيانات الخاصة بالمهمة بأقل قدر من التدريب.

Partial fine-tuning
Partial fine-tuning

هناك العديد من الطرق لتنفيذ الضبط الدقيق الجزئي، بما في ذلك BitFit (ضبط دقيق لمصطلحات الانحياز)، وLT-SFT (ضبط دقيق متفرق لتذكرة اليانصيب)، وتقليم الفرق، وقناع العتبة، وما إلى ذلك.

دعونا نلقي نظرة على تفاصيل بعضها.

  • BitFit: تعمل طريقة الضبط الدقيق للتحيزات (BitFit) عن طريق تدريب مجموعة صغيرة فقط من معلمات النموذج، وتحديدًا مصطلحات التحيز الانحياز هو ثابت يُضاف إلى المجموع المرجح للمدخلات قبل تمريره إلى دالة التنشيط. يسمح هذا للنموذج بتحريك دالة التنشيط إلى اليسار أو اليمين، مما يساعد النموذج في تعلم البيانات. وتجميد بقية معلمات النموذج. تؤثر معاملات الانحياز بشكل كبير على أداء النموذج، وتحديثها فقط ينتج عنه دقة مماثلة للضبط الدقيق الكامل لبيانات التدريب الصغيرة إلى المتوسطة الحجم.

  • طريقة LT-SFT: تعتمد طريقة الضبط الدقيق المتفرق لنموذج اليانصيب (LT-SFT) على تدريب الأوزان المهمة فقط. وتعمل هذه الطريقة من خلال تحديد أهم الأوزان أولاً، وذلك بمقارنة أوزان نموذج مضبوط بدقة على بيانات خاصة بالمهمة مع أوزان النموذج المدرب مسبقًا. ثم يتم ضبط أفضل k وزن فقط عن طريق إنشاء مصفوفة ثنائية. تتطلب LT-SFT جهدًا مضاعفًا (الضبط الدقيق الكامل وضبط الأوزان المهمة)، لكنها تؤدي إلى زيادة الكفاءة لأنها تُحدّث الأوزان المهمة فقط.

يُوفّر الضبط الجزئي موارد حاسوبية كبيرة لأنه لا يحتاج إلا لتدريب معلمات مُختارة، مما يجعله فعالاً من حيث الوقت والموارد. مع ذلك، قد لا يُحقق دائمًا نفس مستوى الأداء الخاص بالمهمة الذي يُحققه الضبط الكامل، خاصةً في المهام المُعقدة التي تتطلب تعديلات كبيرة على النموذج. إضافةً إلى ذلك، يُخاطر أيضًا بالتدريب المُفرط على المهمة الجديدة، حيث أن تحديث معلمات مُختارة فقط قد يؤدي إلى تعلّم المزيد عن خصائص مُتخصصة بدلاً من الخصائص العامة. على الرغم من أن الضبط الجزئي يتغلب على مشكلة النسيان الكارثي من خلال تحديث معلمات مُختارة، إلا أنه لا يزال هناك فقدان لبعض المعرفة المُدرّبة مُسبقًا.

للتغلب على هذا القيد، تُستخدم تقنية PEFT أكثر تطوراً، وهي الضبط الدقيق الإضافي. دعونا نتعمق في التفاصيل ونرى كيف تعمل.

الضبط الدقيق الإضافي

تتضمن عملية الضبط الدقيق التراكمي إضافة طبقات أو وحدات جديدة، تُعرف باسم المحولات، إلى النموذج لضبطه بدقة. وهي تُدرّب فقط المعلمات القابلة للتدريب المضافة حديثًا دون تغيير معلمات النموذج المدرب مسبقًا.

Additive fine-tuning
Additive fine-tuning

تساعدنا العديد من الطرق في تطبيق الضبط الدقيق الإضافي، بما في ذلك ضبط الموجه، وضبط البادئة، وضبط P، وضبط جانب السلم (LST)، وضبط الموجه متعدد المهام (MPT)، وضبط المعلمات الفعال مع تكييف الرموز الخاصة (PASTA). دعونا نستكشف بعضًا منها بالتفصيل.

  • ضبط الموجهات: يتضمن هذا الأسلوب إضافة الرموز القابلة للتدريب (المسماة بالموجهات) إلى النص إدخال ، وتدريب هذه الرموز للتكيف مع المهام الجديدة. ويتم ذلك عن طريق دمج الموجهات مع النص إدخال ، وتدريب معلمات الموجهات فقط مع تثبيت النموذج المدرب مسبقًا.

  • ضبط البادئة: يتضمن هذا الأسلوب إضافة إشارات تمهيدية إلى الحالات المخفية لطبقة الانتباه متعددة الرؤوس، وضبطها بدقة لتتلاءم مع المهام الجديدة. ويعمل ذلك باستخدام شبكة تغذية أمامية (FFN) لضبط معلمات الإشارات التمهيدية، مع الحفاظ على معلمات النموذج المدرب مسبقًا ثابتة.

يُعدّ هذا الأسلوب أسرع وأكثر كفاءةً في ضبط النموذج بدقة، لأنه يركز على تدريب الطبقة الجديدة فقط، ويحافظ على جميع بيانات التدريب المسبق للنموذج. وهذا ما يجعله فعالاً من حيث استهلاك الموارد. مع ذلك، من سلبياته أن إضافة طبقات أو وحدات جديدة إلى النموذج تزيد من حجمه وتعقيده. إضافةً إلى ذلك، ثمة خطر محتمل للتجاوز في التدريب، لأن الطبقات المضافة حديثًا قد تُصبح متخصصة جدًا في بيانات مُحددة، مما يُقلل من قدرة النموذج على التعميم في مهام أخرى. ولمعالجة هذه التحديات، يأتي دور إعادة ضبط النموذج باستخدام المعلمات المُعاد ضبطها. دعونا نستكشف آلية عمله بالتفصيل.

ضبط دقيق مُعاد ضبطه

تعتمد تقنية الضبط الدقيق المُعاد ضبط معلماتها على إضافة طبقات إلى النموذج المُدرَّب مسبقًا أو تعديلها لتقليل عدد المعلمات القابلة للتدريب. وتعمل هذه التقنية عن طريق إعادة ضبط معلمات أوزان النموذج لتقريبها من الأوزان الأصلية مع الحفاظ على المعلومات المهمة. ثم يتم تدريب الأوزان المُعاد ضبط معلماتها فقط، مع تثبيت الأوزان المُدرَّبة مسبقًا لضبط النموذج بدقة.

Reparameterized fine-tuning
Reparameterized fine-tuning

يمكن استخدام العديد من الطرق لتنفيذ الضبط الدقيق المعاد ضبطه، بما في ذلك LoRA (التكيف منخفض الرتبة)، وQLoRA (LoRA الكمي)، وKronA (محول كرونكر)، وDyLoRA (LoRA الديناميكي)، وAdaLoRA (LoRA التكيفي)، وما إلى ذلك. دعونا نلقي نظرة على تفاصيل بعضها.

  • LoRA: يستخدم التكيف منخفض الرتبة (LoRA) تحويل الرتبة المنخفضة تُستخدم تقنية التحويل منخفض الرتبة لتقريب مصفوفة كبيرة عن طريق تحليلها إلى ناتج ضرب مصفوفات أصغر. تقنية لتقليل عدد المعاملات القابلة للتدريب في النموذج المدرب مسبقًا مع الحفاظ على المعلومات المهمة. تعيد هذه الطريقة تحديد معلمات الأوزان الأصلية (المعلمات) باستخدام مصفوفتين منخفضتي الرتبة. ثم يتم تدريب المصفوفتين منخفضتي الرتبة، مع تثبيت الأوزان المدربة مسبقًا لضبط النموذج بدقة على مهمة جديدة.

  • كرونا: يعمل محول كرونيكر (KronA) بشكل مشابه لـ LoRA، ولكنه يستخدم بدلاً من التحويل منخفض الرتبة تحلل منتجات كرونكر يُعدّ تحليل كرونكر تقنيةً لتقريب المصفوفة عن طريق تحليلها إلى حاصل ضرب كرونكر لمصفوفتين. يُمثّل هذا الأسلوب المصفوفة الأصلية بكفاءة من حيث التخزين والحساب مع الحفاظ على رتبتها. لتقليل عدد المعلمات القابلة للتدريب. يتم تدريب المصفوفات المفككة مع تثبيت الأوزان المدربة مسبقًا لضبط النموذج بدقة على مهام جديدة.

يُمكّن هذا النهج النموذج من التكيف بكفاءة مع المهام الجديدة دون المساس بمعرفته المُدرَّبة مسبقًا. وكما هو الحال مع جميع التقنيات الأخرى، فإن إعادة ضبط المعلمات لها بعض القيود. فقد تواجه تحديات مثل محدودية التكيف أو نقص التوافق، خاصةً عند التعامل مع مجموعات البيانات المعقدة.

ملاحظة: راجع " ضبط دقيق فعال للمعلمات للنماذج الكبيرة: دراسة شاملة هان، زيو، تشاو غاو، جينيانغ ليو، جيف تشانغ، وساي تشيان تشانغ. 2024. "الضبط الدقيق الفعال للمعلمات للنماذج الكبيرة: دراسة شاملة". ArXiv.org. 29 أبريل 2024. https://doi.org/10.48550/arXiv.2403.14608. للحصول على شرح أكثر تفصيلاً حول تقنيات PEFT.

مقارنة أنواع الضبط الدقيق

دعونا نلقي نظرة سريعة على جميع تقنيات الضبط الدقيق من خلال جدول التلخيص التالي:

Fine-Tuning Technique

Definition

Use Cases

Limitations

Full fine-tuning

It involves training all the parameters of the model.

  • Required for highly domain-specific tasks where significant adaptations needed.
  • Used when the new dataset is large and significantly different from the pre-training data.
  • High computational cost
  • Catastrophic forgetting
  • Risk of overfitting if the dataset is small

Partial fine-tuning

It works by trainining only the selected parameters while freezing rest of the parameters of the model.

  • Suitable for tasks that needs fine-tuning while preserving the pretrained knowledge with minimal computational resources.
  • Used when the new task is similar to the pre-training tasks and training dataset is not large.


  • Limited adaptation to new tasks specially if the task is complex
  • Risk of overfittng and underfitting

Additive fine-tuning

It introduces new layers or modules (adapters) that are fine-tuned for specific tasks while keeping the original pre-trained model frozen.

  • Required for scenarios where model efficiency is important, specially when working with multiple tasks or domains.
  • Used when computational resources are limited.
  • Used when quick adaptation is needed.
  • Increased model size and complexity
  • Risk of overfitting


Reparameterized fine-tuning

It reparameterizes the weights of the model to approximate the original weights while preserving important information and trains only the reparameterized weights freezing the pre-trained model.

  • Best for scenarios where fine-tuning needs to be efficient while preserving the pretrained knowledge.
  • Used when computational resources are limited.
  • Limited ability to capture complex relationships and patterns
  • Risk of underfitting

اختيار أسلوب الضبط الدقيق المناسب

لقد استكشفنا العديد من تقنيات الضبط الدقيق، ولكل منها نقاط قوتها وقيودها وحالات استخدامها الخاصة. ويُعد اختيار الطريقة المناسبة أمرًا بالغ الأهمية عند ضبط النموذج بدقة لتحقيق الأداء المطلوب.

فيما يلي بعض العوامل مفتاح التي يجب مراعاتها عند اختيار تقنية الضبط الدقيق:

  • حجم النموذج

  • تعقيد المهمة

  • الموارد الحاسوبية

  • احتياجات النشر

  • الحفاظ على المعرفة المكتسبة مسبقاً

في هذه الدورة، سنستكشف كيفية ضبط نموذج LLM باستخدام LoRA:

Hierarchical structure of fine-tuning
Hierarchical structure of fine-tuning

تُعدّ تقنية LoRA اليوم الأكثر استخدامًا لضبط النماذج بدقة، وذلك بفضل توازنها بين الكفاءة والمرونة والحفاظ على المعرفة المُدرَّبة مسبقًا. فهي تُمكّننا من ضبط النموذج بدقة على المهام دون الحاجة إلى موارد حاسوبية ضخمة، مما يجعلها خيارًا مناسبًا لمجموعة واسعة من التطبيقات، بدءًا من المهام المتخصصة في مجال معين وصولًا إلى عمليات النشر واسعة النطاق.