Search⌘ K
AI Features

ما هو الضبط الدقيق؟

تعلم كيفية ضبط برنامج الماجستير في القانون، وفهم احتياجاته، واكتشاف معاييره مفتاح وخطواته الأساسية لضبط أي برنامج ماجستير في القانون بنجاح.

الضبط الدقيق هو عملية تكييف نموذج لغوي مُدرَّب مسبقًا لأداء مهام وحالات استخدام محددة، وذلك من خلال تدريبه بشكل إضافي على بيانات خاصة بالمجال. يتضمن ذلك تدريب معلمات نموذج اللغة اللغوية الموجود مسبقًا على بيانات خاصة بالمجال. إن الاستفادة من المعرفة الموجودة للنموذج المُدرَّب مسبقًا، إلى جانب التدريب على بيانات جديدة، يُتيح للنموذج فهم المهام المحددة والاستجابة لها بشكل أفضل.

قبل الانتقال إلى كيفية عمل الضبط الدقيق، دعونا نتعرف بإيجاز على كيفية تدريب هذه النماذج مسبقًا.

التدريب المسبق لبرامج الماجستير في القانون من الداخل

أحدثت نماذج المحولات ثورة في مجال معالجة اللغات الطبيعية. تعتمد معظم نماذج اللغة الحديثة اليوم، مثل GPT وLlama وBERT وغيرها، على بنية المحولات لفهم النصوص وتوليد نصوص شبيهة بالنصوص البشرية. قد تتكون نماذج المحولات من بنية مُشفِّر-مُفكِّك، لكن العديد منها يستخدم أحد هذين المكونين فقط. يستقبل المُشفِّر إدخال ويُنتج تمثيلها، ثم يُمرَّر هذا التمثيل إلى المُفكِّك الذي يُنتج إخراج. تُساعد هذه البنية النماذج على تعلّم التفاصيل والأنماط المعقدة للبيانات أثناء التدريب المُسبق.

Transformer's architecture
Transformer's architecture

أثناء التدريب المسبق، يتم تدريب النموذج فعلياً على مجموعة بيانات كبيرة. تتضمن عملية التدريب المسبق الطبقات التالية:

  • طبقة تضمين الإدخال: تقوم بتحويل إدخال إلى التمثيل العددي المسمى بالتضمينات.

  • طبقة التشفير الموضعي: تضيف معلومات حول موضع الكلمة إلى تضمين إدخال وتقوم بإعادة توجيه هذه المعلومات المجمعة إلى المشفر.

  • طبقات المُشفِّر : يستخدم المُشفِّر، الذي يتكون من طبقات فرعية متعددة، آليات الانتباه الذاتي لمساعدة النموذج على فهم سياق وعلاقة كلمات إدخال. تقوم طبقة الانتباه متعددة الرؤوس في المُشفِّر بحساب مصفوفة الانتباه مصفوفة الانتباه هي مصفوفة تحدد أهمية كل كلمة في تسلسل إدخال بالنسبة لجميع الكلمات الأخرى. يتم إدخال تمثيل إدخال وتمريرها إلى طبقة التغذية الأمامية، التي بدورها تولد تمثيل الإشارة إدخال. يتم تطبيق مكون الجمع والتطبيع بعد كل طبقة فرعية من طبقات المُشفِّر، حيث يجمع هذا المكون إشارة الطبقة إدخال مع إخراج (الوصلة المتبقية) ويُطبع التنشيطات لتحقيق استقرار العملية.

  • طبقات فك التشفير : يتكون جهاز فك التشفير من عدة طبقات فرعية تُولّد تسلسل إخراج . أولًا، تحسب طبقة الانتباه متعددة الرؤوس المقنعة مصفوفة الانتباه لتضمين إخراج ، ثم تُمررها إلى طبقة الانتباه متعددة الرؤوس. تقوم طبقة الانتباه متعددة الرؤوس بدمجها مع تمثيل المُشفّر، مُولّدةً بذلك تمثيل إخراج. يُطبّق مُكوّن الجمع والتطبيع بعد كل طبقة فرعية من طبقات فك التشفير، حيث يجمع إدخال الطبقة مع إخراج (الوصلة المتبقية) ويُطبع التنشيطات لتحقيق استقرار العملية.

  • الطبقة الخطية: تقوم الطبقة الخطية بتحويل إخراج وحدة فك التشفير إلى لوجيتس في سياق المحولات، فإن اللوجيت هي قيم إخراج غير المعيارية التي تنتجها الطبقة الأخيرة من النموذج. حجم المفردات.

  • طبقة سوفتماكس: تُطبّق طبقة سوفتماكس دالة سوفتماكس لتحويل القيم اللوغاريتمية إلى احتمالات. ثم يتم اختيار رمز ذي الاحتمالية القصوى ليكون إخراج النهائي.

Educative Bytes: A transformer can have up to nn number of encoder and decoder layers and the representation obtained by the last layer will be the final output.

خلال مرحلة التدريب المسبق، يتم تدريب جميع هذه الطبقات معًا. يفهم النموذج الأنماط والهياكل العامة في الطبقات الأولى، ثم ينتقل إلى تعلم خصائص بيانات محددة في الطبقات اللاحقة. يُستخدم هذا المفهوم الأساسي بعد ذلك في عملية الضبط الدقيق، حيث ندرب النموذج المخصص لمهام محددة.

Pre-training the LLM
Pre-training the LLM

كيف تعمل عملية الضبط الدقيق

تتضمن عملية الضبط الدقيق أخذ نموذج مدرب مسبقًا تعلم أنماطًا عامة من مجموعات بيانات كبيرة وتعديل معاييره لتناسب مجموعات البيانات المخصصة والخاصة بالمهمة.

بحسب مهمتنا، نختار مجموعة بيانات أصغر من بيانات التدريب المسبق، ونُعدّل أوزان النموذج لتمكينه من التكيف مع البيانات الجديدة. بهذه الطريقة، يُحسّن النموذج معرفته الحالية ويتعلم تفاصيل البيانات الجديدة. ومن خلال البناء على معرفة النموذج المُدرّب مسبقًا، يُتيح الضبط الدقيق للنموذج التعلّم بكفاءة ودقة أكبر.

Fine-tuning LLM on task-specific dataset
Fine-tuning LLM on task-specific dataset

دعونا نتناول سيناريو لفهم أهمية الضبط الدقيق.

سيناريو: خدمة الرعاية الصحية

لنفترض أن مزود خدمات رعاية صحية مرموق يسعى إلى دمج نماذج الذكاء الاصطناعي مثل ChatGPT وGemini وLlama في نظامه الطبي. يهدف هذا المزود إلى تطوير روبوت محادثة يُنشئ خطط علاجية مُخصصة لكل مريض بناءً على مرضه وتاريخه الطبي وتركيبته الجينية ونمط حياته. كيف يُمكنه تحقيق ذلك؟

قد نعتقد أن هذا ممكن ببساطة عن طريق اختيار نموذج خطي للتعلم الآلي (LLM) لروبوت المحادثة وتوفير بيانات المرضى كسياق للنموذج. وهذا صحيح بالفعل. ينجح هذا النهج مع عدد قليل من المرضى، ولكن مع ازدياد عدد المرضى (إلى ملايين مثلاً)، يزداد حجم بيانات المرضى بشكل كبير ليصل إلى غيغابايتات وتيرابايتات.

لن يكفي الاعتماد على المعرفة العامة للنموذج، إذ سيستغرق الأمر وقتًا أطول بكثير لتحليل سياق كل استعلام. وهذا يؤثر أيضًا على كفاءة النموذج ودقته. والأهم من ذلك، سيصبح تحديث السياق وتحليل البيانات المعقدة لوضع خطط علاج فعّالة أمرًا بالغ الصعوبة ويستغرق وقتًا طويلًا لمقدمي خدمات الرعاية الصحية. فما العمل الآن؟

للتغلب على هذا التحدي، يحتاجون إلى طريقة أكثر فعالية لضبط نموذج اللغة الخاص بهم ليتناسب مع بيانات مرضاهم. فهم بحاجة إلى تدريب النموذج ليتعلم من بياناتهم الفريدة، وتقليل الوقت اللازم لتحديث السياق وتحليل البيانات المعقدة. مع ذلك، فإن تدريب نموذج من الصفر غير عملي، إذ يتطلب موارد ووقتًا كبيرين. علاوة على ذلك، يُخاطر هذا النهج بفقدان المعرفة والقدرات السابقة للنموذج أثناء تعلمه من بيانات جديدة. لذا، فهم بحاجة إلى طريقة لتحسين النموذج الحالي وضبطه ليتعامل بفعالية مع بياناتهم الضخمة ويستخدمها بكفاءة. وهنا يأتي دور الضبط الدقيق.

يُعد الضبط الدقيق أمراً مهماً لأنه يسمح للنماذج بما يلي:

  • الأداء: ضبط دقيق للبيانات المحددة، وتحسين الأداء في مهام محددة

  • الدقة: التقاط تفاصيل البيانات الخاصة بالمهمة، مما يحسن دقة استجابة النموذج.

  • الكفاءة: تقليل الموارد والوقت الإجمالي من خلال تسريع عملية التدريب على البيانات الخاصة بالمهام.

  • القدرة على التكيف: التعلم السريع من البيانات الجديدة، والتكيف مع متطلبات المستخدم والمهمة.

  • قابلية التوسع: يسمح الضبط الدقيق للنموذج بالتعامل مع حجم كبير من التفاعلات الشخصية بكفاءة، مما يوفر تجربة مستخدم أفضل.

  • الاحتفاظ بالمعرفة : الاحتفاظ بالمعرفة المكتسبة مسبقًا أثناء تعلم معلومات جديدة خاصة بالمهمة، مع تجنب " النسيان الكارثي عندما ينسى نموذج التعلم الموجه بالتعلم (LLM) المعرفة السابقة أثناء التعلم من مجموعة بيانات جديدة، يُطلق على هذا المفهوم اسم النسيان الكارثي. ويحدث هذا عادةً أثناء ضبط جميع أو بعض معلمات نموذج التعلم الموجه بالتعلم. "

Why fine-tuning is important
Why fine-tuning is important

معايير التدريب

يُعدّ ضبط معايير التدريب أمرًا بالغ الأهمية أثناء ضبط النموذج. تلعب هذه المعايير دورًا محوريًا في التحكم بكيفية تعلّم النموذج من مجموعة البيانات المُخصصة لدينا، وتحقيق الأداء الأمثل أثناء عملية الضبط. فيما يلي بعض المعايير التي يجب مراعاتها لضبط النموذج بفعالية:

  • حجم الدفعة: هو عدد الأمثلة التي تتم معالجتها في دورة واحدة من عملية التدريب. يعتمد اختيار حجم الدفعة على عوامل مثل حجم بيانات التدريب، وموارد الذاكرة، ومدى تعقيد المهمة. يؤدي حجم الدفعة الأكبر إلى تدريب المزيد من البيانات في دورة واحدة، مما يُسرّع عملية التدريب بشكل عام، ولكنه في المقابل يتطلب ذاكرة أكبر لمعالجة البيانات.

  • عدد الدورات التدريبية: هو عدد الدورات التي تمر عبر مجموعة البيانات الكاملة. يعتمد اختيار قيمة عدد الدورات التدريبية أيضًا على مدى تعقيد وحجم بيانات التدريب. قد يؤدي انخفاض قيمة الدورات التدريبية إلى: يعني نقص ملاءمة النموذج أن النموذج لم يتعلم كل التفاصيل والأنماط من بيانات التدريب، وبالتالي يفشل في الأداء على بيانات الاختبار. غير مناسب عندما لا يتعلم النموذج جميع التفاصيل والأنماط من بيانات التدريب ويفشل في الاستجابة بدقة لبيانات التدريب والبيانات الجديدة، فإن هذا يسمى نقص ملاءمة النموذج. بينما يمكن أن تؤدي قيمة الأعلى إلى الإفراط في التخصيص عندما يكون أداء النموذج جيدًا لبيانات التدريب، ولكنه يفشل في الاستجابة بدقة لبيانات الاختبار والبيانات الجديدة، فإن هذا يسمى فرط ملاءمة النموذج. من النموذج.

  • التكرار: هو عدد دفعات يتم تقسيم مجموعة البيانات إلى أجزاء أصغر لتمريرها إلى النموذج للتدريب، وتسمى هذه الأجزاء "دفعة". يلزم لإكمال دورة واحدة. يمكن حساب عدد التكرارات عن طريق قسمة العدد الإجمالي للأمثلة في بيانات التدريب على حجم الدفعة.

  • معدل التعلم: يُستخدم هذا المقياس لتحديد مدى سرعة تعلم النموذج من بيانات التدريب. يتطلب معدل التعلم المنخفض عددًا أكبر من الدورات التدريبية لعكس التأثيرات، بينما يعكس معدل التعلم المرتفع التغييرات بشكل أسرع، حتى مع عدد أقل من الدورات التدريبية.

معلومات تعليمية موجزة: عدد الدفعات وحجم الدفعة مفهومان مختلفان. يشير عدد الدفعات إلى عدد الأجزاء الأصغر التي تُقسّم إليها مجموعة البيانات، بينما يشير حجم الدفعة إلى عدد الأمثلة التي تتم معالجتها في دفعة واحدة أثناء التدريب.

خطوات الضبط الدقيق

فيما يلي الخطوات مفتاح التي نحتاج إلى القيام بها لتحسين أي برنامج ماجستير في القانون:

  1. اختيار النموذج: الخطوة الأولى والأهم هي اختيار نموذج لغوي مُدرَّب مسبقًا بناءً على مهمتنا في عملية الضبط الدقيق. النماذج المُدرَّبة مسبقًا هي نماذج عامة الأغراض تُدرَّب على مجموعة كبيرة من البيانات. وهناك عدد من... مفتوح المصدر النماذج مفتوحة المصدر هي تلك المتاحة مجاناً للجميع لأغراض البحث والتطوير. (لاما، بيرت، وميسترال، إلخ.) و مغلق المصدر النماذج المغلقة المصدر هي تلك التي تتطلب اشتراكًا مدفوعًا أو ترخيصًا لاستخدامها. تتوفر نماذج (مثل ChatGPT و Gemini وغيرها) لضبطها بدقة. كل ما علينا فعله هو إيجاد النموذج الذي يناسب مواردنا ومتطلباتنا على أفضل وجه.

ملاحظة: في هذه الدورة، سنستخدم برنامج Llama 3.1 من Meta مع 8 مليارات مُعامل لضبط النموذج بدقة. يُرجى العلم أن اختيار النموذج يعتمد على عوامل مثل تعقيد المهمة والموارد الحاسوبية المتاحة.

  1. إعداد مجموعة البيانات: تتمثل خطوتنا التالية في إيجاد مجموعة بيانات مناسبة لمهامنا ومجالاتنا. هذه الخطوة بالغة الأهمية، إذ يعتمد ضبط النموذج بالكامل على مجموعة البيانات التي نختارها. يجب أن تكون البيانات منظمة ومرتبة بشكل يسمح للنموذج بالتعلم منها.

  2. معالجة البيانات: بعد تجهيز مجموعة البيانات، نحتاج إلى معالجتها مسبقًا. تتضمن هذه الخطوة تنظيف البيانات ثم تقسيمها إلى مجموعتي تدريب واختبار. بمجرد الانتهاء من المعالجة المسبقة، تصبح مجموعة البيانات جاهزة لضبط النموذج بدقة.

  3. ضبط معلمات التدريب: الخطوة المهمة التالية هي ضبط معلمات النموذج بدقة. يتضمن ذلك تحديد معلمات التدريب مثل معدل التعلم، وحجم الدفعة، وعدد الدورات التدريبية، وما إلى ذلك.

  4. ضبط النموذج: الآن أصبحنا جاهزين لضبط النموذج بدقة. تُدرّب هذه الخطوة النموذج على مجموعة بيانات جديدة مع الاحتفاظ بنموذج المعرفة السابق من التدريب المسبق. وهذا يُساعد النموذج على اكتساب معرفة حول بياناتنا الخاصة بالمهمة.

  5. التقييم والتحسين: تتمثل الخطوة الأخيرة في تقييم نتائج النموذج لتقييم أدائه وفقًا لمهمتنا وإجراء أي تعديلات ضرورية. بعد التقييم، يصبح نموذجنا جاهزًا للاستخدام في المهمة المطلوبة.

Steps for fine-tuning
Steps for fine-tuning