Search⌘ K
AI Features

هندسة سريعة لتوليد الصور بالذكاء الاصطناعي

تعلم كيفية تصميم أصول بصرية عالية الدقة من خلال إتقان تشريح المطالبات البصرية، ومدخلات JSON المنظمة، وتقنيات التحسين التكراري.

يمثل الانتقال من النماذج النصية إلى الأنظمة متعددة الوسائط تحولاً في كيفية هندسة النوايا. فبينما يركز معالجة اللغة الطبيعية التقليدية على العلاقات الدلالية بين الكلمات، يتطلب توليد الصور سد الفجوة بين المفاهيم النصية المجردة والتوزيع متعدد الأبعاد للبكسلات. ونُعرّف توجيه الصور بأنه التصميم المنهجي للمدخلات النصية لتوجيه نموذج توليدي نحو إنتاج إخراج بصرية محددة. وبصفتنا مهندسين، يجب علينا تجاوز النظر إلى هذه التوجيهات على أنها مجرد أوصاف بسيطة، والتعامل معها بدلاً من ذلك على أنها تعليمات دقيقة لمحرك احتمالي.

لا تفهم نماذج الصور الحديثة المشاهد بالطريقة التي يفهمها بها البشر؛ بل تقوم بربط رموز النصوص بفضاء كامن، وهو فضاء رياضي متعدد الأبعاد يمثل فيه النموذج البيانات المضغوطة، مما يسمح بتجميع المفاهيم المتشابهة. عندما نقدم طلبًا، فإننا في الأساس نتنقل في هذا الفضاء الكامن للعثور على الإحداثيات التي تمثل الصورة التي نريدها على أفضل وجه.

Latent space
Latent space

وللقيام بذلك بفعالية وعلى نطاق واسع، نستخدم نمطين أساسيين للتحكم:

  • اللغة الطبيعية الوصفية: تتضمن كتابة عبارات تحفيزية في جمل معبرة ومفصلة تستفيد من الارتباطات البديهية للنموذج.

  • التوجيه المنظم: يستخدم تنسيقات بيانات منظمة مثل JSON أو XML لتحديد مكونات التوجيه بوضوح من أجل تحسين الالتزام بالنموذج والاتساق.

أولاً، دعونا نستكشف كيفية تصميم موجه وصفي باللغة الطبيعية.

تشريح المحفز البصري

نادراً ما يكون التوجيه البصري عالي الأداء جملةً واحدة، بل هو بناءٌ متعدد الطبقات يُعالج أبعاداً مختلفة للصورة. عند بناء التوجيهات للتطبيقات الاحترافية، نُقسّم هدفنا إلى خمسة عناصر أساسية. يُمكّننا هذا النهج المعياري من تحسين جوانب مُحددة من الصورة، كالإضاءة أو زاوية الكاميرا، دون التأثير على الموضوع الرئيسي.

الموضوع

الموضوع هو الكيان أو الشخصية الأساسية في الإطار. ولتحقيق دقة عالية، يجب وصف الموضوع بأسماء وصفات محددة تُعرّف هويته ومظهره وفعله المباشر. أما المواضيع الغامضة فتؤدي إلى مخرجات غير متسقة لأن النموذج يُجبر على ملء الفراغات بتحيزاته الاحتمالية الخاصة.

فعلى سبيل المثال، يتيح وصف "كرسي" مجالاً واسعاً من التفسيرات، بينما يُضيّق وصف "كرسي خشبي حديث الطراز من منتصف القرن ذو أرجل مدببة" نطاق تفسير النموذج بشكل ملحوظ. ويساعد التحديد الدقيق النموذج على الاقتراب بشكل أكثر موثوقية من المفهوم البصري المقصود.

عندما يتعلق الأمر بأشخاص متعددين، يصبح وضوح أدوارهم وعلاقاتهم أمراً بالغ الأهمية. فالغموض في هذا الجانب غالباً ما يؤدي إلى تكرار غير متوقع للأشياء، أو فقدان عناصر، أو تشوه النسب.

متوسط ​​وأسلوب

يشير الوسيط إلى المادة المادية أو الرقمية المستخدمة في إنشاء العمل الفني، مثل الرسم الزيتي على القماش، أو فيلم 35 مم، أو الرسومات المتجهة. يُعدّ تحديد الوسيط الطريقة الأمثل للتحكم في المظهر الجمالي العام إخراج. في حال عدم تحديد الوسيط، غالبًا ما يعتمد النموذج على أسلوب رسم رقمي عام. أما في السياق الاحترافي، فنحدد عادةً محرك العرض أو معدات الكاميرا المستخدمة لإضفاء طابع واقعي على أسلوب النموذج.

  • الوسائط الفنية: حدد الشكل الإبداعي أو الأسلوب الفني التقليدي للصورة، على سبيل المثال، الألوان المائية، أو رسم الفحم، أو العرض ثلاثي الأبعاد متساوي القياس، أو طباعة أوكيو-إي الخشبية.

  • الأساليب الفوتوغرافية: حدد نوع التصوير الفوتوغرافي أو أسلوب التقاط الصور المرئية، على سبيل المثال، التصوير الفوتوغرافي الماكرو، أو تصوير الشوارع، أو تحرير الأزياء الراقية، أو لقطات كاميرات المراقبة.

التكوين والتأطير

نتحكم في منظور المشاهد باستخدام لغة سينمائية. يحدد هذا الجزء كيفية وضع الموضوع داخل الإطار وعمق المشهد.

  • أنواع اللقطات: حدد تأطير أو منظور الصورة، على سبيل المثال، لقطة مقربة للغاية (التركيز على التفاصيل)، لقطة واسعة (تحديد البيئة)، أو منظر عين الطائر (منظور من الأعلى إلى الأسفل).

  • إعدادات الكاميرا: راجع المعايير الفنية للتصوير الفوتوغرافي التي تؤثر على النتيجة المرئية، على سبيل المثال، يمكن الحصول على تأثير البوكيه (الجودة الجمالية للضبابية خارج نطاق التركيز) من خلال تحديد عمق مجال ضحل أو فتحة عدسة واسعة مثل f/1.8.

  • قواعد التكوين: صف مبادئ الترتيب البصري التي توجه كيفية وضع العناصر داخل الإطار، على سبيل المثال، قاعدة الأثلاث، والتكوين المتناظر، والخطوط الرائدة.

الإضاءة والأجواء

يُحدد الإضاءة البُعد العاطفي للصورة، فهي حلقة الوصل بين الجانب التقني والإبداعي. ومن خلال هندسة الإضاءة، نؤثر على اختيار العارضة لألوانها ومستويات التباين.

  • الإضاءة الطبيعية: تشير إلى الإضاءة القادمة من المصادر الطبيعية والظروف البيئية، على سبيل المثال، الساعة الذهبية (ضوء دافئ وناعم)، أو الغائم (ضوء خافت ومتساوٍ)، أو شمس الظهيرة القاسية (ظلال قوية).

  • الإضاءة الاصطناعية: تصف الضوء الذي يتم إنشاؤه أو التحكم فيه من خلال مصادر اصطناعية، على سبيل المثال، توهج النيون، أو الإضاءة الحجمية (أشعة الضوء المرئي)، أو الإضاءة الخلفية السينمائية (إضاءة الحواف التي تفصل الموضوع عن الخلفية).

التفاصيل والجماليات

تتضمن هذه الطبقة الأخيرة مُعدِّلات تقنية تُشير إلى جودة عالية أو نسيج مُحدد. نستخدم هذه المُعدِّلات لرفع دقة النموذج وإضافة أنماط أكثر تعقيدًا. تشمل المُعدِّلات الشائعة: الواقعية المُفرطة، ودقة 8K، والزخارف الدقيقة، واللمسة النهائية غير اللامعة. كما يُمكنك استخدام المُعدِّلات لتبسيط إخراج، على سبيل المثال، التصميم المُسطَّح أو النمط البسيط.

بعد وضع اللبنات الأساسية، يكمن التحدي التالي في تجميعها في عبارات تحفيزية تتسم بالوضوح والموثوقية. لا يعتمد التحفيز الوصفي الفعال على البلاغة بقدر ما يعتمد على ترتيب النية وإدارة القيود.

The anatomy of a visual prompt
The anatomy of a visual prompt

تبدأ عملية التوجيه الفعّالة عادةً بتحديد الموضوع والوسيط، ثم تُحسّن تدريجيًا التكوين والإضاءة والتفاصيل. يساعد هذا الترتيب النموذج على بناء أساس بصري ثابت قبل تطبيق التعديلات الأسلوبية. قد يكون ترك بعض الجوانب مفتوحة عمدًا مفيدًا عند الرغبة في الاستكشاف. مع ذلك، ينبغي أن يكون هذا قرارًا مدروسًا لا مجرد صدفة ناتجة عن صياغة غامضة. يوازن التوجيه الفعّال بين التقييد والمرونة وفقًا للهدف.

بمجرد أن نتقن التشريح الثابت للموجه البصري، يجب علينا الانتقال من توليد دورة واحدة إلى سير عمل أكثر تعقيدًا وتكرارًا حيث نقوم بتحسين مخرجاتنا من خلال التفاعل المستمر والتعديلات التقنية المستهدفة.

التحسين التكراري والتحرير الحواري

في سير العمل الاحترافي، نادرًا ما نحصل على الصورة المثالية من أول مرة. وكما نقوم بتصحيح الأخطاء البرمجية، يجب علينا تحسين مخرجاتنا المرئية. تتيح أنظمة الوسائط المتعددة الحديثة نوعين أساسيين من التحسين: التحرير الحواري متعدد المراحل والتعديلات الهيكلية الموجهة.

تحرير المحادثة متعدد الأدوار

نادراً ما يكون توليد الصور بلقطة واحدة كافياً للاستخدام الاحترافي. يسمح لنا التحسين التكراري بالوصول إلى النتيجة المرجوة من خلال تعديلات متتالية بدلاً من إعادة توليدها من الصفر. في سير العمل التكراري، يصبح كل توليد سياقاً للتوجيه التالي. يمكن أن تستهدف التعليمات اللاحقة سمات محددة مثل الإضاءة، وتوازن الألوان، أو موضع العناصر مع الحفاظ على البنية العامة للصورة.

يُحاكي هذا النهج الحواري طريقة عمل المصممين البشريين، حيث يُحسّن المخرجات بناءً على التغذية الراجعة البصرية. كما يُقلل من التباين من خلال الحفاظ على استقرار أجزاء كبيرة من التمثيل الكامن عبر التكرارات. ويكون التحسين التكراري فعالاً بشكل خاص عند دمجه مع لغة دقيقة تُشير إلى السمات المرئية بدلاً من النوايا المجردة.

Multi-turn conversational editing
Multi-turn conversational editing

على سبيل المثال، إذا أنتجت مداخلتنا الأولية منظرًا طبيعيًا هادئًا مع جبل، فقد تكون مداخلتنا التالية: "اجعله يبدو واقعيًا الآن" أو "أضف متسلق جبال يرتدي وشاحًا أحمر في المقدمة". يستفيد هذا النهج الحواري من فهم النموذج للسياق الحالي لإجراء تحديثات تدريجية مع الحفاظ على الهوية الأساسية للمشهد.

إعادة التلوين والتغطية

تُعدّ تقنية التعبئة الداخلية أسلوبًا لتحرير أو ملء أجزاء محددة من الصورة من خلال توفير إشارة جديدة لمنطقة مُقنّعة. فبدلًا من إعادة إنشاء المشهد بأكمله، نُحدّد منطقة مُحدّدة للتعديل مع بقاء السياق المحيط بها ثابتًا. هذا هو الجانب الدقيق من تقنية التعبئة الداخلية للصور.

  1. الصورة الأصلية: نبدأ بصورة موجودة تم إنشاؤها كأساس لمزيد من التعديل.

  2. الإخفاء: نقوم بتحديد منطقة معينة من البكسلات (القناع) التي نرغب في تغييرها.

  3. التعليمات: نقدم لكم مطالبة جديدة تنطبق فقط على تلك المنطقة المقنعة.

على سبيل المثال، إذا كانت لدينا صورة لمكتب احترافي ونرغب في تغيير اللوحة الجدارية، فسنقوم بإخفاء الإطار على الحائط ونقدم اقتراحًا مثل لوحة زيتية زرقاء تجريدية. ثم يقوم النموذج بتركيب الصورة بما يتناسب مع السياق، لضمان توافق اللوحة الجديدة مع الإضاءة والظلال والمنظور في باقي أرجاء المكتب.

The inpainting masking technique
The inpainting masking technique

مراجع الصور ودقة إدخال

تتضمن إحدى التقنيات المتقدمة الأخرى استخدام صورة موجودة كمرجع لتوجيه عملية إنشاء صورة جديدة. نستخدم هذه التقنية للحفاظ على اتساق الهوية. فإذا كان لدينا أربع صور لمنتجات محددة للعناية بالبشرة، وأردنا إنشاء "سلة هدايا تحتوي على جميع هذه المنتجات"، يستخدم النموذج الصور المرجعية لفهم الأشكال والشعارات والتركيبات الخاصة بكل منتج. غالبًا ما يمكننا التحكم في مستوى دقة إدخال ، أي مدى التزام النموذج بالتفاصيل البصرية للصورة المرجعية مقارنةً بتفسيره الإبداعي الخاص. تُعدّ إعدادات الدقة العالية ضرورية للحفاظ على عناصر العلامة التجارية، مثل الشعارات وتصاميم المنتجات.

توجيه منظم لسير العمل الإنتاجي

مع ازدياد حجم تطبيقاتنا، يصبح الاعتماد على فقرات وصفية طويلة عائقًا. فالفقرات عُرضة لظاهرة "تداخل العناصر"، وهي ظاهرة تؤثر فيها الصفات المُخصصة لعنصر ما في وصف ما، عن طريق الخطأ، على عناصر أخرى في المشهد نفسه. على سبيل المثال، في الوصف "رجل يرتدي بدلة زرقاء يقف بجوار سيارة حمراء"، قد يُولّد النموذج عن طريق الخطأ "بدلة حمراء" أو "سيارة زرقاء" لأن آلية الانتباه تخلط بين هذه الصفات.

لحل هذه المشكلة، نُطبّق نظام توجيه مُهيكل، باستخدام تنسيقات مثل JSON لتحديد مكونات التوجيه، مما يُحسّن من التزام النموذج واتساقه. هذا يُجبر النموذج على التعامل مع الجوانب المختلفة للمشهد كمتغيرات مُستقلة، وبالتالي يُحسّن بشكل كبير من التزامه بالتعليمات المُعقدة.

على سبيل المثال، يحدد موجه JSON أدناه التسلسل الهرمي للمشهد.

{
"SCENE": "A futuristic research laboratory",
"ENVIRONMENT": {
"SETTING": "Interior, high-tech, clinical",
"ATMOSPHERE": "Fog-covered, mysterious",
"TIME": "Dawn"
},
"SUBJECTS": [
{
"NAME": "Lead Scientist",
"TYPE": "Human female",
"APPEARANCE": "Silver lab coat, holographic visor",
"ACTION": "Interacting with a glowing data orb"
}
],
"STYLE": {
"MEDIUM": "Cinematic photography",
"AESTHETIC": "Cyberpunk, high-detail",
"COLOR_PALETTE": "Teal and orange"
},
"CAMERA": {
"SHOT_TYPE": "Medium wide shot",
"MOVEMENT": "Sweeping pan",
"LENS": "35mm anamorphic"
}
}
JSON prompt for image generation

يمنع هذا الهيكل انتقال الضباب إلى معطف المختبر عن طريق الخطأ. كما يسمح لنا بناء مسارات عمل مؤتمتة حيث يمكن لبرنامج نصي تغيير...SUBJECT أوTIME دون الحاجة إلى إعادة بناء موجه الأوامر بالكامل. في البرامج المُستخدمة في بيئة الإنتاج، يعمل هيكل JSON هذا كملف تهيئة إخراج المرئي.

الاستفادة من القدرات الخاصة بالنموذج

لقد أدخل الجيل الحالي من نماذج الصور قدرات متخصصة تحل عقباتٍ طال أمدها في مجال الذكاء الاصطناعي التوليدي. وبصفتنا مهندسين، يجب أن نعرف كيفية تفعيل هذه الميزات من خلال توجيهاتنا.

  • عرض دقيق للنصوص: تاريخيًا، واجهت نماذج الصور صعوبة في عرض نصوص مقروءة، وغالبًا ما كانت تُنتج أحرفًا غير مفهومة. وقد حلت النماذج الحديثة هذه المشكلة إلى حد كبير من خلال تحسين مواءمة مُشفِّرات النصوص ومُفكِّكات الصور. وللاستفادة من ذلك، نستخدم تعليمات واضحة في مُطالباتنا. على سبيل المثال، واجهة متجر بسيطة تحمل لافتة مكتوب عليها "LUMINA" بخط sans-serif أنيق. وللحصول على أفضل النتائج، نضع النص الذي نريد عرضه بين علامتي اقتباس، ونصف خصائصه المرئية (نمط الخط، واللون، والموضع) بجوار النص مباشرةً.

  • المفاضلة بين الجودة وزمن الاستجابة: في الإنتاج، غالباً ما نواجه مفاضلة بين سرعة توليد الصور وجودتها. وتُظهر النماذج عادةً مستويات دقة مختلفة.

    • دقة عالية: تستخدم هذه التقنية خطوات إزالة تشويش أكثر تعقيدًا وبرامج ترميز متطورة لإنتاج صور بجودة إنتاجية عالية، مع نسيج غني وإضاءة دقيقة. وهذا مثالي للمواد التسويقية النهائية.

    • الدقة القياسية/المصغرة: تستخدم عددًا أقل من الرموز وبنية أكثر كفاءة لإنشاء الصور بسرعة. وهي الأنسب للتطبيقات ذات زمن الاستجابة المنخفض، مثل إنشاء واجهات المستخدم في الوقت الفعلي أو النماذج الأولية السريعة، حيث يكون جوهر الصورة أهم من التفاصيل الدقيقة.

  • معايير السلامة والإشراف: عند نشر خاصية إنشاء الصور للمستخدمين، يجب علينا تطبيق إجراءات أمان على مستوى التنبيهات. على الرغم من أن النماذج تحتوي على فلاتر مدمجة، إلا أنه يمكننا تصميم تنبيهات نظامنا لتكون وقائية. يشمل ذلك توجيه النموذج لاتباع دليل سلامة العلامة التجارية بدقة، والذي قد يتضمن حظر تركيبات ألوان أو رموز أو أنماط فنية معينة لا تتوافق مع قيم مؤسستنا. يمكننا أيضًا الاستفادة منmoderation تُستخدم هذه المعلمة في العديد من واجهات برمجة التطبيقات للتحكم في مدى دقة تصفية النموذج للمحتوى الذي يحتمل أن يكون حساسًا.

Model specific capabilities
Model specific capabilities

السيناريو: حملة إطلاق المنتج

لفهم السياق، دعونا نتناول سيناريو واقعيًا. نحن مكلفون بالعمل كمهندس رئيسي للذكاء الاصطناعي في شركة لومينا، وهي شركة متخصصة في الإضاءة الفاخرة. يحتاج فريق التسويق إلى 10 صور متناسقة لمنتج مصباح "أورا" الذكي. يجب أن تبدو الصور متناسقة كما لو تم التقاطها في نفس الشقة الفاخرة خلال "الساعة الذهبية"، ويجب عرض اسم المصباح بشكل بارز على قاعدته.

الخطوة 1: تحديد الموجه الأساسي

نبدأ بكتابة فقرة وصفية لاختبار فهم النموذج الأساسي للمنتج.

Prompt: A high-end cinematic photo of a minimalist smart lamp called ‘Lumina Aura’ on a marble side table. The lamp has a frosted glass globe and a brushed gold base. Soft golden hour sunlight streams through a large window in the background, creating warm highlights. 8k resolution, architectural digest style.

الخطوة الثانية: الانتقال إلى التحكم المنظم

رغم أن التصميم الأساسي يبدو جيدًا، إلا أن إنشاء عشرة اختلافات (مثلًا، في غرفة نوم، غرفة معيشة، مكتب) باستخدام النصوص فقط يؤدي إلى تصميمات إضاءة ومصابيح غير متناسقة. لذا، ننتقل إلى قالب JSON لترسيخ هوية العلامة التجارية.

{
"BRAND_IDENTITY": {
"PRODUCT_NAME": "Lumina Aura",
"TEXT_RENDERING": "Engraved 'LUMINA' on the brushed gold base",
"MATERIALS": ["frosted glass globe", "brushed gold"]
},
"ENVIRONMENT": {
"ROOM_TYPE": "{{room_type}}",
"SURFACE": "marble side table",
"LIGHTING": "Golden hour sunlight, volumetric rays"
},
"STYLE": "High-end interior photography, Architectural Digest"
}

الخطوة 3: استخدام تقنية التلوين الداخلي لتحقيق التناسق

بعد إنشاء الصور العشر، قرر فريق التسويق تغيير لون إضاءة المصباح من الأبيض الدافئ إلى البنفسجي الفاتح. وبدلاً من إعادة إنشاء جميع الصور العشر، الأمر الذي كان سيغير تصميمات الشقق والأثاث، استخدمنا تقنية التلوين الداخلي. قمنا بإخفاء الجزء الزجاجي من المصباح في كل صورة، وأضفنا التوجيه التالي: "توهج داخلي بنفسجي فاتح". هذا يسمح لنا بتحديث الحملة الإعلانية بالكامل بتغيير محدد مع الحفاظ على سلامة التصميم الأساسي.

يُظهر هذا السيناريو الانتقال من مُستخدمٍ عاديٍّ يُجيب على الأسئلة بشكلٍ غير رسميّ إلى مهندسٍ يستخدم قوالب مُهيكلة وتعديلاتٍ مُتكررة لتلبية مُتطلباتٍ مهنيةٍ صارمة. من خلال التحكم في بنية السؤال والاستفادة من ميزاتٍ مُتقدمة مثل عرض النصوص وإكمالها، نضمن أن تكون أصولنا المُولّدة بواسطة الذكاء الاصطناعي ليست جميلةً فحسب، بل مُتوافقةً مع العلامة التجارية ومُتّسقةً تقنيًا أيضًا.

تُعدّ القدرة على ترجمة المتطلبات البصرية المعقدة إلى تعليمات مُحكمة مهارة أساسية لبناء أنظمة ذكاء اصطناعي عالية الجودة. ويضمن إتقان هذه التقنيات أن تكون مخرجاتنا البصرية ليست جذابة من الناحية الجمالية فحسب، بل وظيفية باستمرار ومتوافقة مع أهدافنا الهندسية الاحترافية.