ستايبل ديفيوجن هي عائلة من أنظمة التوليد المبنية على الانتشار التدريجي والمُدربة على نطاق واسع، مخصّصة لإنتاج صور، مقاطع فيديو قصيرة، ومخرجات بصرية إبداعية أخرى ضمن نظم مفتوحة المصدر. من الناحية المفهومية، تعكس هذه المقاربة عملية إزالة التشويش: يتعلّم النموذج إزالة الضوضاء من التمثيلات الكامنة لإعادة بناء صور متناسقة. تفصل البنية بين فضاء كامِن مُضغوط وفك تشفير البِكسل، ما يقلّل من متطلبات الحساب مع الحفاظ على جودة الصورة. هذا التصميم يدعم التوليد الموجَّه بالأوامر النصية، توليد متغيرات دفعة، تعديلات صورة-إلى-صورة، وتوليف إطارات لمقاطع فيديو قصيرة، مما يجعل التقنية مُعتمدة على نطاق واسع في سير العمل الإبداعي والتقني الذي يتطلب مخرجات توليدية قابلة للضبط.

مصطلح ستايبل ديفيوجن يشير إلى نموذج انتشار كامن مبني على بنية توليدية معيارية تَدمج مشفّر/مُفكّك تشفير (مشفر تلقائي)، مُنقٍّ لتوقُّع الضوضاء (غالبًا شبكَة على شكل U)، ووحدة تهيئة للنص أو إرشادات أخرى. الإصدارات الرئيسية تتضمّن نسخًا مبنية على Stable Diffusion XL ونسخًا مبنية على Stable Diffusion 3، كلٌّ منها يمثل اختلافات في نطاق التدريب، تحسينات معمارية، وحالات استخدام مستهدفة. تختلف المتغيرات بحسب حجم النموذج، نطاق مجموعة بيانات التدريب، محسنات تقسيم النصّ وتهيئة النصّ، وقوة مُفكّك التشفير. تركّز بعض الإصدارات على دقة أنسجة وألوان أدق، فيما تستهدف إصدارات أخرى سرعة أخذ العينات أو تحكّمًا أقوى في التكوّن. تُمَدّ القدرات عبر تفرُّعات المجتمع ونقاط التحقق لتشمل مهام مثل إنشاء بورتريهات ذات طابع فني، مخرجات عالية الدقة، أو نماذج خفيفة مُحسّنة للأجهزة محدودة الإمكانيات.
تبدأ آلية الانتشار بصورة مُشفّرة إلى فضاء كامن. أثناء التدريب تُضاف الضوضاء تدريجيًا إلى الكامِن عبر خطوات زمنية. يتعلّم نموذج إزالة الضوضاء توقُّع تلك الضوضاء وإزالتها مع الاعتماد على إشارات توجيه مثل تضمينات النص. عند الاستدلال، يُطبق جدول أخذ عينات خطوات إزالة ضوضاء تحوّل الكامن العشوائي إلى كامن منظم، ثم يُفكّ تشفيره إلى مساحة البِكسل. العمل في الفضاء الكامن يقلّل من متطلبات الذاكرة والحساب مقارنة بالانتشار في مساحة البِكسل المباشرة، ما يتيح خطوات أكثر أو دفعات أكبر. خيارات آليات العيّنة (حتمية أو عشوائية) وجداول الخطوات الزمنية تؤثر في سرعة التوليد، دقة المظهر البصري، ونمط الشوائب البصرية.
تدعم عائلة النماذج توليد صور مفردة، متغيرات الصور، تعديلات بأسلوب معيّن، ومخرجات إطار بإطار لمقاطع فيديو قصيرة يُشار إليها غالبًا باسم توزيعات الفيديو المستقرة. الاستخدامات الإبداعية النموذجية تشمل الفن الرقمي، الصور التصورية، النماذج الأولية، إعادة التصميم، وتوليد القوام أو الأنماط الإجرائية. يتيح التكامل مع أدوات القناع والصورة-إلى-صورة تعديلات مستهدفة مثل استبدال الخلفية أو تحسين الكائنات. تصميم الأوامر والتهيئة يؤثران بشدة في الأسلوب، التكوين، والتفاصيل. تتعامل المتغيرات المختلفة مع التعقيد البصري بقوى متفاوتة: النماذج الأكبر تحافظ عادة على تفاصيل دقيقة وواقعية إضاءة، بينما المتغيرات المدمجة تُرجّح السرعة وتقليل استهلاك الذاكرة.
هيكل الأمر يوجّه التكوين، الأسلوب، والدلالة. عبارات واضحة ومحددة تحدّد الموضوع، البيئة، والأسلوب؛ تُلمّح علامات للإنارة، المزاج، ومصطلحات الكاميرا لتحسين الواقعية. تُقلّل الأوامر السلبية العناصر غير المرغوب فيها من خلال تحديد ما يجب تجنّبه. المعاملات القابلة للتعديل تشمل مقياس التوجيه (وزن تهيئة النص)، خطوات أخذ العينات، ونوع العيّنة؛ كلٌ منها يغيّر التوازن بين الإبداع والدقة. مكتبات الأوامر والأوامر المُنتقاة تساعد على تسريع التكرار، بينما تحسين الأوزان أو التضمينات يحسّن دمج المفاهيم. التجريب التكراري شائع: تغييرات بسيطة في الصياغة قد تُنتج فروقًا بصرية ملحوظة.
القيود الشائعة تشمل مخاطر الشوائب، اعتبارات الترخيص لبيانات التدريب، ومتطلبات الأجهزة للتشغيل المحلي. قد تحتوي المخرجات المولَّدة على أخطاء غير مقصودة مثل تشوّه التشريح أو عرض نص غير متناسق. تشغيل نقاط تحقق أكبر محليًا عادةً ما يتطلب وحدات معالجة رسوميات بذاكرة فيديو كبيرة؛ البدائل تشمل مثيلات سحابية أو خدمات ويب للمستخدمين دون أجهزة مناسبة. الاستخدام المسؤول يتضمن احترام حقوق الطبع والنشر، تجنّب المحتوى الضار أو المضلل، والالتزام بسياسات الاستخدام للتوزيعات المختارة. غالبًا ما توفر أدوات المجتمع مرشحات وخيارات بيانات وصفية للمساعدة في تتبّع الأصل وتقليل سوء الاستخدام.
ستايبل ديفيوجن هي منهجية انتشار كامن مبنية على بنى توليدية تخلق صورًا وإطارات فيديو قصيرة عن طريق إزالة التشويش من تمثيلات كامنة مهيّأة بنص أو مداخل أخرى.
التدريب يعلّم مُنقٍّ لإزالة الضوضاء التدريجية من الكامن؛ الاستدلال يُنفّذ جدول عكسي لإزالة التشويش يحوّل الكامن العشوائي إلى كامن منظم، ثم يُفكّ تشفير هذا الكامن إلى بكسلات.
توجد نقاط تحقق وأدوات مفتوحة المصدر تحت تراخيص متباينة. شروط الوصول تعتمد على الإصدار أو التوزيع المحدد؛ بعض إصدارات المجتمع تقدّم عروضًا تجريبية مجانية على الويب بينما قد تستخدم الخدمات التجارية شروطًا مختلفة.