ستيبل ديفيوجن
نوع | |
---|---|
سمي باسم | |
نظام التشغيل | |
النموذج المصدري | |
المطور الأصلي |
رن واي، كومبفيز، وستابيليتي أيه آي |
موقع الويب |
stability.ai… (الإنجليزية) |
لغة البرمجة | |
---|---|
الإصدار الأول |
22 أغسطس 2022 |
الإصدار الأخير |
SDXL 1.0 (model)[1] |
المستودع | |
الرخصة |
Creative ML OpenRAIL-M |
ستيبل ديفيوجن (بالإنجليزية: Stable Diffusion) هو نموذج تعلم عميق لتحويل النص إلى صورة أصدرته شركة ستابيليتي أيه آي في عام 2022 استنادًا إلى تقنيات نموذج ديفيوجن، ويعتبر جزءًا من طفرة الذكاء الاصطناعي المستمرة.
يستخدم بشكل أساسي لإنشاء صور مفصلة مشروطةً بأوصاف نصية، على الرغم من أنه يمكن تطبيقه أيضًا على مهام أخرى مثل التلوين الداخلي والخارجي، وتوليد ترجمات من صورة إلى أخرى موجهة بمطالبة نصية.[4] طوره باحثين من مجموعة "كومبفيز" في جامعة لودفيغ ماكسيميليان في ميونيخ بالتعاون مع شركة رن واي [الإنجليزية]، وبدعم مالي من شركة ستابيليتي أيه آي، وبيانات تدريب من منظمات غير ربحية.[5][6][7][8]
يُعد ستيبل ديفيوجن نموذج انتشار كامن، وهو نوع من الشبكات العصبية الاصطناعية التوليدية العميقة. تم إصدار شفرته ونموذجه علنًا، [9] ويمكن تشغيله على معظم أجهزة المستهلكين المزودة بوحدة معالجة رسومات متواضعة سعتها 4 غيغابايت على الأقل من ذاكرة الوصول العشوائي للفيديو [الإنجليزية]. يمثل هذا تحولًا عن نماذج "النص إلى الصورة" السابقة مثل دال-إي وميدجورني التي كان يمكن الوصول إليها فقط عبر الخدمات السحابية.[10][11]
التنمية
[عدل]نشأ ستيبل ديفيوجن من مشروع يسمى (بالإنجليزية: Latent Diffusion)، [12] طوره باحثين في جامعة لودفيغ ماكسيميليان في ميونخ وجامعة هايدلبرغ. لاحقًا انضم أربعة من المؤلفين الخمسة الأصليين وهم (روبن رومباخ، وأندرياس بلاتمان، وباتريك إيسر، ودومينيك لورينز) إلى شركة "ستابيليتي أيه آي" وأصدروا إصدارات لاحقةً من ستيبل ديفيوجن.[13]
أصدرت مجموعة كومبفيز في جامعة لودفيغ ماكسيميليان في ميونيخ الترخيص التقني للنموذج.[11] قاد فريق التطوير باتريك إيسر من "رن واي"، و"روبن رومباخ" من كومبفيز، اللذان كانا من بين الباحثين الذين اخترعوا سابقًا بنية نموذج (بالإنجليزية: latent diffusion) التي يستخدمها ستيبل ديفيوجن.[8] كما أشادت شركة ستابيليتي أيه آي بـ "إليوثر أيه آي - (بالإنجليزية: EleutherAI)"، و"لايون" (وهي منظمة ألمانية غير ربحية جمعت البيانات التي دُرب ستيبل ديفيوجن عليها) لدعمهم المشروع.[8]
التكنولوجيا
[عدل]البنية المعمارية
[عدل]تعتمد النماذج في سلسلة "ستابل ديفوجن" قبل الإصدار الثالث على نوع من نماذج الانتشار يعرف بـ "نموذج الانتشار الكامن"،[14] وهو نموذج طوره فريق "كومبفيس" (الرؤية الحاسوبية والتعلم الآلي) في جامعة لودفيغ ماكسيميليان في ميونخ.[9][15] وتُدرب نماذج الانتشار التي ظهرت في عام 2015 على هدف إزالة التطبيقات المتتالية للضوضاء على صور التدريب، مما يجعلها بمثابة سلسلة تشفير ذاتي. ويتكون "ستابل ديفوجن" من ثلاثة أجزاء رئيسية: المشفر التلقائي التبايني (VAE)، وشبكة يو-نت، ومشفر نص اختياري.[16]
يعمل المشفر التلقائي التبايني على ضغط الصورة من مساحة البكسلات إلى مساحة كامنة ذات أبعاد أقل، محتفظًا بالمعنى الدلالي الأساسي للصورة.[15] وتُطبق الضوضاء الغاوسية بشكل متكرر على التمثيل الكامن المضغوط خلال عملية الانتشار الأمامي.[16] وتعمل كتلة شبكة يو-نت، المبنية على بنية شبكة ريزنت، على إزالة الضوضاء من مخرجات الانتشار الأمامي بشكل عكسي للحصول على تمثيل كامن. وأخيرًا، يقوم المشفر التلقائي التبايني بتوليد الصورة النهائية بتحويل التمثيل إلى بكسلات.[16]
يمكن أن تخضع عملية إزالة الضوضاء لشروط مرنة ومتنوعة، سواء كانت نصية أو بصرية أو من نوع آخر. تُعرض هذه الشروط المشفرة على شبكات عصبية مخصصة لإزالة الضوضاء، وذلك عبر آلية الانتباه التبادلي.[16] وفي حالة الشروط النصية، يتم استخدام مشفر نص ثابت مدرب مسبقًا، وهو "كليب فيت-إل/14" (بالإنجليزية: CLIP ViT-L/14)، لتحويل العبارات النصية إلى تمثيل رقمي مضغوط.[9]
يرى الباحثون أن نماذج الانتشار الكامنة تتميز بزيادة الكفاءة الحسابية أثناء التدريب والتوليد.[8][15] وقد اشتق اسم "الانتشار" من ظاهرة الانتشار الحراري في الفيزياء، حيث أظهرت الدراسات ارتباطًا وثيقًا بين هذا المجال والتعلم العميق عام 2015.[17][18]
بفضل ما يزيد عن 860 مليون معلمة في شبكة يو-نت و123 مليون في مشفر النص، يُعد نموذج "الانتشار المستقر" خفيف الوزن نسبيًا مقارنة بغيره من النماذج في عام 2022. مما أتاح تشغيله، على عكس نظرائه، على وحدات معالجة الرسوميات المتاحة للمستهلكين، [19] بل وحتى على وحدات المعالجة المركزية وحدها عند استخدام نسخة "أوبن فينو" من هذا النموذج.[20]
إصدار XL
[عدل]يستخدم إصدار "XL" البنية المعمارية ذاتها لنموذج الانتشار الكامن (LDM) المستخدمة في الإصدارات السابقة، [21] مع زيادة في الأبعاد: شبكة "يو نت" أوسع، سياق انتباه متقاطع أطول، مشفرين نصيين بدلًا من مشفر واحد، وتدريب على نسب أبعاد متعددة (بخلاف النسبة المربعة للعرض إلى الارتفاع في الإصدارات السابقة).
أُصدر "SD XL Refiner" بالتزامن مع الإصدار الأساسي، وله بنية مطابقة لبنية الإصدار "SD XL"، إلا أنه تدرب على إضافة التفاصيل الدقيقة إلى الصور الموجودة مسبقًا عبر عملية "img2img" الشرطية للنص.
الإصدار 3.0
[عدل]أحدث الإصدار 3.0 تحولًا جذريًا في البنية الأساسية للشبكة العصبية.[21] فقد استُبدلت شبكة "يو نت" بشبكة أكثر تطوراً، ألا وهي "محول التدفق المعدل" (Rectified Flow Transformer). تعتمد هذه الشبكة على تطبيق طريقة التدفق المصحح باستخدام المحول.[22][23]
تتألف بنية التحويل الذاتي المستخدمة في الإصدار 3.0 من ثلاثة "مسارات" رئيسية: الأول مخصص لترميز النص الأصلي، والثاني لترميز النص المُحول، والثالث لترميز الصورة (في الفضاء الكامن). يتم دمج ترميز النص المُحول مع ترميز الصورة بشكل متكرر خلال كل كتلة من كتل التحويل.
أُطلق على هذه البنية المبتكرة اسم "المحول الانتشاري متعدد الوسائط" (MMDiT)، حيث تشير صفة "متعدد الوسائط" إلى قدرته على دمج ترميزات النص والصورة معًا داخل عملياتها. يميز هذا الإصدار عن سابقاته من نماذج DiT، حيث يكون تأثير ترميز النص على ترميز الصورة متبادلاً، وليس أحادي الاتجاه.
بيانات التدريب
[عدل]دُرب نموذج "الانتشار الثابت" على أزواج من الصور والتعليقات التوضيحية مستمدة من قاعدة البيانات الضخمة "لايون-5 بي" (بالإنجليزية: LAION-5B)، وهي مجموعة بيانات عامة المصدر اشتقت من بيانات كومن كراول [الإنجليزية] المستخرجة من الويب. تم تصنيف نحو خمسة مليارات زوج من الصور والنصوص ضمن هذه المجموعة بناءً على اللغة، في مجموعات بيانات منفصلة استنادًا إلى دقة الصورة، واحتمالية وجود علامة مائية، والتقييم الجمالي المتوقع (مثل الجودة البصرية).[24] وتجدر الإشارة إلى أن منظمة لايون [الإنجليزية]، وهي مؤسسة ألمانية غير ربحية تدعمها شركة "ستابيليتي أيه آي"، هي المسؤولة عن إنشاء هذه المجموعة الضخمة من البيانات.[24][25]
دُرب النموذج على ثلاث مجموعات فرعية محددة من "لايون-5 بي" وهي:[24]
- "لايون2 بي-إي إن" (بالإنجليزية: laion2B-en)
- "لايون-هاي-ريزوليوشن" (بالإنجليزية: laion-high-resolution)
- "لايون-إستيتيكس في2 5+" (بالإنجليزية: laion-aesthetics v2 5+).
كشفت تحليلات خارجية لبيانات التدريب المستخدمة في هذا النموذج أن حوالي 47% من عينة عشوائية تضم 12 مليون صورة مأخوذة من المجموعة الأصلية الأكبر كانت مستمدة من 100 نطاق مختلف على الويب. وقد استحوذ موقع بنترست على نسبة 8.5% من هذه العينة، تلاه مواقع أخرى مثل ووردبريس، وبلوغر، وفليكر، وديفيانت آرت وويكيميديا كومنز. كما أظهر تحقيق أجرته هيئة البث البافارية (بايريشر روندفونك) أن مجموعات بيانات "لايون" المتاحة على منصة "هجينج فيس" تحتوي على كميات كبيرة من البيانات الحساسة والخاصة.[26]
إجراءات التدريب
[عدل]دُرب النموذج مبدئيًا على مجموعتي البيانات الفرعيتين (بالإنجليزية: laion2B-en) و(بالإنجليزية: laion-high-resolution)، ثم خضع لتدريب نهائي مكثف على مجموعة (بالإنجليزية: LAION-Aesthetics v2 5+) الضخمة التي تضم 600 مليون صورة مصحوبة بأوصاف نصية. وقد اختيرت هذه الصور بدقة بناءً على تقييمات نموذج (بالإنجليزية: LAION-Aesthetics Predictor V2) الذي تنبأ بإعجاب البشر بها بدرجة لا تقل عن خمسة من عشرة.[24][27][28]
ولضمان جودة الصور، استُبعدت الصور منخفضة الدقة والصور التي تحمل علامات مائية (والتي حددها نموذج (بالإنجليزية: LAION-5B-WatermarkDetection) بنسبة احتمال تجاوزت 80%).[24] كما حُذفت عشرة بالمائة من بيانات التدريب النصية في المراحل النهائية لتحسين عملية الانتشار التوليدي.[29]
استغرقت عملية تدريب النموذج 150 ألف ساعة عمل لوحدات معالجة الرسوميات من نوع إنفيديا A100، وذلك باستخدام خدمات الحوسبة السحابية من أمازون ويب. وقد بلغت التكلفة الإجمالية للتدريب حوالي 600 ألف دولار أمريكي.[30][31][32]
بلغت تكلفة تدريب النموذج SD3 حوالي عشرة ملايين دولار أمريكي.[33]
القيود
[عدل]تواجه تقنية "الانتشار المستقر" تحديات تتعلق بتدهور جودة الصور وعدم دقتها في بعض الحالات. فقد تم تدريب النسخ الأولية من هذا النموذج على مجموعة بيانات تضم صورًا بدقة 512×512 بكسل، مما يؤدي إلى تدهور ملحوظ في جودة الصور الناتجة عند ابتعاد مواصفات المستخدم عن هذه الدقة المحددة مسبقًا.[34] وقد قدم الإصدار الثاني من النموذج لاحقًا إمكانية توليد صور بدقة أعلى تصل إلى 768×768 بكسل.[35]
ومن التحديات الأخرى التي تواجه هذا النموذج هي صعوبة توليد صور واقعية للأطراف البشرية، وذلك بسبب ضعف جودة بيانات الأطراف المتوفرة في قاعدة البيانات المستخدمة في التدريب.[36] ولم يدُرب النموذج بشكل كافٍ لفهم تفاصيل الأطراف والوجوه البشرية نتيجة نقص السمات التمثيلية في قاعدة البيانات، مما قد يؤدي إلى نتائج غير متوقعة عند محاولة توليد صور بهذه التفاصيل.[37] وقد تم إطلاق الإصدار الأول من "الانتشار المستقر إكس إل" (SDXL) في يوليو 2023، والذي يوفر دقة أعلى تصل إلى 1024×1024 بكسل وتحسينًا في توليد الأطراف والنص.[38][39]
قد يُشكّل توافر المطورين الأفراد عائقًا إضافيًّا. فلتخصيص النموذج لحالات استخدام جديدة لم تغطها مجموعة البيانات التدريبية، كما في حالة نموذج "وايفو ديفيوجن" لتوليد شخصيات الأنمي، [40] يتطلب الأمر جمع بيانات جديدة وإجراء تدريب إضافي. وقد استُخدمت تعديلات دقيقة على نموذج "ستيبل ديفيوجن" نتجت عن إعادة تدريب إضافية لتغطية مجموعة واسعة من التطبيقات، بدءًا من التصوير الطبي، [41] ووصولًا إلى توليد الموسيقى خوارزميًّا.[42] إلا أن عملية الصقل الدقيق هذه حساسة لجودة البيانات الجديدة؛ فالصور منخفضة الدقة أو ذات جودة مختلفة عن البيانات الأصلية لا تؤدي فقط إلى الفشل في تعلم المهمة الجديدة، بل تساهم أيضًا في تدهور الأداء العام للنموذج. وحتى مع تدريب النموذج على صور عالية الجودة، يواجه الأفراد تحديًا في تشغيل النماذج على الأجهزة الاستهلاكية. فعلى سبيل المثال، يتطلب تدريب نموذج "وايفو ديفيوجن" ذاكرة وصول عشوائي للفيديو لا تقل عن 30 جيجابايت [43]، وهو ما يتجاوز الموارد المتاحة عادة في وحدات معالجة الرسوميات الاستهلاكية مثل سلسلة جيفورس 30 من إنفيديا، التي تبلغ سعتها حوالي 12 جيجابايت فقط.[44]
يُقرّ مبتكرو نموذج ستيبل ديفيوجن بوجود احتمال التحيز الخوارزمي، حيث دُرب النموذج بشكل أساسي على صور مصحوبة بأوصاف باللغة الإنجليزية.[31] ونتيجة لذلك، تعكس الصور الناتجة عن النموذج التحيزات الاجتماعية السائدة في المنظور الغربي، إذ لاحظ المبتكرون نقصًا في البيانات المستمدة من مجتمعات وثقافات أخرى. كما يقدم النموذج نتائج أدق للمطالبات المصاغة باللغة الإنجليزية مقارنةً باللغات الأخرى، وغالبًا ما تكون الثقافات الغربية أو البيضاء هي التمثيل الافتراضي.[31]
ضبط المستخدم النهائي
[عدل]لتجاوز القيود المفروضة على التدريب الأولي للنموذج، قد يقرر المستخدمون النهائيون إجراء تدريب إضافي لضبط مخرجات التوليد بدقة بحيث تتوافق مع حالات استخدام محددة، وهي عملية تعرف أيضًا بالتخصيص. هناك ثلاث طرق يمكن للمستخدمين من خلالها تطبيق الضبط الدقيق على نقطة تفتيش نموذج الانتشار المستقر:
- يمكن تدريب "التضمين" على مجموعة من الصور يزودها المستخدم، مما يُمكّن النموذج من توليد صور مماثلة بصريًا كلما استُخدم اسم التضمين ضمن موجه الإنشاء.[45] وتستند عمليات التضمين إلى مفهوم "عكس النص" الذي طوره باحثون من جامعة تل أبيب عام 2022 بدعم من إنفيديا، حيث يتم ربط التمثيلات المتجهية للرموز المحددة التي يستخدمها مشفر نص النموذج بكلمات زائفة جديدة. ويمكن توظيف عمليات التضمين لتقليل التحيزات الكامنة في النموذج الأصلي أو لمحاكاة الأنماط البصرية.[46]
- "الشبكة الفائقة" هي شبكة عصبية صغيرة مدربة مسبقًا يتم تطبيقها على نقاط مختلفة داخل شبكة عصبية أكبر، وتشير إلى التقنية التي ابتكرها مطور "نوفل أيه آي كوروموز" في عام 2021، والمخصصة في الأصل لنماذج محولات توليد النصوص. توجه الشبكات الفائقة النتائج نحو اتجاه معين، مما يسمح للنماذج القائمة على الانتشار المستقر بتقليد أسلوب الفن لفنانين معينين، حتى لو لم يتم التعرف على الفنان من قبل النموذج الأصلي؛ فهي تعالج الصورة من خلال العثور على مناطق رئيسية ذات أهمية مثل الشعر والعينين، ثم ترقيع هذه المناطق في مساحة كامنة ثانوية.[47]
- "دريمبوث" هو نموذج توليدي للتعلم العميق طوره باحثون من غوغل للأبحاث وجامعة بوسطن عام 2022، وهو قادر على تعديل النموذج ليولد مخرجات دقيقة ومخصصة تصوّر موضوعًا محددًا، وذلك بعد تدريبه على مجموعة من الصور التي تصوّر هذا الموضوع.[48]
القدرات
[عدل]يدعم النموذج توليد صور جديدة بالكامل باستخدام مطالبات نصية تصف العناصر المراد تضمينها أو استبعادها من الناتج.[9] كما يمكن لهذا النموذج أن يعيد رسم الصور الحالية بإضافة عناصر جديدة إليها، ويتم ذلك بتقديم نص دقيق للعناصر المطلوبة في عملية تُعرف بتوليف الصور الموجه.[49] وتتم هذه العملية عبر آلية إزالة الضوضاء بالانتشار.[9] بالإضافة إلى ذلك، يسمح النموذج أيضًا بتعديل الصور الموجودة جزئيًا عن طريق الإكمال الداخلي والخارجي، عند استخدامه مع واجهة مستخدم مناسبة تدعم هذه الميزات، والتي يوجد العديد منها مفتوحة المصدر.[50]
يوصى بتشغيل النموذج باستخدام ذاكرة الوصول العشوائي للفيديو (VRAM) سعتها 10 جيجابايت أو أكثر. ومع ذلك، يمكن للمستخدمين الذين يملكون ذاكرة فيديو أقل أن يختاروا تحميل الأوزان بدقة نقطية float16 بدلًا من الدقة الافتراضية float32، وذلك لتحقيق توازن بين أداء النموذج وتقليل استهلاك الذاكرة.[34]
توليد النص إلى الصورة
[عدل]يستنفد البرنامج النصي المتوفر في برنامج استقرار الانتشار، المعروف بـ "نص إلى صورة" (بالإنجليزية: txt2img)، موجهًا نصيًا بالإضافة إلى مجموعة متنوعة من معاملات الخيارات التي تشمل أنواع أخذ العينات وأبعاد صورة الناتج وقيم البذور. يخرج البرنامج النصي ملف صورة بناءً على تفسير النموذج للموجه.[9] تُوضع علامة مائية رقمية غير مرئية على الصور الناتجة للسماح للمستخدمين بتحديد الصورة على أنها مولدة بواسطة استقرار الانتشار، [9] رغم أن هذه العلامة المائية تفقد فعاليتها إذا تم تغيير حجم الصورة أو تدويرها.[51]
تتضمن كل صورة مولدة من "نص إلى صورة" قيمة بذرة محددة تؤثر على صورة الناتج. قد يختار المستخدمون تعيين البذرة عشوائيًا لاستكشاف مخرجات مولدة مختلفة، أو استخدام نفس البذرة للحصول على ناتج مماثل لصورة تم إنشاؤها سابقًا.[34] يمكن للمستخدمين أيضًا ضبط عدد خطوات الاستدلال لأخذ العينات؛ تستغرق القيمة الأعلى مدة زمنية أطول، ومع ذلك، قد تؤدي القيمة الأقل إلى عيوب مرئية.[34] يسمح خيار آخر قابل للتكوين وهو قيمة مقياس التوجيه الخالي من التصنيف، للمستخدم بتعديل مدى التزام صورة الناتج بالموجه.[29] قد تختار حالات الاستخدام الأكثر تجريبية قيمة مقياس أقل، بينما قد تستخدم حالات الاستخدام التي تهدف إلى مخرجات أكثر تحديدًا قيمة أعلى.[34]
توفر واجهات المستخدم الأمامية لنموذج ستيبل ديفيوجن ميزات إضافية تسمح للمستخدمين بتعديل الوزن الممنوح لأجزاء معينة من المطالبة النصية، مثل زيادة أو تقليل التأكيد على الكلمات الرئيسية عن طريق إحاطتها بأقواس.[52] تُعدّ "المطالبات السلبية" طريقة بديلة لضبط الوزن لأجزاء من المطالبة، وهي ميزة مدرجة في بعض التطبيقات الأمامية، مثل خدمة "دريم ستوديو" السحابية الخاصة بشركة "ستابيليتي أيه آي"، والتي تسمح للمستخدم بتحديد مطالبات يجب على النموذج تجنبها أثناء توليد الصورة.[50][53]
تعديل الصورة
[عدل]يستخدم نموذج "ستابل ديفوجن" برنامجًا نصيًا آخر يُعرف بـ "صورة إلى صورة" (بالإنجليزية: img2img). يتلقى هذا البرنامج مطالبة نصية ومسارًا لصورة موجودة وقيمة عددية تتراوح بين صفر وواحد. ينتج البرنامج صورة جديدة مستندة إلى الصورة الأصلية مع إضافة عناصر تتوافق مع المطالبة النصية. تحدد القيمة العددية المقدمة كمية الضوضاء التي تُضاف إلى الصورة الناتجة. بزيادة هذه القيمة، يزداد التنوع في الصورة الناتجة، إلا أنه قد ينتج عن ذلك صورة لا تتسق دلاليًا مع المطالبة المقدمة.[9]
تتعدد الطرق لتحويل الصورة إلى صورة أخرى، ومن أبرزها طريقة "SDEdit" التي تعتمد على إضافة ضوضاء إلى الصورة الأصلية، ثم إزالتها بطريقة مشابهة لعملية تحويل النص إلى صورة.[54]
تُمكّن قدرة تقنية "صورة إلى صورة" من إضافة تشويش بصري إلى الصورة الأصلية، مما يجعلها أداة واعدة في مجال إخفاء الهوية وتعزيز البيانات. إذ يتم من خلال هذه التقنية تعديل الملامح البصرية للصورة وإخفاء هويتها الأصلية.[55] ولا يقتصر دور هذه العملية على إخفاء الهوية فقط، بل يمكن الاستفادة منها أيضًا في تحسين دقة الصورة وزيادة التفاصيل بها.[56] وقد خضعت تقنية "ستابل ديفوجن" لتجارب لاستخدامها في ضغط الصور.[55] ورغم ذلك، كشفت المقارنات مع تقنيات الضغط التقليدية مثل جيه بيه إي جي وويب بي عن وجود قيود في قدرة "ستابل ديفوجن" على الحفاظ على جودة النصوص الصغيرة والوجوه عند تطبيق عملية الضغط.[57]
تتيح العديد من التطبيقات الأمامية لنموذج "ستابل ديفوجن" إمكانيات إضافية لتعديل الصور بطريقة "صورة إلى صورة". ومن بين هذه الإمكانيات، نجد عملية "الالتصاق" التي تسمح بتعديل جزء محدد من صورة موجودة. يتم تحديد هذا الجزء بواسطة قناع طبقة يوفره المستخدم، ثم يتم ملء المساحة المحددة بمحتوى جديد يتم توليده بناءً على وصف نصي يقدمه المستخدم.[50] وقد طورت شركة "ستابيليتي أيه آي" نموذج متخصص ومعدل خصيصًا لمهام الالتصاق هذه، وذلك بالتزامن مع إطلاق الإصدار الثاني من نموذج "ستابل ديفوجن".[35] وبجانب عملية الالتصاق، توجد عملية أخرى تسمى "الالتصاق الخارجي" والتي تعمل على توسيع الصورة خارج أبعادها الأصلية، ويتم ملء المساحة الإضافية بمحتوى جديد يتم توليده بناءً على وصف نصي يقدمه المستخدم.[50]
تم تقديم نموذج جديد يعتمد على مفهوم العمق، أُطلق عليه اسم "عمق إلى صورة" (بالإنجليزية: depth2img)، وذلك بالتزامن مع إصدار النسخة الثانية من برنامج ستابل ديفيوجن في 24 نوفمبر 2022. يستطيع هذا النموذج أن يستخلص معلومات العمق من أي صورة يعمل عليها، ثم يقوم بإنشاء صورة جديدة تستجيب للمطالبة النصية مع الحفاظ على عمق الصورة الأصلية. وبذلك، يضمن النموذج الجديد الحفاظ على الاتساق والعمق في الصورة الناتجة.[35]
شبكة التحكم
[عدل]شبكة التحكم (بالإنجليزية: ControlNet) هي بنية عصبية صُمِّمت خصيصًا لإدارة نماذج الانتشار عبر إدماج شروط إضافية.[58] تعمل هذه الشبكة على استنساخ أوزان كتل الشبكة العصبية الأصلية إلى نسختين: نسخة "ثابتة" وأخرى "قابلة للتدريب".[59] تتولى النسخة "القابلة للتدريب" مهمة تعلم الشرط المطلوب، في حين تحافظ النسخة "الثابتة" على النموذج الأصلي دون تغيير. تضمن هذه الآلية عدم المساس بسلامة نماذج الانتشار الجاهزة للإنتاج عند تدريبها على مجموعات بيانات صغيرة من أزواج الصور.[60][61]
واجهات المستخدم
[عدل]تُوفر شركة "ستابيليتي أيه آي" خدمةً لتوليد الصور عبر الإنترنت تُسمى دريم ستوديو.[62][63] كما أصدرت نسخة مفتوحة المصدر من دريم ستوديو تُسمى ستابل ستوديو.[64][65] بالإضافة إلى ذلك، توجد العديد من الواجهات مفتوحة المصدر من جهات خارجية، مثل "ستيبل ديفيوجن ويب يو آي"، والتي تُعد الأكثر شيوعًا وتوفر ميزات إضافية، [66] و"فوكس" التي تهدف إلى تقليل كمية المطالبات المطلوبة من المستخدم، [67] و"كومفي يو آي" التي تمتلك واجهة مستخدم مبنية على العقد، وهي في الأساس لغة برمجة مرئية شبيهة بالعديد من تطبيقات نمذجة ثلاثية الأبعاد.[68][69][70]
الإصدارات
[عدل]رقم الإصدار | تاريخ الإصدار | المعلمات | ملاحظات |
---|---|---|---|
1.1، و1.2، و1.3، و1.4[71] | أغسطس 2022 | أُصدرت جميع الإصدارات بواسطة فريق "كومبفيس". لا يوجد "إصدار 1.0". نشأ الإصدار 1.2 عن الإصدار 1.1، وظهر الإصداران 1.3 و1.4 من الإصدار 1.2.[72] | |
1.5[73] | أكتوبر 2022 | 983 مليون | ضُبط هذا النموذج على قيمة أولية مقدارها 1.2 بدلاً من 1.4، وقد تم إطلاقه من قبل شركة "رنواي إم إل". |
2.0[74] | نوفمبر 2022 | أُعيد تدريبه من البداية على مجموعة بيانات مُنقّاة.[75] | |
2.1[76] | ديسمبر 2022 | ضُبِط النموذج على أوزان 2.0. | |
XL 1.0[21][77] | يوليو 2023 | 3.5 مليار | يضم النموذج الأساسي لـ XL 1.0 معلمات قدرها 3.5 مليار معلمة، مما يجعله أكبر بحوالي 3.5 مرة من الإصدارات السابقة.[78] |
XL Turbo[79] | نوفمبر 2023 | مُقطّر من XL 1.0 ليعمل في عدد أقل من خطوات الانتشار.[80] | |
3.0[81][82] | فبراير 2024 (معاينة مبكرة) | 800 مليون إلى 8 مليار | عائلة من النماذج. |
3.5[83] | أكتوبر 2024 | 2.5 مليار إلى 8 مليار | عائلة من النماذج تضم نموذجًا كبيرًا (8 مليار معلمة)، ونموذجًا كبيرًا مدربًا (مستخلص من SD 3.5 الكبير)، ونموذجًا متوسطًا (2.5 مليار معلمة). |
الأوراق الرئيسية
[عدل]- (بالإنجليزية: Learning Transferable Visual Models From Natural Language Supervision) (صدرت في 2021).[84]
- توضح هذه الورقة طريقة CLIP لتدريب مشفرات النصوص، التي تحول النصوص إلى متجهات فاصلة عائمة. تستخدم هذه التشفيرات النصية من قبل نموذج الانتشار لخلق الصور.
- (بالإنجليزية: SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations) (صدرت في 2021).[85]
- تصف هذه الورقة SDEdit، المعروفة أيضًا باسم "img2img".
- (بالإنجليزية: High-Resolution Image Synthesis with Latent Diffusion Models) (صدرت 2021، وحُدثت في 2022).[86]
- تصف هذه الورقة نموذج الانتشار الكامن (LDM). وهو العمود الفقري لبنية ستيبل ديفيوجن.
- (بالإنجليزية: Classifier-Free Diffusion Guidance) (صدرت في 2022).[29]
- توضح هذه الورقة طريقة CFG، التي تمكن متجه التشفير النصي من توجيه نموذج الانتشار نحو إنشاء الصورة التي يصفها النص.
- (بالإنجليزية: SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis) (صدرت في 2023).[21]
- تصف SDXL.
- (بالإنجليزية: Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow) (صدرت في 2022).[22][87]
- تصف التدفق المعدل، الذي يتم استخدامه لبنية العمود الفقري لـ SD 3.0.
- (بالإنجليزية: Scaling Rectified Flow Transformers for High-resolution Image Synthesis) (صدرت في 2024).[82]
- تصف SD 3.0.
مدة التدريب
[عدل]بلغت مدة تدريب نموذج "ستيبل ديفيوجن 2.0" حوالي 0.2 مليون ساعة على وحدة معالجة رسوميات من نوع إنفيديا A100 بسعة 40 جيجابايت.[74]
الاستخدام والجدل
[عدل]تؤكد "ستابيليتي أيه آي" على عدم وجود أي حقوق ملكية للصور التي يولدها النموذج، وتمنح المستخدمين الحرية التامة في استخدام هذه الصور، شريطة ألا يكون محتوى الصورة مخالفًا للقانون أو مسيئًا للأفراد.[88] وقد دُرب النموذج على مجموعة ضخمة من الصور دون تدخل بشري، مما أدى إلى ظهور بعض الصور الضارة وكميات كبيرة من البيانات الشخصية والحساسة في بيانات التدريب.[26] وقد أعرب الفنانون البصريون التقليديون عن قلقهم من أن الاستخدام الواسع لبرامج توليد الصور مثل "ستابل ديفيوجن" قد يؤدي في النهاية إلى تآكل قدرات الفنانين البشرية، بما في ذلك المصورين والممثلين والمنتجين السينمائيين، وذلك بسبب المنافسة المتزايدة من التقنيات المدعومة بالذكاء الاصطناعي.[89]
يتميز نموذج "ستابل ديفيوجن" بمرونة أكبر في توليد أنواع مختلفة من المحتوى، بما في ذلك المحتوى العنيف أو الجريء جنسياً، مقارنة بمنتجات الذكاء الاصطناعي التوليدية الأخرى المتاحة تجارياً.[90] وفي مواجهة المخاوف المتعلقة بإساءة استعمال هذا النموذج، يرى عماد مشتاق [الإنجليزية] الرئيس التنفيذي لشركة "ستابيليتي أيه آي"، أن "المسؤولية تقع على عاتق الأفراد في التعامل مع هذه التكنولوجيا بشكل أخلاقي وقانوني".[11] ويؤكد مشتاق أن جعل قدرات "ستابل ديفيوجن" متاحة للجمهور بشكل واسع سيؤدي إلى تحقيق فوائد صافية للتكنولوجيا، رغم وجود بعض الآثار الجانبية المحتملة.[11] ويرى مشتاق أيضًا أن الهدف من جعل "ستابل ديفيوجن" مفتوح المصدر هو كسر الاحتكار الذي تمارسه الشركات الكبرى على هذه التقنيات، حيث كانت هذه الشركات تقتصر على تطوير أنظمة ذكاء اصطناعي مغلقة لتوليد الصور.[11][90] ويتجلى ذلك في سهولة تجاوز أي قيود تفرضها شركة "ستابيليتي أيه آي" على المحتوى الذي يمكن توليده، وذلك بفضل توفر رمز المصدر.[91]
أثير جدل واسع حول انتشار صور مزيفة أنتجها نموذج "ستابل ديفيوجن" المدعوم بالذكاء الاصطناعي. تصور هذه الصور أشخاصًا حقيقيين بطريقة مبتذلة ومخلة بالآداب، ولا سيما القصر، وقد بلغ هذا الجدل ذروته عند انتشار تلك الصور على منصات مثل بكسيف.[92]
وفي حادثة أخرى، تعرضت واجهة المستخدم "كومفي يو آي" لهجوم إلكتروني في يونيو عام 2024. زعم القراصنة أنهم استهدفوا مستخدمي هذه الأداة الذين ارتكبوا ما وصفوه بـ"الخطايا"، والتي شملت إنتاج أعمال فنية مستخدمين الذكاء الاصطناعي وسرقة أعمال فنية أخرى والترويج للعملات المشفرة.[93]
التقاضي
[عدل]أندرسن ومكيرنان وأورتي ضد ستابيليتي أيه آي، وميدجورني، وديفيانت آرت
[عدل]في يناير 2023 رفعت كل من سارة أندرسن وكيلي مكيرنان وكارلا أورتيز، وهن ثلاث فنانات، دعوى قضائية ضد كل من شركتي ستابيليتي أيه آي وميدجورني ومنصة "ديفيانت آرت"، متهمات إياهن بانتهاك حقوق ملايين الفنانين. وقد استندت الدعوى إلى ادعاء بأن الشركات المذكورة قامت بتدريب أدواتها المعتمدة على الذكاء الاصطناعي على خمسة مليارات صورة جُمعت من شبكة الإنترنت دون الحصول على موافقة مسبقة من أصحاب حقوق الملكية الفكرية لهذه الصور.[94] وفي يوليو من العام نفسه، أصدر القاضي الأمريكي وليام أوريك قرارًا قضى برفض معظم المطالب الواردة في الدعوى. ومع ذلك، فقد سمح القاضي للفنانات بتقديم شكوى معدلة، مما أتاح لهن فرصة لإعادة صياغة حججهن القانونية وتقديم أدلة جديدة لدعم دعواهن.[95]
صور غيتي ضد ستابيليتي أيه آي
[عدل]في يناير 2023، بدأت صور غيتي إجراءات قانونيةً ضد ستابيليتي أيه آي في المحكمة العليا الإنجليزية، زاعمةً انتهاكًا كبيرًا لحقوق الملكية الفكرية الخاصة بها. تزعم صور غيتي أن ستابيليتي أيه آي "كشطت" ملايين الصور من مواقع غيتي على الويب دون موافقة واستخدمت هذه الصور لتدريب وتطوير نموذج ستيبل ديفيوجن للتعلم العميق الخاص بها.[96][97]
تشمل النقاط الرئيسية للدعوى القضائية:
- تدّعي شركة "غيتي إيميجز" أن نموذج الذكاء الاصطناعي "ستيبل ديفيوجن" قد تم تدريبه وتطويره باستخدام صورها دون الحصول على إذن مسبق، حيث تم تحميل هذه الصور على خوادم وأجهزة حاسوب يرجح وجودها في المملكة المتحدة. إلا أن شركة ستابيليتي أيه آي، صاحبة النموذج، تُدافع عن نفسها مؤكدةً أن جميع عمليات التدريب والتطوير تمت خارج الأراضي البريطانية، وتحديدًا في مراكز بيانات شركة أمازون ويب المتواجدة في الولايات المتحدة.[98]
- قدمت شركة "ستابيليتي أيه آي" طلبًا قضائيًا عاجلًا لإلغاء أو شطب ادعاءين هما "التدريب والتطوير"، و"الانتهاك الثانوي" لحقوق النشر. ومع ذلك، رفضت المحكمة العليا هذا الطلب، مما مكن المدعي من المضي قدمًا في الدعوى. ومن المقرر أن تبحث المحكمة في مسألة ما إذا كان تدريب وتطوير نموذج ستيبل ديفيوجن قد حدث في المملكة المتحدة، وهي مسألة جوهرية لتحديد الاختصاص القضائي للمحكمة بموجب قانون حقوق النشر والتصاميم والبراءات لعام 1988 في المملكة المتحدة.[99]
- يدور النزاع في هذه الدعوى حول انتهاك الحقوق الثانوية حول ما إذا كان برنامج "ستيبل ديفيوجن" المدرب مسبقًا، والذي يتوفر في المملكة المتحدة عبر منصات مثل غيت هاب، وهوجينج فيس، ودريم ستوديو، يُعد عملًا "مُصنفًا" وفقًا لما نصت عليه المادتان 22 و23 من قانون حقوق المؤلف. وتتمثل المسألة الجوهرية التي ستحسمها المحكمة في تحديد ما إذا كان مصطلح "المصنف" يشمل الكيانات غير الملموسة مثل البرامج الحاسوبية.[99]
ومن المتوقع أن تُعقد المحاكمة صيف عام 2025، وستكون لها آثار بالغة على قانون حق المؤلف في المملكة المتحدة وتراخيص المحتوى الذي يُولَّد بواسطة الذكاء الاصطناعي.
الرخصة
[عدل]بخلاف نماذج مثل دال-إي، تتيح "ستيبل ديفيوجن" كودها المصدري للعموم، [9][100] بالإضافة إلى النموذج ذاته (الأوزان المدربة مسبقًا). وقبل الإصدار الثالث من "ستيبل ديفيوجن"، كان النموذج يخضع للترخيص الإبداعي "إم إل أوبن آر إيل-إم" (بالإنجليزية: ML OpenRAIL-M)، وهو نوع من تراخيص الذكاء الاصطناعي المسؤول.[101] يحظر هذا الترخيص بعض الاستخدامات، مثل ارتكاب الجرائم والتشهير والتحرش واستقاء المعلومات الشخصية والتشهير الإلكتروني واستغلال القصر وتقديم المشورة الطبية وإنشاء الالتزامات القانونية تلقائيًا وإنتاج الأدلة القانونية والتمييز ضد الأفراد أو الجماعات أو إيذائهم بناءً على السلوك الاجتماعي أو الخصائص الشخصية أو الفئات المحمية قانونًا.[102][103] ويحتفظ المستخدم بحقوق الملكية للصور التي يولدها، ويجوز له استخدامها لأغراض تجارية.[104]
يعتمد الإصدار 3.5 من نموذج ستيبل ديفيوجن على ترخيص مجتمعي مفتوح صادر عن شركة ستابيليتي أيه آي، في حين تشترط الشركة الترخيص التجاري على الشركات التجارية التي تتجاوز إيراداتها السنوية مليون دولار أمريكي.[105] وعلى غرار ترخيص أوبن آر إيل-إم، يحتفظ المستخدم بحقوق الملكية الكاملة للصور التي ينتجها باستخدام هذا النموذج، ويتسنى له استخدامها في الأغراض التجارية دون قيود.[83]
انظر أيضا
[عدل]مراجع
[عدل]- ^ "Announcing SDXL 1.0". stability.ai. مؤرشف من الأصل في 2023-07-26. اطلع عليه بتاريخ 2024-10-16.
- ^ Ryan O'Connor (23 أغسطس 2022). "How to Run Stable Diffusion Locally to Generate Images". مؤرشف من الأصل في 2023-10-13. اطلع عليه بتاريخ 2023-05-04.
- ^ وصلة مرجع: https://stability.ai/news/introducing-stable-diffusion-3-5.
- ^ "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. مؤرشف من الأصل في 2022-09-05. اطلع عليه بتاريخ 2022-09-05.
- ^ "Leaked deck raises questions over Stability AI's Series A pitch to investors". sifted.eu. مؤرشف من الأصل في 2023-06-29. اطلع عليه بتاريخ 2023-06-20.
- ^ "Revolutionizing image generation by AI: Turning text into images". www.lmu.de. مؤرشف من الأصل في 2022-09-17. اطلع عليه بتاريخ 2023-06-21.
- ^ Mostaque, Emad (2 Nov 2022). "Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen". Twitter (بالإنجليزية). Archived from the original on 2023-07-20. Retrieved 2023-06-22.
- ^ ا ب ج د "Stable Diffusion Launch Announcement". Stability.Ai. مؤرشف من الأصل في 2022-09-05. اطلع عليه بتاريخ 2022-09-06.
- ^ ا ب ج د ه و ز ح ط "Stable Diffusion Repository on GitHub". غيت هاب. CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 سبتمبر 2022. مؤرشف من الأصل في 2023-01-18. اطلع عليه بتاريخ 2022-09-17.
- ^ "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. مؤرشف من الأصل في 2022-08-31. اطلع عليه بتاريخ 2022-08-31.
- ^ ا ب ج د ه Vincent، James (15 سبتمبر 2022). "Anyone can use this AI art generator — that's the risk". The Verge. مؤرشف من الأصل في 2023-01-21. اطلع عليه بتاريخ 2022-09-30.
- ^ "CompVis/Latent-diffusion". غيت هاب. مؤرشف من الأصل في 2023-04-05. اطلع عليه بتاريخ 2024-10-14.
- ^ "Stable Diffusion 3: Research Paper". Stability AI. مؤرشف من الأصل في 2024-09-17. اطلع عليه بتاريخ 2024-10-14.
- ^ "Home". Computer Vision & Learning Group (بالإنجليزية). Archived from the original on 2024-09-22. Retrieved 2024-09-05.
- ^ ا ب ج Rombach؛ Blattmann؛ Lorenz؛ Esser؛ Ommer (يونيو 2022). "High-Resolution Image Synthesis with Latent Diffusion Models" (pdf). International Conference on Computer Vision and Pattern Recognition (CVPR). ICCV. New Orleans, LA. ص. 10684–10695. arXiv:2112.10752. مؤرشف (PDF) من الأصل في 2023-01-20. اطلع عليه بتاريخ 2022-09-17.
- ^ ا ب ج د Alammar، Jay. "The Illustrated Stable Diffusion". jalammar.github.io. مؤرشف من الأصل في 2022-11-01. اطلع عليه بتاريخ 2022-10-31.
- ^ David، Foster. "8. Diffusion Models". Generative Deep Learning (ط. 2). O'Reilly.
- ^ Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, Surya Ganguli (12 مارس 2015). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics". arXiv:1503.03585 [cs.LG].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة)صيانة الاستشهاد: أسماء متعددة: قائمة المؤلفين (link) - ^ "Stable diffusion pipelines". huggingface.co. مؤرشف من الأصل في 2023-06-25. اطلع عليه بتاريخ 2023-06-22.
- ^ "Text-to-Image Generation with Stable Diffusion and OpenVINO™". openvino.ai. إنتل. مؤرشف من الأصل في 2024-02-26. اطلع عليه بتاريخ 2024-02-10.
- ^ ا ب ج د Podell، Dustin؛ English، Zion؛ Lacey، Kyle؛ Blattmann، Andreas؛ Dockhorn، Tim؛ Müller، Jonas؛ Penna، Joe؛ Rombach، Robin (04 يوليو 2023). "SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis". arXiv:2307.01952 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ ا ب Liu، Xingchao؛ Gong، Chengyue؛ Liu، Qiang (07 سبتمبر 2022)، Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow، arXiv:2209.03003
- ^ "Rectified Flow — Rectified Flow". www.cs.utexas.edu. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-03-06.
- ^ ا ب ج د ه Baio, Andy (30 Aug 2022). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (بالإنجليزية). Archived from the original on 2023-01-20. Retrieved 2022-11-02.
- ^ "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (بالإنجليزية). Archived from the original on 2023-01-14. Retrieved 2022-11-02.
- ^ ا ب Brunner، Katharina؛ Harlan، Elisa (07 يوليو 2023). "We Are All Raw Material for AI". Bayerischer Rundfunk (BR). مؤرشف من الأصل في 2023-09-12. اطلع عليه بتاريخ 2023-09-12.
- ^ Schuhmann، Christoph (02 نوفمبر 2022)، "CLIP+MLP Aesthetic Score Predictor"، غيت هاب، مؤرشف من الأصل في 2023-06-08، اطلع عليه بتاريخ 2022-11-02
- ^ "LAION-Aesthetics | LAION". laion.ai (بالإنجليزية). Archived from the original on 2022-08-26. Retrieved 2022-09-02.
- ^ ا ب ج Ho، Jonathan؛ Salimans، Tim (25 يوليو 2022). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Mostaque, Emad (28 Aug 2022). "Cost of construction". Twitter (بالإنجليزية). Archived from the original on 2022-09-06. Retrieved 2022-09-06.
- ^ ا ب ج "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-01-11. اطلع عليه بتاريخ 2022-11-02.
- ^ Wiggers, Kyle (12 Aug 2022). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (بالإنجليزية). Archived from the original on 2023-01-19. Retrieved 2022-11-02.
- ^ emad_9608 (19 أبريل 2024). "10m is about right". r/StableDiffusion. مؤرشف من الأصل في 2024-05-01. اطلع عليه بتاريخ 2024-04-25.
{{استشهاد ويب}}
: صيانة الاستشهاد: أسماء عددية: قائمة المؤلفين (link) - ^ ا ب ج د ه "Stable Diffusion with 🧨 Diffusers". huggingface.co. مؤرشف من الأصل في 2023-01-17. اطلع عليه بتاريخ 2022-10-31.
- ^ ا ب ج "Stable Diffusion 2.0 Release". stability.ai. مؤرشف من الأصل في 2022-12-10. اطلع عليه بتاريخ 2024-10-14.
- ^ "LAION". laion.ai (بالإنجليزية). Archived from the original on 2023-10-16. Retrieved 2022-10-31.
- ^ "Generating images with Stable Diffusion". Paperspace Blog (بالإنجليزية). 24 Aug 2022. Archived from the original on 2022-10-31. Retrieved 2022-10-31.
- ^ "Announcing SDXL 1.0". Stability AI (بالإنجليزية). Archived from the original on 2023-07-26. Retrieved 2023-08-21.
- ^ Edwards, Benj (27 Jul 2023). "Stability AI releases Stable Diffusion XL, its next-gen image synthesis model". Ars Technica (بالإنجليزية). Archived from the original on 2023-08-21. Retrieved 2023-08-21.
- ^ "hakurei/waifu-diffusion · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-10-08. اطلع عليه بتاريخ 2022-10-31.
- ^ Chambon، Pierre؛ Bluethgen، Christian؛ Langlotz، Curtis P.؛ Chaudhari، Akshay (09 أكتوبر 2022). "Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains". arXiv:2210.04133 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Seth Forsgren؛ Hayk Martiros. "Riffusion - Stable diffusion for real-time music generation". Riffusion. مؤرشف من الأصل في 2022-12-16. اطلع عليه بتاريخ 2024-10-14.
- ^ Mercurio، Anthony (31 أكتوبر 2022)، "Waifu Diffusion"، غيت هاب، مؤرشف من الأصل في 2022-10-31، اطلع عليه بتاريخ 2022-10-31
- ^ Smith، Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. مؤرشف من الأصل في 2023-08-27. اطلع عليه بتاريخ 2022-10-31.
- ^ Dave James (28 أكتوبر 2022). "I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann". بي سي غيمر. مؤرشف من الأصل في 2022-11-09. اطلع عليه بتاريخ 2024-10-14.
- ^ Gal، Rinon؛ Alaluf، Yuval؛ Atzmon، Yuval؛ Patashnik، Or؛ Bermano، Amit H.؛ Chechik، Gal؛ Cohen-Or، Daniel (02 أغسطس 2022). "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". arXiv:2208.01618 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "NovelAI Improvements on Stable Diffusion". NovelAI. 11 أكتوبر 2022. مؤرشف من الأصل في 2022-10-27. اطلع عليه بتاريخ 2024-10-14.
- ^ Yuki Yamashita (1 Sep 2022). "愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発". ITmedia Inc. (باليابانية). Archived from the original on 2022-08-31. Retrieved 2024-10-14.
- ^ Meng، Chenlin؛ He، Yutong؛ Song، Yang؛ Song، Jiaming؛ Wu، Jiajun؛ Zhu، Jun-Yan؛ Ermon، Stefano (2 أغسطس 2021). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arXiv:2108.01073 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ ا ب ج د "Stable Diffusion web UI". GitHub. 10 نوفمبر 2022. مؤرشف من الأصل في 2023-01-20. اطلع عليه بتاريخ 2022-09-27.
- ^ "invisible-watermark"، غيت هاب، Shield Mountain، 02 نوفمبر 2022، مؤرشف من الأصل في 2022-10-18، اطلع عليه بتاريخ 2022-11-02
- ^ "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub (بالإنجليزية). Archived from the original on 2022-10-02. Retrieved 2022-11-02.
- ^ "Stable Diffusion v2.1 and DreamStudio Updates 7-Dec 22". stability.ai. مؤرشف من الأصل في 2022-12-10. اطلع عليه بتاريخ 2024-10-14.
- ^ Meng، Chenlin؛ He، Yutong؛ Song، Yang؛ Song، Jiaming؛ Wu، Jiajun؛ Zhu، Jun-Yan؛ Ermon، Stefano (04 يناير 2022). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arXiv:2108.01073 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ ا ب Luzi، Lorenzo؛ Siahkoohi، Ali؛ Mayer، Paul M.؛ Casco-Rodriguez، Josue؛ Baraniuk، Richard (21 أكتوبر 2022). "Boomerang: Local sampling on image manifolds using diffusion models". arXiv:2210.12100 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Peng, Brenda (08 Aug 2024). "5 Ways to AI Upscale Stable Diffusion Images". Aiarty (بالإنجليزية). Archived from the original on 2024-10-12. Retrieved 2024-09-23.
- ^ Bühlmann, Matthias (28 Sep 2022). "Stable Diffusion Based Image Compression". Medium (بالإنجليزية). Archived from the original on 2022-11-02. Retrieved 2022-11-02.
- ^ Zhang، Lvmin (10 فبراير 2023). "Adding Conditional Control to Text-to-Image Diffusion Models". arXiv:2302.05543 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "ControlNet - Control Diffusion Models | Stable Diffusion Online". stablediffusionweb.com. مؤرشف من الأصل في 2023-03-02. اطلع عليه بتاريخ 2024-11-26.
- ^ "ControlNet: A Complete Guide - Stable Diffusion Art" (بالإنجليزية). 22 Feb 2023. Archived from the original on 2024-01-29. Retrieved 2024-11-26.
- ^ Zhang، Lvmin؛ Rao، Anyi؛ Agrawala، Maneesh (2023). "Adding Conditional Control to Text-to-Image Diffusion Models". DOI:10.48550/ARXIV.2302.05543. مؤرشف من الأصل في 2023-05-23. اطلع عليه بتاريخ 2024-11-26.
{{استشهاد بدورية محكمة}}
: الاستشهاد بدورية محكمة يطلب|دورية محكمة=
(مساعدة) - ^ Edwards, Benj (10 Nov 2022). "Stable Diffusion in your pocket? "Draw Things" brings AI images to iPhone". Ars Technica (بالإنجليزية). Archived from the original on 2024-07-17. Retrieved 2024-07-10.
- ^ Wendling، Mike (6 مارس 2024). "AI can be easily used to make fake election photos - report". bbc.com. مؤرشف من الأصل في 2024-09-22. اطلع عليه بتاريخ 2024-07-10.
The CCDH, a campaign group, tested four of the largest public-facing AI platforms: Midjourney, OpenAI's ChatGPT Plus, Stability.ai's DreamStudio and Microsoft's Image Creator.
- ^ Wiggers، Kyle (18 مايو 2023). "Stability AI open sources its AI-powered design studio". TechCrunch. مؤرشف من الأصل في 2024-07-10. اطلع عليه بتاريخ 2024-07-10.
- ^ Weatherbed, Jess (17 May 2023). "Stability AI is open-sourcing its DreamStudio web app". The Verge (بالإنجليزية). Archived from the original on 2024-07-10. Retrieved 2024-10-14.
- ^ Mann, Tobias (29 Jun 2024). "A friendly guide to local AI image gen with Stable Diffusion and Automatic1111". ذا رجستر (بالإنجليزية). Archived from the original on 2024-09-27. Retrieved 2024-10-14.
- ^ Hachman, Mak. "Fooocus is the easiest way to create AI art on your PC". PCWorld (بالإنجليزية). Archived from the original on 2024-10-12. Retrieved 2024-10-14.
- ^ "ComfyUI Workflows and what you need to know". thinkdiffusion.com. ديسمبر 2023. مؤرشف من الأصل في 2024-10-08. اطلع عليه بتاريخ 2024-07-10.
- ^ "ComfyUI". github.com. مؤرشف من الأصل في 2024-10-10. اطلع عليه بتاريخ 2024-07-10.
- ^ Huang، Yenkai (10 مايو 2024). Latent Auto-recursive Composition Engine (M.S. Computer Science thesis). كلية دارتموث. مؤرشف من الأصل في 2024-10-08. اطلع عليه بتاريخ 2024-07-10.
- ^ "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-01-11. اطلع عليه بتاريخ 2023-08-17.
- ^ "CompVis (CompVis)". huggingface.co. 23 أغسطس 2023. مؤرشف من الأصل في 2022-09-06. اطلع عليه بتاريخ 2024-03-06.
- ^ "runwayml/stable-diffusion-v1-5 · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-09-21. اطلع عليه بتاريخ 2023-08-17.
- ^ ا ب "stabilityai/stable-diffusion-2 · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-09-21. اطلع عليه بتاريخ 2023-08-17.
- ^ "stabilityai/stable-diffusion-2-base · Hugging Face". huggingface.co. مؤرشف من الأصل في 2024-10-08. اطلع عليه بتاريخ 2024-01-01.
- ^ "stabilityai/stable-diffusion-2-1 · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-09-21. اطلع عليه بتاريخ 2023-08-17.
- ^ "stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-10-08. اطلع عليه بتاريخ 2023-08-17.
- ^ "Announcing SDXL 1.0". Stability AI (بالإنجليزية). Archived from the original on 2024-10-01. Retrieved 2024-01-01.
- ^ "stabilityai/sdxl-turbo · Hugging Face". huggingface.co. مؤرشف من الأصل في 2024-09-15. اطلع عليه بتاريخ 2024-01-01.
- ^ "Adversarial Diffusion Distillation". Stability AI (بالإنجليزية). Archived from the original on 2024-09-22. Retrieved 2024-01-01.
- ^ "Stable Diffusion 3". Stability AI (بالإنجليزية). Archived from the original on 2024-10-05. Retrieved 2024-03-05.
- ^ ا ب Esser، Patrick؛ Kulal، Sumith؛ Blattmann، Andreas؛ Entezari، Rahim؛ Müller، Jonas؛ Saini، Harry؛ Levi، Yam؛ Lorenz، Dominik؛ Sauer، Axel (05 مارس 2024)، Scaling Rectified Flow Transformers for High-Resolution Image Synthesis، arXiv:2403.03206
- ^ ا ب "Stable Diffusion 3.5". ستابيليتي أيه آي. مؤرشف من الأصل في 2024-10-23. اطلع عليه بتاريخ 2024-10-23.
- ^ Radford، Alec؛ Kim، Jong Wook؛ Hallacy، Chris؛ Ramesh، Aditya؛ Goh، Gabriel؛ Agarwal، Sandhini؛ Sastry، Girish؛ Askell، Amanda؛ Mishkin، Pamela (26 فبراير 2021). "Learning Transferable Visual Models From Natural Language Supervision". arXiv:2103.00020 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Meng، Chenlin؛ He، Yutong؛ Song، Yang؛ Song، Jiaming؛ Wu، Jiajun؛ Zhu، Jun-Yan؛ Ermon، Stefano (04 يناير 2022). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". arXiv:2108.01073 [cs.CV].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patrick; Ommer, Björn (2022). "High-Resolution Image Synthesis With Latent Diffusion Models". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (بالإنجليزية). pp. 10684–10695. arXiv:2112.10752.
- ^ "Rectified Flow — Rectified Flow". www.cs.utexas.edu. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-03-06.
- ^ "LICENSE.md · stabilityai/stable-diffusion-xl-base-1.0 at main". huggingface.co. 26 يوليو 2023. مؤرشف من الأصل في 2024-10-02. اطلع عليه بتاريخ 2024-01-01.
- ^ Heikkilä، Melissa (16 سبتمبر 2022). "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review. مؤرشف من الأصل في 2023-01-14. اطلع عليه بتاريخ 2022-09-26.
- ^ ا ب Ryo Shimizu (26 Aug 2022). "Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由". Business Insider Japan (باليابانية). Archived from the original on 2022-12-10. Retrieved 2022-10-04.
- ^ Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (بالإنجليزية). Archived from the original on 2023-09-30. Retrieved 2022-10-31.
- ^ "Illegal trade in AI child sex abuse images exposed". BBC News (بالإنجليزية). 27 Jun 2023. Archived from the original on 2023-09-21. Retrieved 2023-09-26.
- ^ Maiberg, Emanuel (11 Jun 2024). "Hackers Target AI Users With Malicious Stable Diffusion Tool on GitHub to Protest 'Art Theft'". 404 Media (بالإنجليزية). Archived from the original on 2024-09-01. Retrieved 2024-06-14.
- ^ Vincent، James (16 يناير 2023). "AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit". The Verge. مؤرشف من الأصل في 2023-03-09. اطلع عليه بتاريخ 2023-01-16.
- ^ Brittain, Blake (19 Jul 2023). "US judge finds flaws in artists' lawsuit against AI companies". Reuters (بالإنجليزية). Archived from the original on 2023-09-06. Retrieved 2023-08-06.
- ^ Goosens، Sophia (28 فبراير 2024). "Getty Images v Stability AI: the implications for UK copyright law and licensing". مؤرشف من الأصل في 2024-10-13. اطلع عليه بتاريخ 2024-10-14.
- ^ Gill، Dennis (11 ديسمبر 2023). "Getty Images v Stability AI: copyright claims can proceed to trial". مؤرشف من الأصل في 2024-08-22. اطلع عليه بتاريخ 2024-10-14.
- ^ Goosens، Sophia (28 فبراير 2024). "Getty v. Stability AI case goes to trial in the UK – what we learned". مؤرشف من الأصل في 2024-06-14. اطلع عليه بتاريخ 2024-10-14.
- ^ ا ب Hill، Charlotte (16 فبراير 2024). "Generative AI in the courts: Getty Images v Stability AI". مؤرشف من الأصل في 2024-10-04. اطلع عليه بتاريخ 2024-10-14.
- ^ "Stable Diffusion Public Release". Stability.Ai. مؤرشف من الأصل في 2022-08-30. اطلع عليه بتاريخ 2022-08-31.
- ^ "From RAIL to Open RAIL: Topologies of RAIL Licenses". Responsible AI Licenses (RAIL) (بالإنجليزية). 18 Aug 2022. Archived from the original on 2023-07-27. Retrieved 2023-02-20.
- ^ "Ready or not, mass video deepfakes are coming". The Washington Post. 30 أغسطس 2022. مؤرشف من الأصل في 2022-08-31. اطلع عليه بتاريخ 2022-08-31.
- ^ "License - a Hugging Face Space by CompVis". huggingface.co. مؤرشف من الأصل في 2022-09-04. اطلع عليه بتاريخ 2022-09-05.
- ^ Katsuo Ishida (26 Aug 2022). "言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能". Impress Corporation (باليابانية). Archived from the original on 2022-11-14. Retrieved 2022-10-04.
- ^ "Community License". ستابيليتي أيه آي (بالإنجليزية). 05 Jul 2024. Retrieved 2024-10-23.