مقایسه تصاویر تولیدی 5 هوش مصنوعی متفاوت _ بخش دوم
در مطالب پیشین رسانه مدیاتی توضیحاتی درباره مولدهای تصویر هوش مصنوعی خواندید و در موضوعات مختلفی، چند نمونه از مولدهای پرطرفدار را مقایسه کردید. در این مطلب، مولدها را در زمینههای دیگر بررسی خواهیم کرد و در نهایت ویژگیهای خاص هر مولد را به صورت جداگانه خواهید خواند.
طراحی شخصیت
( DALL-E 3 )
( Stable Diffusion )
( Midjourney )
( Firefly )
( Meta )
آثار هنری DALL-E 3 در این دور بسیار چشمگیر است. Midjourney میتوانست خوب باشد، اما نشان ندادن چهره سوژه برای طراحی شخصیتها معنی ندارد. متا همچنین طراحی فوقالعادهای انجام داد، اما نمیتوان استدلال کرد که این یک طراحی جنگی است.
هنر دیجیتال
- موضوع: صحنه هنری پیکسل، یک سوپرمارکت ساکت و خالی در شب
( DALL-E 3 )
( Midjourney )
( Stable Diffusion )
( Firefly )
( Meta )
نسخه Midjourney و DALL-E کاملاً حال و هوای اتمسفری مورد نظر را شبیهسازی کردند. البته درباره Midjourney وقتی بزرگنمایی میکنید، مورد «هنر پیکسلی» از بین میرود. Stable Diffusion در واقع ورود بسیار خوبی داشت، اما غذاهای موجود در قفسهها با نگاه دقیقتر به درستی ارائه نمیشوند. Meta بدترین در هنر پیکسل است که هم در درک متنی و هم در جعل هویت پیکسلی ناموفق عمل کرده است.
لوگو
- موضوع: لوگویی برای آرایشگاه به سبک مینیمالیست، توسط پل رند با پسزمینه تمیز
( Midjourney )
( DALL-E 3 )
( Stable Diffusion )
( Firefly )
( Meta )
این یک برد برای Midjourney است. مولدهای دیگر به دنبال یک لوگوی عمومی بودند، اما Midjourney با استفاده از یک میله آرایشگر و تبدیل رنگها به چیزی که شبیه ضربههای قلم مو است، کار جدیدی انجام داد. این طرح بسیار ساده در عین حال موثر و منحصر به فرد است. جدای از انجام کامل یک درخواست طولانی، این احتمالاً بهترین حالت برای نشان دادن تفاوتهای ظریف بهبود یافته Midjourney است. DALL-E 3 در اینجا نیز شایسته ذکر است زیرا توانسته است یک لوگو با طراحی خوب ایجاد کند.
تولید متن
- موضوع: پانل کمیک تونی استارک پریشان که میگوید “کاپیتان مرده است”.
( Midjourney )
( DALL-E 3 )
( Stable Diffusion )
( Meta )
( Firefly )
جای تعجب نیست که DALL-E 3 در این دور در میان 2 برتر ما قرار دارد. اما اجازه دهید ابتدا با Stable Diffusion، Meta و Firefly شروع کنیم که هیچ کدامشان حتی تلاشی برای ایجاد یک متن خوانا نکردند. و حتی فکر نمیکنیم فایرفلای بداند تونی استارک کیست!
وقتی Midjourney V6 منتشر شد، آنها بر پیشرفتهای تولید متن خود تأکید کردند و با این تصویر، کاملا این ادعا مشهود است. DALL-E 3 ممکن است به خوبی V6 نباشد، اما تقریباً خوب است.
High Context
- موضوع: زنی میانسال آسیاییتبار دارای موهای تیره با رگههای نقرهای. زن در قالب یک ظرف چینی شکسته به نظر میرسد و در دریایی از تکههای چینی قرار گرفته است. ظروف چینی با طرحهای رنگآمیزی در ترکیبی هماهنگ از آبی براق و مات، سبز، نارنجی و قرمز میدرخشند و رقص او را در کنار هم، با حرکات سورئال به تصویر میکشد. رنگ پوست او، حالتی عرفانی به او میبخشد.
( DALL-E 3 )
( Stable Diffusion )
( Midjourney )
( Firefly )
( Meta )
اگر ما فقط در مورد درک مطلب صحبت کنیم، پس همه این تصاویر این آزمون را با موفقیت پشت سر گذاشتند. بنابراین، ما باید در نظر بگیریم که کدام یک آن را به بهترین شکل انجام داده است.
شکی نیست که خروجی DALL-E 3 بهترین است. از آنجا، رتبه بندی بقیه از 1 تا 4 دشوار است. Stable Diffusion و Midjourney بهترین خروجیها را داشتند. Firefly تقریباً عالی بود، اما «نقوش رنگ پاشی» را از دست داد. در همین حال، متا نیز همه جنبههای دستور را انجام داد.
هر کدام از مولدها در چه چیزی خوب هستند؟
-
Midjourney:
نقاط قوت: Midjourney V6 یک پیشرفت شگفتانگیز از V5.2 است که هر مشکلی را که نسل قبلی آن داشت برطرف میکند. اکنون هم برای هنر واقعی و دیجیتال و هم برای تولید متن بهترین است. همچنین در تقلید از سبکهای هنری خاص بهترین است، کاری که دیگر تولیدکنندگان تصویر هوش مصنوعی به دلیل سیاستها و دستورالعملها نمیتوانند انجام دهند.
نقاط ضعف: Midjourney همچنان در تولید متنهای طولانی مشکل دارد. منحنی یادگیری برای دستورات نیز با انتشار V6 بسیار بالاتر است.
-
DALL-E 3:
نقاط قوت: DALL-E 3 هنوز بهترین مولد برای درک سریع و جایگزین عالی برای Midjourney برای تولید متن است. همچنین در ایجاد هنر پیکسلی بهترین است.
نقاط ضعف: DALL-E میتواند برای ایجاد تصاویر واقعی، بهویژه تصاویری با افراد، هوب عمل نکند.
-
Meta:
نقاط قوت: Meta تصاویر واقعی به خصوص عکسهای پرتره و منظره را بسیار خوب انجام میدهد. این مولد همچنین بهترین تولیدکننده تصویر هوش مصنوعی رایگان در بازار است.
نقاط ضعف: متا هنوز نمیتواند به طور قابل اعتماد تولید متن انجام دهد. در تمام آزمایشها، متوجه مشخص شده که با هنر پیکسلی بسیار مشکل دارد.
-
Firefly:
نقاط قوت: Firefly بهترین مورد استفاده هنرمندان دیجیتالی است که از مجموعه Adobe برای ویرایش استفاده میکنند.
نقاط ضعف: مانند بیشتر مولدها، Firefly هنوز نمیتواند متن تولید کند. همچنین با ایجاد آثار هنری بر اساس شخصیتهای موجود مشکل دارد.
-
Stable Diffusion XL:
نقاط قوت: Stable Diffusion یک تولیدکننده تصویر هوش مصنوعی خوب است. همچنین میتواند درخواستهای طولانی را به صورت رایگان انجام دهد.
نقاط ضعف: Stable Diffusion نمیتواند پرترههای واقعی را بدون تأکید بیش از حد بر ویژگیهای خاص ایجاد کند.
سخن پایانی
با انتشار Midjourney V6، ساختن پرونده برای تولیدکنندههای تصویر هوش مصنوعی دیگر سختتر و سختتر میشود. مدل پایه در حال حاضر در لیگ مخصوص به خود قرار دارد و زمانی که آنها به طور رسمی آن را منتشر کنند، بهتر هم میشود، به خصوص که آنها نظر کاربران را برای بهبود مدل خود به کاردمیگیرند.
با این حال، اگر فقط یک کاربر معمولی هستید، Meta جایگزین خوبی است زیرا رایگان است، و اگر به دنبال مدلی با درک شگفتانگیز هستید، DALL-E (با ChatGPT) همچنان بهترین مدل در بازار است. V6 نیز یک نقطه عطف واقعی برای هنر هوش مصنوعی است.