مقایسه تصاویر تولیدی 5 هوش مصنوعی‌ متفاوت _ بخش دوم

مقایسه تصاویر تولیدی 5 هوش مصنوعی‌ متفاوت _ بخش دوم

در مطالب پیشین رسانه مدیاتی توضیحاتی درباره مولدهای تصویر هوش مصنوعی خواندید و در موضوعات مختلفی، چند نمونه از مولدهای پرطرفدار را مقایسه کردید. در این مطلب، مولدها را در زمینه‌های دیگر بررسی خواهیم کرد و در نهایت ویژگی‌های خاص هر مولد را به صورت جداگانه خواهید خواند.

 

طراحی شخصیت

مولدهای تصاویر

( DALL-E 3 )

 

مولدهای تصاویر

( Stable Diffusion )

 

مولدهای تصاویر

( Midjourney )

 

مولدهای تصاویر

( Firefly )

مولدهای تصاویر

( Meta )

 

آثار هنری DALL-E 3 در این دور بسیار چشمگیر است. Midjourney می‌توانست خوب باشد، اما نشان ندادن چهره سوژه برای طراحی شخصیت‌ها معنی ندارد. متا همچنین طراحی فوق‌العاده‌ای انجام داد، اما نمی‌توان استدلال کرد که این یک طراحی جنگی است.

 

هنر دیجیتال

  • موضوع: صحنه هنری پیکسل، یک سوپرمارکت ساکت و خالی در شب

مولدهای تصاویر

( DALL-E 3 )

 

مولدهای تصاویر

( Midjourney )

 

مولدهای تصاویر

( Stable Diffusion )

 

مولدهای تصاویر

( Firefly )

 

مولدهای تصاویر

( Meta )

نسخه Midjourney و DALL-E کاملاً حال و هوای اتمسفری مورد نظر را شبیه‌سازی کردند. البته درباره Midjourney وقتی بزرگنمایی می‌کنید، مورد «هنر پیکسلی» از بین می‌رود. Stable Diffusion در واقع ورود بسیار خوبی داشت، اما غذاهای موجود در قفسه‌ها با نگاه دقیق‌تر به درستی ارائه نمی‌شوند. Meta بدترین در هنر پیکسل است که هم در درک متنی و هم در جعل هویت پیکسلی ناموفق عمل کرده است.

 

لوگو

  • موضوع: لوگویی برای آرایشگاه به سبک مینیمالیست، توسط پل رند با پس‌زمینه تمیز

مولدهای تصاویر

( Midjourney )

 

مولدهای تصاویر

( DALL-E 3 )

 

مولدهای تصاویر

( Stable Diffusion )

 

مولدهای تصاویر

( Firefly )

مولدهای تصاویر

( Meta )

 

این یک برد برای Midjourney است. مولدهای دیگر به دنبال یک لوگوی عمومی بودند، اما Midjourney با استفاده از یک میله آرایشگر و تبدیل رنگ‌ها به چیزی که شبیه ضربه‌های قلم مو است، کار جدیدی انجام داد. این طرح بسیار ساده در عین حال موثر و منحصر به فرد است. جدای از انجام کامل یک درخواست طولانی، این احتمالاً بهترین حالت برای نشان دادن تفاوت‌های ظریف بهبود یافته Midjourney است. DALL-E 3 در اینجا نیز شایسته ذکر است زیرا توانسته است یک لوگو با طراحی خوب ایجاد کند.

 

تولید متن

  • موضوع: پانل کمیک تونی استارک پریشان که می‌گوید “کاپیتان مرده است”.

مولدهای تصاویر

( Midjourney )

 

مولدهای تصاویر

( DALL-E 3 )

 

مولدهای تصاویر

( Stable Diffusion )

 

مولدهای تصاویر

( Meta )

 

مولدهای تصاویر

( Firefly )

جای تعجب نیست که DALL-E 3 در این دور در میان 2 برتر ما قرار دارد. اما اجازه دهید ابتدا با Stable Diffusion، Meta و Firefly شروع کنیم که هیچ کدامشان حتی تلاشی برای ایجاد یک متن خوانا نکردند. و حتی فکر نمی‌کنیم فایرفلای بداند تونی استارک کیست!

وقتی Midjourney V6 منتشر شد، آنها بر پیشرفت‌های تولید متن خود تأکید کردند و با این تصویر، کاملا این ادعا مشهود است. DALL-E 3 ممکن است به خوبی V6 نباشد، اما تقریباً خوب است.

 

High Context

  • موضوع: زنی میانسال آسیایی‌تبار دارای موهای تیره‌ با رگه‌های نقره‌ای. زن در قالب یک ظرف چینی شکسته به نظر می‌رسد و در دریایی از تکه‌های چینی‌ قرار گرفته است. ظروف چینی با طرح‌های رنگ‌آمیزی در ترکیبی هماهنگ از آبی براق و مات، سبز، نارنجی و قرمز می‌درخشند و رقص او را در کنار هم، با حرکات سورئال به تصویر می‌کشد. رنگ پوست او، حالتی عرفانی به او می‌بخشد.

مولدهای تصاویر

( DALL-E 3 )

 

مولدهای تصاویر

( Stable Diffusion )

 

مولدهای تصاویر

( Midjourney )

 

مولدهای تصاویر

( Firefly )

 

مولدهای تصاویر

( Meta )

 

اگر ما فقط در مورد درک مطلب صحبت کنیم، پس همه این تصاویر این آزمون را با موفقیت پشت سر گذاشتند. بنابراین، ما باید در نظر بگیریم که کدام یک آن را به بهترین شکل انجام داده است.

شکی نیست که خروجی DALL-E 3 بهترین است. از آنجا، رتبه بندی بقیه از 1 تا 4 دشوار است. Stable Diffusion و Midjourney بهترین خروجی‌ها را داشتند. Firefly تقریباً عالی بود، اما «نقوش رنگ پاشی» را از دست داد. در همین حال، متا نیز همه جنبه‌های دستور را انجام داد.

 

هر کدام از مولدها در چه چیزی خوب هستند؟

  • Midjourney:

نقاط قوت: Midjourney V6 یک پیشرفت شگفت‌انگیز از V5.2 است که هر مشکلی را که نسل قبلی آن داشت برطرف می‌کند. اکنون هم برای هنر واقعی و دیجیتال و هم برای تولید متن بهترین است. همچنین در تقلید از سبک‌های هنری خاص بهترین است، کاری که دیگر تولیدکنندگان تصویر هوش مصنوعی به دلیل سیاست‌ها و دستورالعمل‌ها نمی‌توانند انجام دهند.

نقاط ضعف: Midjourney همچنان در تولید متن‌های طولانی مشکل دارد. منحنی یادگیری برای دستورات نیز با انتشار V6 بسیار بالاتر است.

  • DALL-E 3:

نقاط قوت: DALL-E 3 هنوز بهترین مولد برای درک سریع و جایگزین عالی برای Midjourney برای تولید متن است. همچنین در ایجاد هنر پیکسلی بهترین است.

نقاط ضعف: DALL-E می‌تواند برای ایجاد تصاویر واقعی، به‌ویژه تصاویری با افراد، هوب عمل نکند.

  • Meta:

نقاط قوت: Meta تصاویر واقعی به خصوص عکس‌های پرتره و منظره را بسیار خوب انجام می‌دهد. این مولد همچنین بهترین تولیدکننده تصویر هوش مصنوعی رایگان در بازار است.

نقاط ضعف: متا هنوز نمی‌تواند به طور قابل اعتماد تولید متن انجام دهد. در تمام آزمایش‌ها، متوجه مشخص شده که با هنر پیکسلی بسیار مشکل دارد.

  • Firefly:

نقاط قوت: Firefly بهترین مورد استفاده هنرمندان دیجیتالی است که از مجموعه Adobe برای ویرایش استفاده می‌کنند.

نقاط ضعف: مانند بیشتر مولدها، Firefly هنوز نمی‌تواند متن تولید کند. همچنین با ایجاد آثار هنری بر اساس شخصیت‌های موجود مشکل دارد.

  • Stable Diffusion XL:

نقاط قوت: Stable Diffusion یک تولیدکننده تصویر هوش مصنوعی خوب است. همچنین می‌تواند درخواست‌های طولانی را به صورت رایگان انجام دهد.

نقاط ضعف: Stable Diffusion نمی‌تواند پرتره‌های واقعی را بدون تأکید بیش از حد بر ویژگی‌های خاص ایجاد کند.

 

سخن پایانی

با انتشار Midjourney V6، ساختن پرونده برای تولیدکننده‌های تصویر هوش مصنوعی دیگر سخت‌تر و سخت‌تر می‌شود. مدل پایه در حال حاضر در لیگ مخصوص به خود قرار دارد و زمانی که آنها به طور رسمی آن را منتشر کنند، بهتر هم می‌شود، به خصوص که آنها نظر کاربران را برای بهبود مدل خود به کاردمی‌گیرند.

با این حال، اگر فقط یک کاربر معمولی هستید، Meta جایگزین خوبی است زیرا رایگان است، و اگر به دنبال مدلی با درک شگفت‌انگیز هستید، DALL-E (با ChatGPT) همچنان بهترین مدل در بازار است. V6 نیز یک نقطه عطف واقعی برای هنر هوش مصنوعی است.

این مطلب را به اشتراک بگذارید

دیدگاهتان را بنویسید