Nano Banana در ارائه عکسهای واقعگرایانه بهتر از ChatGPT است
یک مقاله جدید، قابلیت تولید تصویر دو مدل هوش مصنوعی «چتجیپیتی» و «نانوبنانا» را برای ایجاد عکسهای آرشیوی با یکدیگر مقایسه کرده و برتری نانوبنانا را در ارائه عکسهای واقعگرایانه، دارای ثبات و قابلیت استفاده برای متخصصان برجسته کرده است.
در عرصه هوش مصنوعی که به سرعت تکامل مییابد و فناوریهای مولد تصویر، صنایع خلاق را متحول میکنند، رقابت شدیدی بین قابلیتهای تولید تصویر «چتجیپیتی»(ChatGPT) شرکت «اوپنایآی»(OpenAI) و «نانوبنانا پرو»(Nano Banana Pro) شرکت «گوگل» پدید آمده است.
به گزارش وب پرو نیوز، این رقابت تنها درباره تولید تصاویر زیبا نیست، بلکه درباره تولید گزینههای کاربردی و با کیفیت بالاست که متخصصان بازاریابی، طراحی و رسانه میتوانند بدون نیاز به دوبارهکاری گسترده از آنها استفاده کنند. پیشرفتهای اخیر، نحوه مدیریت این پلتفرمها را در ایجاد عکسهای آرشیوی برجسته کرده است. در این جایگاه، واقعگرایی، قابلیت استفاده و پایبندی به دستورالعملها برنده را تعیین میکند. این بررسی عمیق با استفاده از مقایسههای عملی و تحلیلهای تخصصی بررسی میکند که چرا یک فناوری در ارائه تصاویر آرشیوی مناسب پیشی میگیرد؛ در حالی که دیگری با ناسازگاریهایی دستوپنجه نرم میکند که پتانسیل آن را تضعیف میکنند.
هسته اصلی این رویارویی، تفاوتهای اساسی در نحوه پردازش ورودیهای کاربر و ارائه خروجیها توسط هر سیستم است. چتجیپیتی که توسط جدیدترین مدلهای اوپنایآی پشتیبانی میشود، گامهای بلندی را در ادغام مستقیم تولید تصویر در رابط مکالمهای خود برداشته است و به کاربران امکان میدهد تا از طریق زبان طبیعی، تصاویر را تکرار کنند. با وجود این، آزمایشها نشان میدهند که اگرچه چتجیپیتی در خلاقیت عالی است، اما اغلب در تولید تصاویر آماده استفاده که آرشیوهای عکس به آن نیاز دارند، دچار مشکل میشود. در مقابل، نانوبنانا پرو از الگوریتمهای پیشرفته برای اولویتبندی «واقعگرایی عکسوار» یا «فوتورئالیسم»(Photorealism) و حفظ جزئیات استفاده میکند و این ویژگی، آن را به گزینهای مناسب برای متخصصانی تبدیل میکند که به فناوریهای تقلیدکننده از عکاسی سنتی نیاز دارند.
ناظران صنعت خاطرنشان میکنند که تلاش برای ارائه فناوریهای مولد تصویر بهتر، حاصل تقاضای گستردهتر برای هوش مصنوعی است تا خلاقیت انسان را بدون جایگزینی کامل آن تقویت کند.
در قلب چتجیپیتی، یک مدل ارتقاءیافته وجود دارد که زمان تولید سریعتر -تا چهار برابر سریعتر از مدلهای پیشین- و بهبود وفاداری به دستورالعملهای کاربر را نوید میدهد. براساس اطلاعات منتشرشده در پلتفرمهای اجتماعی مانند ایکس و خبرهای اوپنایآی از بهبودهایی با تمرکز بر عناصر سازگار مانند نورپردازی و ظاهر سوژه در ویرایشها، چتجیپیتی با هدف یکپارچهسازی گردشهای کاری طراحی شده است. با وجود این، وقتی وظیفه پردازش تصاویر آماده مانند یک صحنه شلوغ اداری یا یک منظره آرام طبیعت بر عهده چتجیپیتی قرار میگیرد، اغلب مصنوعات یا ویژگیهای سبکی را نشان میدهد که به پردازش بعدی نیاز دارند.
از سوی دیگر، نانوبنانا پرو براساس چارچوب هوش مصنوعی «جمینای»(Gemini) گوگل ساخته شده و قابلیتهای چندوجهی را در خود جای داده است که درک متن را با تولید بصری ترکیب میکنند. بررسیها بر مهارت آن در انجام دادن ویرایشهای پیچیده بدون ایجاد اختلال در یکپارچگی کلی تصویر تأکید دارند. این ویژگی برای ایجاد عکسهای آرشیوی که در آنها دقت کلید اصلی به شمار میرود، بسیار ارزشمند است. کاربران گزارش دادهاند که نانوبنانا میتواند صحنههای فوقالعاده واقعگرایانهای مانند یک محصول در پسزمینه خنثی را با حداقل خطاهای هشدار ایجاد کند.
مقایسهها درباره سرعت و دسترسی نیز انجام شدهاند. در حالی که چتجیپیتی فناوریهای تصویری را در رابط چت خود ادغام میکند و آن را برای تازهکارها کاربرپسند میسازد، نانوبنانا یک ویرایشگر اختصاصی را ارائه میدهد که برای حرفهایها مناسب است. یک بررسی شامل تطبیقهای سریع مستقیم نشان داد نانوبنانا در سناریوهایی که به کیفیت سینمایی نیاز دارند، مانند شخصیتی در یک محیط پویا، عملکرد بهتری دارد و این امر بر قابلیت اطمینان آن برای ارائه خروجیهای حرفهای تأکید میکند.
عکاسی آرشیوی به چیزی بیش از زیباییشناسی نیاز دارد. این کار مستلزم تطبیقپذیری، حساسیت فرهنگی و پایبندی به استانداردهای تجاری است. آزمایشهایی با درخواستهای یکسان، نتایج شگفتانگیزی را نشان دادند. نانوبنانا به طور مداوم تصاویری را تولید میکرد که نه تنها واقعگرایانهتر بودند، بلکه از نظر بازنمایی نیز متنوعتر بودند و از تعصباتی که گاهی اوقات در خروجیهای چتجیپیتی رخنه میکنند، دوری میکردند.
برای مثال، وقتی از نانوبنانا خواسته شد تصاویری را از متخصصان گوناگون در یک اتاق هیئتمدیره ایجاد کند، در نمایش حالتها و لباسهای طبیعی عالی عمل کرد و صحنهها را باورپذیر و فراگیر ساخت. براساس آزمایشهای عملی گزارششده در وبلاگهای گوناگون فناوری، اگرچه چتجیپیتی توانمند بود، اما گاهی اوقات ناهنجاریهایی را مانند نورپردازی نامناسب یا ژستهای غیرطبیعی نشان میداد. این امر، نانوبنانا را برای آژانسهایی که به خروجی سریع و بدون تعصب نیاز دارند، در اولویت قرار میدهد.
علاوه بر این، گردش کار ویرایش به طور قابل توجهی متفاوت است. چتجیپیتی امکان تغییرات تکراری را از طریق گفتوگو فراهم میکند که نوآورانه است، اما اگر مدل دستورالعملها را اشتباه تفسیر کند، میتواند به بروز خطا منجر شود. رابط کاربری نانوبنانا از اصلاحات دقیق پشتیبانی میکند و جزئیات را در نسخههای گوناگون حفظ میکند. این قابلیت برای تکرار عکسهایی که در آنها ثبات بسیار مهم است، یک مزیت به شمار میرود.
عرصه رقابت در حال داغ شدن است و محصولات اوپنایآی مستقیماً تسلط گوگل را به چالش میکشند. اگرچه گزارش شده که مدل جدید چتجیپیتی سریعتر است، اما سرعت به تنهایی تضمینکننده برتری در کیفیت عکس نیست. بهروزرسانیهای «جمینای ۳» گوگل نشاندهنده پیشرفتهای گستردهتری هستند که میتوانند برتری نانوبنانا را بیشتر تثبیت کنند.
با گسترش فناوریهای هوش مصنوعی، ملاحظات اخلاقی اهمیت پیدا میکنند. تولید عکسهای آرشیوی باید مسائل مربوط به حق چاپ و اصالت را در نظر بگیرد؛ یعنی حوزههایی که هر دو پلتفرم در حال پیشبرد حفاظت از آنها هستند. با وجود این، واقعگرایی برتر نانوبنانا نیاز به مداخله انسانی را کاهش میدهد و ممکن است آژانسهای سنتی آرشیو عکس را مختل کند.
پستهای اوپنایآی در پلتفرم ایکس، بهبودهایی را در پایبندی به نیت آن نشان میدهند، اما بازخورد جامعه نشان میدهند که نانوبنانا در چالشهای بیش از حد واقعگرایانه پیروز است.
ادغام این فناوریها در اکوسیستمهای گستردهتر نیز اهمیت دارد. رویکرد مبتنی بر گفتوگو چتجیپیتی برای طوفان فکری مناسب است؛ در حالی که ویرایشگر مستقل نانوبنانا برای کاربران تخصصی جذابیت دارد. برای عکسهای آرشیوی، دقت ویرایشگر دومی برنده است.
اخبار جدید حاکی از آن است که همکاریها و بهروزرسانیها میتوانند پویایی را تغییر دهند. با وجود این، تاکنون که به اواخر سال ۲۰۲۵ رسیدهایم، نانوبنانا تاج و تخت را در حوزه تولید تصاویر کاربردی در اختیار دارد.
در نهایت، این رقابت به نفع کاربران است و نوآوریهایی را پیش میبرد که نقش هوش مصنوعی را در زمینههای خلاقانه اصلاح میکنند. متخصصان باید هر دو را آزمایش کنند اما در حال حاضر نانوبنانا در ارائه تصاویر آماده که به طور یکپارچه با تلاشهای تجاری ترکیب میشوند، پیشتاز است.
