پیشرفت ۳ هوش مصنوعی بزرگ در تولید تصاویر
مدتی است که با تصاویر تولیدشده توسط هوش مصنوعی زندگی میکنیم، اما این هفته، برخی از بازیگران اصلی این حوزه، گامهای بزرگی رو به جلو برداشتهاند. به طور خاص در اینجا در مورد بهروزرسانیهای مهم میدجرنی(Midjourney)، مدل جدید گوگل و گروک(Grok) صحبت میکنیم.
به گزارش ایسنا، هر یک از شرکتها نشان میدهند که فناوری با سرعت و در جهات مختلف در حال تکامل است و هر شرکت نشان میدهد که پیشرفتها تا کجا پیش رفته است.
به نقل از دیجیتالترندز، با میدجرنی(Midjourney) شروع کنیم که بی سر و صدا یک ویرایشگر وب جدید را اواخر روز پنجشنبه منتشر کرده است که تعدادی از ابزارهای مفید دستکاری تصویر را در یک رابط کاربری جمع میکند.
پیش از این، عملکردهایی مانند قاب بندی مجدد، رنگ آمیزی مجدد گسترش مرزهای تصویر و تولید محتوا برای پر کردن آن و بزرگنمایی همگی نیاز به ابزار خاص خود داشتند و در چندین فهرست قرار گرفته بودند و از سازندگان خواسته میشد که دائما بین این فهرستها جابهجا شوند. این رابط کاربری جدید فرآیند ویرایش منسجمتر و سادهتری را ارائه میدهد.
به گفته دیوید هولز(David Holz)، مدیر عامل میدجرنی در دیسکورد، ویرایشگر وب جدید به گونهای طراحی شده است که ویرایش تصاویر تولید شده با هوش مصنوعی را آسانتر و بدون مشکلتر میکند. او نوشت: ما فکر میکنیم که این کار ویرایش تصاویر را بسیار راحتتر از قبل میکند و گام بزرگی رو به جلو است.
این شرکت همچنین ابزار گزینش جدیدی را معرفی کرده است که مانند یک قلمو دیجیتال کار میکند و جایگزین ابزار انتخاب مربعی و بیضی میشود.
ویرایشگر جدید برای همه کاربران میدجرنی که پیش از این بیش از ۱۰ تصویر روی پلتفرم تولید کردهاند، در دسترس است. واکنشهای اولیه از سوی جامعه تا حد زیادی مثبت بوده است.
این ویرایشگر دو هفته پس از انتشار میدجرنی ۶.۱ ارائه میشود که کیفیت و انسجام تصویر مانند تعداد صحیح انگشتان و همچنین زمان پردازش و درک دقت متن را به طور قابل توجهی بهبود بخشید.
گروک-۲(Grok-2) هیولا را آزاد میکند
بهروزرسانی میدجرنی نیز تنها دو روز پس از انتشار گروک-۲ توسط استارتآپ xAI ایلان ماسک ارائه میشود که اتفاق بزرگ بعدی این هفته است.
محبوبیت قابلیتهای تولید تصویر گروک به دلیل کیفیت تصویر چشمگیر و قابلیت استفاده رایگان، به سرعت در حال افزایش است.
بزرگترین بحث در مورد گروک-۲ فقط کیفیت آن نیست، بلکه دستورالعملهای ظاهرا تعریف نشده آن است. برخلاف بسیاری از تولیدکنندههای تصویر هوش مصنوعی، به نظر میرسد گروک-۲ از نظر دستورالعملهای مربوط به مالکیت معنوی، خشونت و سایر محتواها چیز کمی برای گفتن دارد.
مردم پیش از این محدودیتهای آن را آزمایش کردهاند و انواع تصاویر وحشتناک و عجیب و غریب را ایجاد کردهاند که روزهای اولیه تولید تصویر هوش مصنوعی را تداعی میکند. اما اگر به سخنان ماسک اعتقاد دارید، فقدان دستورالعملهای گروک-۲ هدفمند به نظر میرسد و در نهایت میتواند به چگونگی تکامل این فناوری در آینده شکل دهد.
گوگل با ایمجن ۳(Imagen 3) خود وارد رقابت شد
در نهایت، گوگل مدل جدید هوش مصنوعی ایمجن ۳(3 Imagen) خود را معرفی کرد که در روز پنجشنبه برای همه کاربران آمریکایی منتشر شد. گوگل آن را «با کیفیتترین مدل تبدیل متن به تصویر» خود مینامد که اکنون میتواند «جزئیات بهتر، نور غنیتر و مصنوعات کمتری نسبت به مدلهای قبلی» تولید کند. گوگل همچنین میگوید که ایمجن ۳ در رندر کردن متن بهتر است و اکنون در نسخههای مختلفی ارائه میشود.