رونمایی متا از مدل هوش مصنوعی SAM 2 برای شناسایی بلادرنگ اشیا در ویدیوها
متا سال گذشته مدل Segment Anything یا SAM را معرفی کرد که با یادگیری ماشینی میتوانست تقریباً هر چیزی را در یک تصویر شناسایی کند. اکنون متا از نسل بعدی آن SAM 2 پرده برداشته است که میتواند حتی اشیای موجود در ویدیو را با دقت بالایی و بهصورت لحظهای و بلادرنگ شناسایی کند.
اصطلاح فنی «تفکیکسازی» یا Segmentation بدین معناست که یک مدل بصری بتواند یک تصویر را ببیند و اجزای آن را شناسایی کند؛ برای مثال متوجه شود که «این یک سگ است و این نیز یک درخت است که پشت سگ قرار دارد». البته این فناوری سالهاست که وجود دارد، اما متا با مدل Segment Anything یک گام بزرگ به جلو برداشت.
اکنون متا از نسل بعدی مدل Segment Anything 2 رونمایی کرده که نسبت به نسل قبلی پیشرفتهای قابلتوجهی داشته است. یکی از مزیتهای آن این است که در ویدیوها و نه فقط تصاویر ثابت کاربرد دارد.
قابلیتهای مدل SAM 2 متا
«مارک زاکربرگ» در گفتگو با «جنسن هوانگ»، مدیرعامل انویدیا، در کنفرانس SIGGRAPH گفت: «دانشمندان از این مدل برای پژوهش، مانند مطالعه صخرههای مرجانی و زیستگاههای طبیعی استفاده میکنند. اما اینکه بتوانید این کار را در ویدیو بهصورت Zero shot انجام دهید، بسیار جالب است.» زیرو شات یا یادگیری بدون نمونه بدین معناست که مدل میتواند محتواهایی که پیشازاین ندیده است را هم تشخیص دهد.
SAM 2 قابلیتهای مختلفی را برای محققان، تولیدکنندگان محتوا و علاقهمندان به هوش مصنوعی فراهم میکند و میتوان از آن به عنوان جزئی از یک سیستم هوش مصنوعی بزرگتر برای شناسایی اجزای تصاویر و ویدیوها بهره برد. این مدل در سیستمهای خودروهای خودران، تدوین ویدیو یا حتی ردیابی حیوانات درحال انقراض در فیلمبرداری با پهپادها کاربرد دارد.
طبیعتاً برای آموزش چنین مدلی به حجم زیادی داده نیاز است و متا تنها یک پایگاه داده بزرگ متشکل از 50 هزار ویدیو را که برای آموزش این مدل استفاده شده، منتشر کرده است. البته در مقاله SA2 نوشته شده که پایگاه داده دیگری متشکل از بیش از 100 هزار ویدیوی «در دسترس داخلی» نیز برای آموزش استفاده شده است ولی این مورد برای عموم منتشر نشده. احتمال دارد متا از محتواهای عمومی اینستاگرام و فیسبوک برای آموزش این مدل استفاده کرده باشد.
مدل جدید SAM 2 همانند مدل اول متنباز و رایگان است.