مدیر سابق هوش مصنوعی تسلا GPT-2 را تنها در ۲۴ ساعت و با هزینه ۶۷۲ دلار بازسازی کرد
هزینه و زمان مورد نیاز برای آموزش مدلهای هوش مصنوعی در سطح GPT-2 نسبت به چند سال قبل بهطور چشمگیری کاهش یافته است.
مدل GPT-2 شرکت OpenAI در سال ۲۰۱۹، معرفی شد و طبق گزارشها، هزینهی هر ساعت آموزش آن ۲۵۶ دلار بود. اکنون با گذشت پنج سال به GPT-4 رسیدهایم و پیشرفتهای سختافزاری، نرمافزاری و دادهای باعث شده است آموزش مدل زبانی بزرگ (LLM)، زمان و هزینهی کمتری ببرد و بهعنوان مثال آندری کارپاتی، مدیر سابق هوش مصنوعی تسلا موفق شد مدل GPT-2 را فقط در ۲۴ ساعت با هزینهی ۶۷۲ دلار بازسازی کند.
مهمترین عامل کاهش هزینهی آموزش مدلهای هوش مصنوعی این است که فقط از هشت تراشهی انویدیا H100 استفاده میشود که هزینه را به ۲۸ دلار در ساعت کاهش میدهد؛ بدینترتیب هزینهی مذکور تقریباً ۹۰ درصد نسبت به پنج سال قبل کمتر خواهد بود.
انویدیا تراشهی H100 را در سال ۲۰۲۳ معرفی کرد، بنابراین OpenAI هنگام آموزش GPT-2 احتمالاً از سختافزار بسیار ضعیفتری استفاده کرده است. بههرحال، تعداد ساعات مورد نیاز برای آموزش GPT-2 را نمیدانیم و درمقاممقایسه، هزینهی آموزش GPT-4 بیش از ۱۰۰ میلیون دلار ارزیابی میشود.
مورد دیگری که باعث شد بازسازی GPT-2 بسیار سریعتر باشد، پیادهسازی مستقیم آموزش GPT است. کارپاتی میگوید: «ازآنجاکه llm.c پیادهسازی مستقیم آموزش GPT با هستههای CUDA محسوب میشود، نیازمندیهای آن به حداقل میرسد و دیگر به Conda، مفسرهای زبان برنامهنویسی پایتون، نصب کتابخانهها و غیره نیاز ندارد. شما یک نود ابری با پردازندهی گرافیکی راهاندازی میکنید، در صورت تمایل انویدیا cuDNN ،NCCL یا MPI را نصب میکنید، دادههای باینری را دانلود و در نهایت کامپایل و اجرا میکنید و در عرض چند دقیقه کارتان شروع میشود. پس از ۲۴ ساعت میتوانید از مدل خود بهره ببرید.»
نماد شرکت OpenAI درکنار نام GPT-2 با زمینه سایه دار صورتی و آبی
Medium
پروژهی llm.c بهعنوان بخشی از یک ویدیو آموزشی آغاز شد، اما در نهایت به پروژهای تبدیل شد که کارپاتی پس از درگیر شدن با برخی مسائل PyTorch، آن را از ابتدا ساخت.
پیشرفتهای سختافزاری، نرمافزاری و دادههای آموزشی به معنای ارزانتر شدن آموزش مدلهای پیشرو هوش مصنوعی نیست. داریو آمودئی، مدیرعامل Anthropic میگوید مدلهای هوش مصنوعی که امروزه آموزش داده میشوند، از قبل یک میلیارد دلار هزینه دارند و هزینهی مدلهای گرانتر تا سال ۲۰۲۵ به ۱۰۰ میلیارد دلار میرسد.
دلیل بالابودن هزینهی آموزش مدلهای پیشرو هوش مصنوعی این است که اگرچه سختافزار قدرتمندتر میشود، قیمت آن هم افزایش مییابد. برای مثال، هر تراشهی انویدیا H100 درحالحاضر ۴۰ هزار دلار قیمت دارد؛ البته انتظار میرود نسل بعدی تراشههای هوش مصنوعی Blackwell حدود ۷۰ هزار دلار قیمت داشته باشند و هزینهی رک سرور کامل به سه میلیون دلار یا بالاتر برسد، مگر اینکه به پیشرفتهای سختافزاریای مانند تراشهی هوش مصنوعی Sohu دست یابیم.
علاوه بر مسائل مربوط به هزینه، نیاز فزایندهی مراکز دادهی هوش مصنوعی به برق، نگرانی بسیاری از کارشناسان را برانگیخته است. فقط یک تراشهی H100 که با میانگین بهرهوری سالانهی ۶۱ درصد کار میکند، هر سال ۳٫۷ مگاوات ساعت برق مصرف میکند.
با در نظر گرفتن فروش بیش از ۳٫۸ میلیون پردازندهی گرافیکی هوش مصنوعی ساخت انویدیا و سایر شرکتهای فعال در سال گذشته، این عدد به ۱۴٫۳ تراوات ساعت برق در سال میرسد که برای تأمین انرژی ۱٫۳ میلیون خانوار آمریکایی کافی است.
مدیرعامل دیپمایند گوگل میگوید مدلهای هوش مصنوعی کنونی همچنان در سطح هوش یک گربه هستند؛ بنابراین، همچنان باید میلیاردها دلار دیگر در مدلهای آینده سرمایهگذاری کنیم؛ اما اگر میخواهید مدل هوش مصنوعی خود را با استفاده از مدلهای قدیمیتر بسازید نیازی به چند میلیون دلار سرمایه نخواهید داشت و اگر دانش کافی برای ساخت مدل داشته باشید، این کار فقط چند صد دلار نیاز دارد.