تعریف «کلان داده» همان چیزی است که از نام آن برمیآید یعنی مجموعه گستردهای از دادههای حجیم و پیچیده که توسط استفاده عمومی از اینترنت ایجاد شده است. هر کدام از ما در حقیقت بخشی از این کلان داده را تولید میکنیم و بدون آنکه مطلع باشیم در جریان زندگی روزمره ردپای دیجیتالی خود را در گوشه و کنار دنیای مجازی جا میگذاریم.
اثر دیجیتالی به جا مانده از ما در زمینههای مختلف بهکار گرفته میشود و از بینش هر یک از کاربران گرفته تا نحوه تعاملات شخصی و برنامهریزیهای او برای آینده را مشخص میکند. همین مسأله باعث شده است شرکتهای بزرگ نظیر گوگل و فیسبوک از این ردپای دیجیتالی استفاده کنند تا گرایشهای سیاسی ما را در جریان برگزاری انتخابات بهدست آورند یا دریابند به کدام محصولات یا برندهای تجاری علاقه بیشتری داریم. همزمان با آغاز سال 2020 میلادی مرکز تحقیقاتی گارتنر اعلام کرد هر یک از ساکنان کره خاکی بهطور میانگین در هر ثانیه حدود 1.7 مگابایت داده تولید میکند و شرکتهای بزرگ برای استفاده از این اطلاعات برنامهریزی دقیق کردهاند. همین مسأله باعث شد «آژانس امنیت ملی امریکا» همزمان با نزدیک شدن به انتخابات ریاست جمهوری این کشور هفته گذشته بیانیهای را صادر کند و طی آن هشدار دهد که: «فناوری ما را بهتر از خودمان میشناسد و میتواند مردم را بهسمت اهداف از پیش تعیین شده ببرد.»
این کلان دادههای نگران کننده
فردی را تصور کنید که هر صبح ساعت 6:45 دقیقه گوشی او زنگ میزند و اپلیکیشن مخصوص گوگل به او یادآوری میکند که حدود یک ساعت دیگر باید در محل کار خود حاضر باشد. سپس او به کمک همان اپلیکیشن کوتاهترین و خلوتترین مسیرهای دسترسی را طی میکند و در طول روز قرارهای ملاقات خود را هم از طریق گوشی هماهنگ میکند تا به تمامی آنها رسیدگی کند. گوگل از این طریق سفرها، قرارهای ملاقات، گشت وگذار اینترنتی، غذاهای اینترنتی سفارش داده شده، خریدهای آنلاین و… را دنبال میکند و همه اتفاقات مربوط به هر یک از کاربران را زیر نظر میگیرد. ممکن است این سناریو جالب بهنظر برسد، ولی همین اطلاعاتی که از آنها بیخبریم دردسرهای فراوانی را هم بهدنبال خواهد داشت.
آژانس امنیت ملی امریکا در بیانیه اخیر خود توضیح داده است که متناسب با حجم و پیچیدگیهای مربوط به کلان دادهها، شرکتها هم بهصورت دقیقتر از ابزارهای هوش مصنوعی برای تحلیل این قبیل اطلاعات استفاده میکنند. این اطلاعات در ایالات متحده بدون هیچ دردسری توسط شرکتهای فناوری ذخیره میشوند. کارگزاران داده، اطلاعات مورد نظر خود را از منابع مختلف جمعآوری میکنند و سپس برای هر کاربر، یک پروفایل پیچیده شکل میگیرد که بخشی از دادههای موجود در آن با اهداف بازاریابی و بخش دیگر برای اهداف مهمتر استفاده میشود.
در حالی که آژانس امنیت ملی امریکا در مورد آینده تحلیل دادهها بسیار نگران است، اتحادیه اروپا پس از سه سال مذاکره از مه 2018 آییننامه حفاظت از دادههای عمومی (GDPR) را به تصویب رساند. بهطور خلاصه، این قانون به شهروندان اروپایی امکان میدهد که برای ردپای اطلاعاتی که از خود بهجا میگذارند تصمیم بگیرند و برای استفاده از آنها توسط سایتهای اینترنتی مختلف، رضایت شخصی خود را اعلام کنند. بر این اساس هر یک از شهروندان اروپایی بهطور دقیق میدانند که شرکتهای مختلف چه بخشی از اطلاعات آنها را چگونه مورد استفاده قرار میدهند. این فرآیند در دنیای مجازی با عنوان «حق فراموشی اطلاعات» شهرت یافته است تا در صورتی که یک کاربر تمایل نداشت، دنیای مجازی اطلاعات او را به خاطر نسپارد. سایت رسمی اتحادیه اروپا در این خصوص توضیح داده است: «در قلب قانون GDPR جلوی هرگونه تخلفات در مقابل اصول حق حریم شخصی و حق فراموشی اطلاعات لحاظ شده است. در صورت بروز این نوع نقض اطلاعاتی شرکت مربوطه میتواند تا 20 میلیون دلار جریمه شود یا معادل 4 درصد از درآمد سالانه آنها دریافت شود.»
آمار و ارقام اطلاعاتی
آژانس امنیت ملی امریکا در گزارش خود اعلام کرده است که اگر بهطور میانگین هر کاربر جهانی هر ثانیه 1.7 مگابایت اطلاعات تولید کند، پایان سال 2020 میلادی 40تریلیون گیگابایت معادل 40 زتابایت داده در اختیار خواهیم داشت. این در حالی است که یک دهه قبل یعنی سال 2010 میلادی تنها 1.2 زتابایت اطلاعات در جهان تولید شده بود و این مسأله نشان میدهد فناوری بیش از هر زمان دیگر ما را تحت سلطه خود گرفته است. نکته قابل توجه این است که 90 درصد اطلاعاتی که هماکنون در سراسر جهان وجود دارد طی دو سال گذشته ایجاد شده است و این مسأله نشان میدهد هر لحظه بدون آنکه مطلع باشیم در حال تولید اطلاعات هستیم. لازم به ذکر است تعداد کاربران آنلاین جهان سال 2010 میلادی حدود 2 میلیارد و هماکنون بیش از 4.5 میلیارد نفر گزارش شده است.
در این میان کارشناسان برای آنکه نشان دهند حجم اطلاعات تولید شده در جهان تا چه اندازه زیاد است یک برآورد جالب انجام دادهاند و این سؤال را مطرح کردهاند که اگر قرار باشد تمام اطلاعات موجود را دانلود کنیم چه اندازه زمان میبرد. برای پاسخ به این سؤال حجم کلی اطلاعات تولید شده در سال 2020 میلادی معادل 40 زتابایت در نظر گرفته شده است. با این توضیح اگر میانگین سرعت دانلود 50 مگابیت در ثانیه باشد حدود 185.3 میلیون سال طول میکشد تا بتوانیم تمام این اطلاعات را دانلود کنیم.
حجم اطلاعات تولید شده توسط کاربران جهانی هرلحظه در حال افزایش است و شرکتهای بزرگ هر اندازه روی هوش مصنوعی و فناوریهای مرتبط برای تحلیل این کلان دادهها سرمایهگذاری میکنند، باز هم نمیتوانند همه آنها را مورد استفاده قرار دهند. در سال 2010 میلادی یعنی یک دهه قبل تنها 3 درصد از مجموع اطلاعاتی که در سراسر جهان تولید شد مورد تحلیل قرار گرفت و پیشبینی میشود این رقم تا پایان امسال به 11 درصد برسد.
کارشناسان به این نتیجه رسیدهاند که سال 2020 میلادی دادهها بهعنوان ارزشمندترین منبع جهان جایگزین نفت میشوند. مقایسه ارزش اطلاعات با نفت از سالها قبل انجام شده است و هماکنون اختلاف این دو منبع ارزشمند بهحداقل رسیده است. دادهها بر خلاف نفت براحتی میتوانند استخراج شوند و کارشناسان از آنها بهعنوان منبع بیپایان یاد میکنند. از این گذشته باید توجه داشت که بر خلاف نفت ما میتوانیم از دادهها چندین بار استفاده کنیم و بینش جدید در مورد آنها به دست آوریم. مقایسه بین نفت و اطلاعات ما را به این نتیجه میرساند که باید تا حد ممکن از اطلاعات استفاده کنیم و اگر فقط همین یک کار را بدرستی انجام دهیم، موفقیت مالی خود را تضمین خواهیم کرد.