تحلیل دادههای تاریک، وضعیت سازمانها را از نظر رشد و بهرهوری، متحول میکند. بر اساس گزارش IDC (شرکت ارائهدهنده خدمات مشاوره و رویدادهای فناوری اطلاعات) سازمانهایی که همه دادههای موجود را تحلیل میکنند و اطلاعات کاربردی را از آنها به دست میآورند، بیش از ۴۳۰ میلیارد دلار افزایش بهرهوری نسبت به آن دسته از همتایان خود کسب خواهند کرد که دادهها را تحلیل نمیکنند.
تا امروز شرکتها فقط بخش کوچکی از جهان دیجیتالی را به خاطر ارزش تحلیلی آن بررسی کردهاند. IDC تخمین میزند که تا سال ۲۰۲۰ حدود ۳۷ درصد از جهان دیجیتالی شامل دادههایی خواهد بود که در صورت تحلیل، اطلاعات ارزشمندی ارائه خواهند داد.
داده تاریک در عصر فناوری
در عصر فناوری، داده به منزله پول است. اطلاعات خام تولیدشده در حجمهای زیاد که از طریق رسانههای اجتماعی، سیستمهای تراکنشی، موتورهای جستوجو و تکنولوژیهای بیشمار دیگر مدفون شده و بعد از تحلیل، آشکار میشود، میتواند فرضیههایی برای تصمیمگیری و ایجاد مسیرهای جدید در آینده ارائه دهد.
تا همین اواخر رویکرد منفعلانه به تحلیل و داده اقدامی رایج بود. سازمانها با هدف ارائه گزارش، از قابلیتهای تحلیل برای محدود کردن نمونههای داده ساختاریافته استفاده میکردند. اما مسائل مربوط به کیفیت در زمینه دادهها و ناتوانی در زمینه یکپارچهسازی دادهها در سیستمهای سازمانی، منجر به ایجاد بینشهایی میشد که در بهترین حالت محدود و در بدترین حالت گمراهکننده بودند.
امروزه مدیران ارشد اطلاعات از ابزارهای مختلف مثل یادگیری ماشین، بصریسازی، پردازش زبان طبیعی و تحلیلهای شناختی برای پاسخ دادن به سوالات و شناسایی بینشها و الگوهای ارزشمند استفاده میکنند؛ کاری که چند سال قبل غیرممکن به نظر میآمد؛ اما امروزه تحلیل بر حوزه فناوری اطلاعات و سرمایهگذاری غلبه دارد.
تحلیل تاریک در درجه اول روی دادههای خام مبتنی بر متن تمرکز دارد که تحلیل نشدهاند و تاکید آنها بر دادههای غیرساختاریافته یا ساختارنیافته است که امکان دارد شامل چیزهایی مانند پیامهای متنی، اسناد، ایمیل، فایلهای صوتی و ویدئویی و تصاویر باشد. بررسیهای تحلیل تاریک همچنین وب عمیق، وب پنهان یا deep web را هدف قرار میدهد که هر چیز آنلاینی را در بر میگیرد که توسط موتورهای جستوجو نشان داده نمیشود؛ از جمله مجموعهای از سایتهای غیرقابل دسترس و ناشناس که با عنوان دارکوب یا وب تاریک شناخته میشوند. مصاحبه دقیق اندازه وب پنهان غیرممکن است؛ اما برخی تحمین میزنند وب تاریک ۵۰۰ برابر بزرگتر از وب آشکار یا surface web است که اکثر مردم به طور روزانه از آن استفاده میکنند.
در فضای کسبوکار که داده به عنوان منبع مالی، مسالهای رقابتی است، منابع بزرگ بررسینشده بسیاری وجود دارد. علاوه بر این، با گسترش بیشتر اینترنت اشیا، شاهد رشد انفجاری داده خواهیم بود.
به روشنایی مجال دهید
هنگامی که به پتانسیل تحلیل فکر میکنیم، امکاناتی که با آنها مواجه میشویم محدود به داده ساختاریافته است که در سیستمهای ما وجود دارد. تحلیل تاریک این محدودیتها را حذف میکند. کوششهای تحلیل تاریک عموماً متمرکز بر سه بعد زیر است:
دادههای بدون استفاده که در مالکیت شما هستند: در بسیاری از سازمانها، مجموعههای بزرگی از داده ساختاریافته و غیرساختاریافته وجود دارد که استفادهای از آنها نمیشود. به دادههای ساختاریافته توجه نمیشود چون ایجاد ارتباط بین مجموعه دادههای متمایز دشوار است، به ویژه هنگامی که اطلاعات خارج از سیستم، عملکرد یا واحد کسبوکار قرار دارد.
در زمینه دادههای غیرساختاریافته سنتی ایمیلها، یادداشتها، پیامها، اسناد، لاگها و هشدارهای دستگاهها از قبیل دستگاههای اینترنت اشیا را در نظر بگیرید. این اطلاعات متن محورند و در سازمان حضور دارند؛ اما از آنها استفاده نمیشود، چون در پایگاه داده مربوطه وجود ندارند یا چون ابزارهای تحلیل آنها در دست نیست. ممکن است در این مجموعه داده غیرساختاریافته اطلاعات ارزشمندی در مورد قیمتها، رفتار مشتری و رقیبان وجود داشته باشد. همچنین در مورد شرکتهای چندملیتی ممکن است دادههای ارزشمندی وجود داشته باشد که ترجمه نشدهاند، چون در اصل به زبان انگلیسی نبودهاند.
دادههای غیرساختاریافته غیرسنتی: بعد دوم تحلیل تاریک بر دسته متفاوتی از دادههای غیرساختاریافته تمرکز میکند که نمیتواند با استفاده از تکنیکهای تحلیل و گزارشدهی سنتی استخراج شود؛ مثل فایلهای ویدئویی و صوتی و تصاویر. شرکتها با استفاده از الگوی شناسایی پیشرفته، بینایی ماشین و تحلیل صدا و ویدئو میتوانند دادههای فرمتهای غیرسنتی را برای درک بهتر کارمندان، مشتریان، عملیات و بازارها استخراج کنند؛ مثلاً یک خردهفروش میتواند فهم بهتری در مورد مشتری و قصد او با تحلیل تصاویر، حالتهای صورت او و حرکات بدنش داشته باشد. پارک سرگرمی میتواند با تحلیل دوربینهای امنیتی بینش گستردهتری نسبت به دادههای جمعیتی داشته باشد و مشخص کند که چقدر از مشتریان در چه ساعتی از روز، با ماشین شخصی، چه تعداد با وسایل حمل و نقل عمومی و چه تعداد پیاده به پارک میآیند.
قابلیت استفاده از تحلیل به صورت همزمان، فرصتهای منحصربهفردی را برای شناسایی و عکسالعمل مهیا میکنند. این سرنخهای دیجیتالی روشهای جدیدی از پاسخگویی و بررسی به دست میدهند. علاوه بر این در سالهای اخیر هزینههای ذخیرهسازی داده بین ۱۵ تا ۲۰ درصد کاهش یافته و امکان آرشیو کردن دادههای صوتی و تصویری را برای سازمانهای کوچک ایجاد کرده است.
داده موجود در وب تاریک: دیپوب به عنوان بعدی از تحلیل تاریک، احتمالاً بزرگترین بخش اطلاعاتی را ارائه میدهد که استفاده نمیشوند، مثل دادههای دانشگاهی، کنسرسیومها، سازمانهای دولتی، انجمنها و دیگر حوزههای شخص ثالث. اما دامنه گسترده و نبود ساختار میتواند جستوجو در این دادهها را دشوار سازد. در حال حاضر استخراج یا ماینینگ داده صرفاً متمرکز بر هدف تعریفشدهای است (مثل دادههای انجمنی خصوصی). اما در آینده احتمالاً بینشهای مفیدتری شکل خواهد گرفت. همزمان که جامعه هوشمند بر حجم و متن فعالیت دیپوب نظارت دارد تا تهدیدهای بالقوه را شناسایی کند، کسبوکارها احتمالاً به زودی با استفاده از ابزارهای جستوجوی نوظهور که برای کمک به تحقیق علمی در مورد کاربران، داده فعال و حتی سرگرمیهای موجود در دیپوب ایجاد شدهاند، قادر به ارزیابی و سازماندهی خواهند بود.