فناوری اطلاعات

April 22, 2023
12:37 شنبه، 2ام اردیبهشتماه 1402
کد خبر: 144807

از دریاچه داده چه می‌دانید؟

مفهوم دریاچه داده را می‌توان اینگونه توضیح داد که اگر انبار داده را مشابه یک بطری آب تصفیه‌شده، بسته‌بندی شده و آماده مصرف در نظر بگیریم، دریاچه داده (همانند نام آن) دریاچه‌ای است که آب از منابع مختلف ( آب باران، چشمه‌ها، رودها یا منابع دیگر) در آن سرازیر شده و افراد می‌توانند از آب دریاچه برای شنا، آشامیدن یا حتی نمونه‌برداری استفاده کنند.
 
امروزه داده‌ها بسیار سریع در حال شکل‌گیری هستند، کارشناسان بر این عقیده هستند که رشد حجم بالای داده‌ها باعث شده تا مدل‌های ذخیره‌سازی و تحلیل‌های مبتنی بر رایانه‌های منفرد، پاسخ‌گوی آن‌ها نباشند، از سوی دیگر عوامل متعددی باعث شده تا مدل انبار داده سنتی به صورت جدی به چالش کشیده شود.
 
در این راستا مفاهیم دریاچه داده و دریاچه اطلاعات امنیتی تخصصی و نسبتاً جدید هستند؛ یک دریاچه داده یک مخزن طراحی‌شده برای ذخیره مقادیر زیادی از داده‌ها در شکل بومی است. این داده‌ها می‌توانند ساختار بندی شده، نیمه ساختار یافته یا بدون ساختار و شامل جداول، فایل‌های متنی، لاگ سیستم و بیشتر باشند.
 
این واژه توسط جیمز دیکسون، CTO، یک شرکت نرم‌افزاری هوش تجاری، به کار گرفته شد و هدف از آن ایجاد یک مخزن بزرگ است که مقادیر گسترده‌ای از داده‌ها را می توان در آن ریخت. کاربران کسب‌وکار تماماً می‌توانند وارد دریاچه داده‌ها شوند و نوع اطلاعاتی که برای کاربرد آن‌ها نیاز دارند را دریافت کنند. این مفهوم با انفجار داده‌های ماشینی و کاهش سریع هزینه ذخیره‌سازی به محبوبیت رسید. در صورتی‌که بخواهیم تفاوت‌های رویکرد دریاچه داده و انبار داده در تحلیل داده‌ها را بیان کنیم، می‌توانیم با توجه به آنچه که در برخی از سایت‌های تخصصی این حوزه در تعریف این مفهوم مطرح شده، به موارد زیر به عنوان تفاوت‌های اساسی اشاره کنیم:
 
داده‌ها کاملاً در دریاچه داده قرار می‌گیرند و از هیچ داده‌ای صرف‌نظر نمی‌شود؛ این رویکرد برخلاف رویکرد انبار داده در ذخیره‌سازی و پالایش داده‌هاست که در آن تنها اطلاعاتی در انبار داده قرار می‌گیرد که بتواند در تحلیل‌ها مورد استفاده قرار گیرد. داده‌های پایین‌ترین سطوح (مثلاً توضیحات یک فرد در یک مقاله یا یک وب سایت) بدون تغییر یا با حداقل تغییرات به دریاچه داده منتقل می‌شوند که این مهم، برخلاف رویکرد انبار داده است که تبدیل و تغییر (Transformation) یکی از پیش‌فرض‌های اساسی و اولیه ورود اطلاعات به آن محسوب می‌شود.
 
بر این اساس در مثال قبل ممکن است برای ذخیره‌سازی توضیحات یک فرد در یک مقاله یا وب‌سایت با مدل انبار داده تنها به استخراج کلید واژه‌ها از توضیحات و ذخیره‌سازی آن در یک جدول بانک اطلاعاتی بسنده کرد. در دریاچه داده توضیحات فرد، نحوه پیمایش یک سایت توسط کاربر و اطلاعات سنسورهایی که توسط دستگاه‌ها تولید شده است، بدون توجه به منبع و ساختار ذخیره می‌شوند.  این رویکرد ذخیره‌سازی داده‌ها که در آن داده، بدون توجه به ساختار و منبع ذخیره می‌شود، اصطلاحاً «خواندن با ساختار» (Schema On Read) نامیده می‌شود. این رویکردی متفاوت از ذخیره‌سازی داده‌ها در انبار داده است که در آن، ابتدا ساختاری که داده‌ها باید در آن قرار گیرد طراحی می‌شود و سپس داده ها در ساختار قرار می‌گیرند که به آن نوشتن با ساختار (Schema On Write) گفته می‌شود.  
 
نزدیک به ۸۰ درصد از استفاده‌کنندگان از اطلاعات در بیشتر سازمان‌ها، استفاده‌کنندگان عملیاتی محسوب می‌شوند. نیاز این دسته از کاربران این است که گزارش‌ها و شاخص‌های مورد نیاز خود را مشاهده کنند. این موارد معمولاً دارای ساختاری از پیش تعریف‌شده هستند و رویکرد انبار داده به دلیل ساخت‌یافته بودن اطلاعات، برای این دسته از کاربران قابل درک و استفاده است.
 
درصد کمی از کاربران سازمان‌ها نیازمند تحلیل‌های عمیق و پیچیده بر روی داده‌ها هستند. دانشمندان و تحلیل‌گران داده (Data Scientists) جزو این دسته از کاربران قرار می‌گیرند این گروه از کاربران، از انواع داده‌های ساخت‌یافته یا ساخت‌نیافته و ابزارهای تجزیه و تحلیل پیشرفته بر روی داده‌ها مانند داده‌کاوی، متن‌کاوی، تحلیل آماری، مدل‌های پیش‌بینی‌کننده، تحلیل جریان پیمایش یک سایت و روش‌های مشابه استفاده می‌کنند. اما معمولا ۱۰ درصد از کاربران یک سازمان نیاز به تجزیه و تحلیل عمیق داده‌ها پیدا می‌کنند. این دسته از کاربران می‌توانند از انبار داده برای تجزیه و تحلیل‌های مورد نیاز خود استفاده کنند اما گاهی اوقات، نیاز به دسترسی به منبع اصلی داده مورد نیاز است و کاربران ناچارند به داده‌ها در سیستم‌های تولیدکننده آن مراجعه کنند.
 
با توجه به اینکه در فرآیند تحلیل‌های پیشرفته، تحلیل‌گر از قبل، درباره اینکه چه ویژگی‌ها یا داده‌هایی موردنیاز هستند و از کدام‌یک باید صرف‌نظر شود آگاه نیست، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات بهتر می‌تواند به نیاز تحلیلیِ این دسته از کاربران پاسخ دهد. در هر حال تفاوت‌های کلیدی بین دریاچه‌های داده و انبارهای داده وجود دارد که به طور سنتی برای تحلیل داده‌ها مورد استفاده قرار گرفته‌اند. اول، انبارهای داده برای داده‌های ساختار یافته طراحی شده‌اند.
 
یک واقعیت اینکه دریاچه‌های داده یک طرح را به داده‌ها تحمیل نمی‌کنند؛ در عوض، زمانی که داده‌ها خوانده ‌شده و یا از دریاچه داده‌ها بیرون کشیده می‌شوند، طرح مورد استفاده قرار می‌گیرد در نهایت دریاچه‌های داده در محبوبیت با افزایش داده‌های دانشمندان که تمایل به کار بیشتر در یک تبلیغ دارند، نسبت به تحلیل‌گران کسب و کار قبلی، رشد کرده‌اند.
  • مشترک شوید!

    برای عضویت در خبرنامه روزانه ایستنا؛ نشانی پست الکترونیکی خود را در فرم زیر وارد نمایید. پس از آن به صورت خودکار ایمیلی به نشانی شما ارسال میشود، برای تکمیل عضویت خود و تایید صحت نشانی پست الکترونیک وارد شده، می بایست بر روی لینکی که در این ایمیل برایتان ارسال شده کلیک نمایید. پس از آن پیامی مبنی بر تکمیل عضویت شما در خبرنامه روزانه ایستنا نمایش داده میشود.

    با عضویت در خبرنامه پیامکی آژانس خبری فناوری اطلاعات و ارتباطات (ایستنا) به طور روزانه آخرین اخبار، گزارشها و تحلیل های حوزه فناوری اطلاعات و ارتباطات را در هر لحظه و هر کجا از طریق پیام کوتاه دریافت خواهید کرد. برای عضویت در این خبرنامه، مشترکین سیمکارت های همراه اول لازم است عبارت 150 را به شماره 201464 و مشترکین سیمکارت های ایرانسل عبارت ozv ictn را به شماره ۸۲۸۲ ارسال کنند. دریافت موفق هر بسته خبری که محتوی پیامکی با حجم ۵پیامک بوده و ۴ تا ۶ عنوان خبری را شامل میشود، ۳۵۰ ریال برای مشترک هزینه در بردارد که در صورتحساب ارسالی از سوی اپراتور مربوطه محاسبه و از اعتبار موجود در حساب مشترکین سیمکارت های دائمی کسر میشود. بخشی از این درآمد این سرویس از سوی اپراتور میزبان شما به ایستنا پرداخت میشود. مشترکین در هر لحظه براساس دستورالعمل اعلامی در پایان هر بسته خبری قادر خواهند بود اشتراک خود را در این سرویس لغو کنند. هزینه دریافت هر بسته خبری برای مشترکین صرفا ۳۵۰ ریال خواهد بود و این هزینه برای مشترکین در حال استفاده از خدمات رومینگ بین الملل اپراتورهای همراه اول و ایرانسل هم هزینه اضافه ای در بر نخواهد داشت.