معرفی چهار مولفه اصلی کلان داده (Big Data)

معرفی چهار مولفه اصلی کلان داده (Big Data)

پژوهشگر: وحید محمدی

فارغ التحصیل مدیریت اجرایی با گرایش هوش تجاری (MBA in BI) از آکادمی هوش تجاری ایران

امروزه به علت حجم بسیار بالای دادهها و محتواهای تولید شده توسط انواع و اقسام سازمانها، اشخاص و تجهیزات، با پدیده "انفجار داده"مواجه شدهایم. گسترش فناوریهای ارتباطی همچون (فناوریهای اینترنتی) و اطلاعاتی (همچون انواع سرویس‌های الکترونیکی) جهان را با پدیده "سیل داده" مواجه کرده است. صنعت بیگ دیتا (Big Data) نشات گرفته از این پدیده‌های نوظهور است. داده‌های بزرگ یا عظیم داده ترجمه اصطلاح (Big Data) می‌باشد که معمولا به مجموعه‌ای از داده‌ها اطلاق می‌شود که اندازه آنها فراتر از حدی است که با نرم افزارهای معمول بتوان آنها را در یک زمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. Big Data مجموعه‌ای از تکنیک‌ها و تاکتیک‌هایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزش‌های بزرگی را که در مجموعه‌های بزرگ، وسیع، پیچیده و متنوع داده پنهان شده‌اند، آشکار سازند. مفهوم «اندازه» در داده‌های بزرگ بطور مستمر در حال تغییر است و به مرور بزرگتر می‌شود. از این رو با رشد روز افزون داده ­ها و نیاز به بهره برداری و تحلیل از این داده‌ها، بکارگیری زیر ساخت‌های (Big Data) از اهمیت ویژه‌ای برخوردار شده است.

تاکنون چالش­ های زیادی در حوزه کلان داده مطرح شده است که تا حدودی از جنبه تئوری، ابعاد مختلفی از مشکلات این حوزه را بیان می­ کنند. این چالش‌ها در چهار بعد اصلی حجم داده، تنوع داده‌ها، سرعت تولید داده‌ها یا نرخ تولید و قابلیت اطمینان یا صحت اطلاعات، 4Vs مطرح شدند.

حجم داده -Volume 

حجم داده‌ها به صورت نمایی در حال رشد می باشد. منابع مختلفی نظیر شبکه‌های اجتماعی، لاگ سرورهای وب، جریان های ترافیک، تصاویر ماهواره ای، جریان های صوتی، تراکنش های بانکی، محتوای صفحات وب، اسناد دولتی و غیره وجود دارد که حجم داده بسیار زیادی تولید می‌کنند. مقدار و میزان داده تولید شده در حوزه داده‌های بزرگ بسیار مهم است. در واقع حجم داده تعیین می‌کند که آیا میزان خاصی از داده‌ها در چهارچوب داده‌های بزرگ قرار می‌گیرد یا نه چرا که نام «داده های بزرگ» خود مفهوم بزرگی را به دنبال دارد.

تنوع Variety -

انواع منابع داده و تنوع در نوع داده بسیار زیاد می‌باشد که در نتیجه ساختارهای داده‌ای بسیار زیادی وجود دارد. مثلا در وب، افراد از نرم افزارها و مرورگرهای مختلفی برای ارسال اطلاعات استفاده می‌کنند. بسیاری از اطلاعات مستقیما از انسان دریافت می‌شود و بنابراین وجود خطا اجتناب ناپذیر است. این تنوع سبب می‌شود جامعیت داده تحت تاثیر قرار بگیرد. زیرا هرچه تنوع بیشتری وجود داشته باشد، احتمال بروز خطای بیشتری نیز وجود خواهد داشت.

تنوع داده‌ها برای کسانی که با تحلیل داده ها سر و کار دارند بسیار مهم است، چرا که به آنها کمک می‌کند تا به طور موثرتری بتوانند داده‌ها را در جهت مزیت‌های خود به کار بگیرند.

نرخ تولید - Velocity

داده­ ها از طریق برنامه‌های کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند با سرعت بسیار زیاد و به صورت بلا درنگ تولید می‌شوند. بسیاری از کاربردها نیاز دارند به محض ورود داده به درخواست کاربر پاسخ دهند. ممکن است در برخی موارد نتوانیم به اندازه کافی صبر کنیم تا مثلا یک گزارش در سیستم برای مدت طولانی پردازش شود.

صحت - Veracity

با توجه به این جمله "دقت تجزیه و تحلیل داده ها به صحت اطلاعات منابع داده ای وابسته است" اینکه داده‌ها از منابع مختلف دریافت می شوند، ممکن است نتوان به همه آنها اعتماد کرد. مثلا در یک شبکه اجتماعی، ممکن است نظرهای زیادی در خصوص یک موضوع خاص ارائه شود. اما اینکه آیا همه آنها صحیح و قابل اطمینان هستند، موضوعی است که نمی­توان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشت. البته بعضی از تحقیقات این چالش را به­ معنای حفظ همه مشخصه های داده اصلی بیان کرده اند که باید حفظ شود تا بتوان کیفیت و صحت داده را تضمین کرد. البته تعریف دوم در مولدهای کلان داده صدق میکند تا بتوان داده‌ای تولید کرد که نشان دهنده ویژگی های داده اصلی باشد

انتشار مطلب فوق، با ذکر منبع بلامانع می باشد.

معرفی چهار مولفه اصلی کلان داده (Big Data)