محمد مرادی
پژوهشگر و تحلیلگر داده

تحلیل داده اکتشافی (Exploratory Data Analysis) چیست؟

وقتی صحبت از تحلیل داده به میان می آید، چندین سوال مهم به ذهن خطور می کند.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران
  • داده ها در چه موردی هستند (مربوط به چه چیزی هستند)؟
  • حجم و توزیع آن ها به چه صورت است؟
  • رابطه آیتم های داده ای (Data Points) با یکدیگر به چه صورت است؟
  • باید با این داده ها چه کار کرد؟

این سوالات زمانی حساس تر شده و از اهمیت بیشتری برخوردار خواهند شد که داده ها برای ما ناشناخته باشند و به اصطلاح دانش دامنه ای (Domain Knowledge) کافی درباره داده ها نداشته باشیم.

ورود به فرایند تحلیل داده ها و سناریوهای داده کاوی در چنین مواردی مانند اقدام به ورود به یک غار ناشناخته و البته بدون چراغ قوه (و هر ابزار روشنایی بخش دیگر!) است و آنچه در پی خواهد آمد برای ما ناشناخته است. در بهترین حالت، اگر به سلامت از این غار خارج شویم، چیز خاصی برای ارائه نخواهیم داشت و به عنوان مثال نمی توانیم نقشه خوبی از این غار و عوارض طبیعی داخل آن به دیگران ارائه کنیم.

این موقعیت دقیقا جایی است که تحلیل داده اکتشافی (که به اختصار به آن EDA گفته می شود) وارد بازی می شود و کنترل امور را به دست می گیرد.

اگر بخواهیم تعریفی کلی از این مفهوم داشته باشیم، می توانیم آن را به صورت زیر بیان کنیم:

تحلیل داده اکتشافی یک فرایند حساس، مهم و کاربردی است به منظور ارزیابی کلی از داده ها، شناسایی اولیه الگوها، مشخص کردن انحرافات و اعوجاجات و بررسی فرضیات اولیه در داده ها و اعتبار سنجی حدسیات براساس خلاصه سازی آماری و (غالبا) گرافیکی داده ها.

تحلیل اکتشافی داده ها - نمودار

به بیان ساده تر، پیش از ورود به فرایند تحلیل و داده کاوی، با بررسی اولیه داده ها از طریق بازنمایی بصری و گزارش های آماری، می توانیم به دیدی کلی از داده ها دست پیدا کنیم و بدانیم که در مجموعه داده ای مورد نظر چه خبر است و در انتها باید انتظار چه چیزهایی را داشته باشیم.

چنین دانش اولیه ای به ما کمک می کند تا بتوانیم روش های مناسب داده کاوی و تحلیل داده را برای مواجهه با مجموعه داده ای موردنظر انتخاب کنیم و از فرایند مورد نظر انتظارات منطقی داشته باشیم. علاوه بر این، چگونگی برخورد با نویزها و انحرافات در این داده ها را نیز می توان براساس همین شناخت اولیه مدیریت نمود.

پس به عنوان جمع بندی می توان گفت این فرایند تکراری (تکرار شونده) که در واقع باید آن را یک چرخه دانست، به ما کمک می کند تا:

  • سوالاتمان را درباره داده ها تولید کنیم (مطرح کنیم)
  • از طریق مدلسازی و بازنمایی بصری (Visualization) به دنبال پاسخ سوالاتمان برویم
  • و با توجه به یافته ها، سوالاتمان را اصلاح کنیم و یا به سوالات جدیدی برسیم.

خروجی چنین فرایندی باعث می شود تا بتوانیم به دید جامعی از داده ها برسیم و انتظار خروجی بهینه از فرایند تحلیل داده ها را داشته باشیم، نتیجه ای که منعکس کننده حقایق موجود در داده هاست و نه فقط مجموعه ای از اعداد و ارقام و نمودارها.

اگر پیش از این، با فرایند تحلیل اکتشافی داده ها آشنا نبوده اید، فرایند ترسیم شده در تصویر زیر می تواند به عنوان یک الگوی مناسب، گام های انجام چنین فرایندی را تشریح کند.

تحلیل اکتشافی داده ها

 


محمد مرادی
محمد مرادی

پژوهشگر و تحلیلگر داده

کارشناس ارشد مهندسی نرم افزار، پژوهشگر، نویسنده، تحلیلگر داده و طراح وب. علاقه مند به یادگیری و به اشتراک گذاری آموخته ها.

نظرات