تا %60 تخفیف خرید برای 7 نفر با صدور مدرک فقط تا
00 00 00

معرفی دیتاست برای پروژه های داده کاوی و یادگیری ماشین

محمد مرادی
محمد مرادی
1 پسند
42 بازدید
0 نظر
27 روز قبل

مهمترین راه عملیاتی برای یادگیری و تسلط بر فرایندهای داده کاوی، یادگیری ماشین و دیتا ساینس تمرین است و تمرین و در واقع هیچ راه جایگزین موثری برای آن وجود ندارد. تا اینجای کار مشکلی وجود ندارد و تقریبا همه با این گفته موافق هستند ولی مساله زمانی ایجاد می شود که می خواهیم شروع به انجام تمرین کنیم و دانسته های خود را ارزیابی کنیم.

شاید چالشی ترین مساله در این زمان به دست آوردن داده های مناسب برای تمرین و آزمایش روش ها و الگوریتم ها می باشد. شاید تصور بشود که جمع آوری داده کار چندان دشواری نیست و به راحتی می توان - مثلا- چند صد رکورد داده ای را جمع آوری کرد و آزمایش ها را شروع نمود. حال اینکه، دوستانی که تجربه جمع آوری داده ها را دارند به خوبی می دانند که این کار بسیار دشوار، زمانبر و در برخی موارد رنج آور می شود، به خصوص زمانی که به سرعت نیاز به حجم قابل توجهی از داده ها داریم.

اینجاست که مساله استفاده از دیتاست ها (مجموعه های داده ای) - که غالبا زحمات زیادی برای جمع آوری آن ها کشیده شده و توسط سازمانها و گروه های معتبر ارائه می شوند- اهمیت بسیار زیادی پیدا می کند. علاوه بر مسائلی که پیشتر گفته شد، استفاده از دیتاست ها برای پیش نمایش خروجی الگوریتم ها (ارائه گزارش های اولیه در قالب مثال از آنچه در انتظار مشتری خواهد بود) و البته فعالیت های پژوهشی و نگارش پایان نامه و مقاله، ضروری می باشد.

در اینجا قصد نداریم ویژگی های یک دیتاست خوب را بررسی کنیم چرا که پرداختن به این موضوع مهم به تنهایی احتیاج به نوشتاری دیگر دارد ولی اهمیت این مساله را به هیچ عنوان نباید فراموش کرد. چرا که، وجود مشکلات عدیده در یک دیتاست شامل فرایند نامناسب جمع آوری داده ها و عدم توزیع مناسب، وجود داده های مفقود (Missing Data) و مواردی از این دست بر کیفیت دیتاست و به تبع آن خروجی الگوریتم ها تاثیر به سزایی می گذارد. بر این اساس، در انتخاب دیتاست ها باید توجه کافی به خرج داده شود.

اگرچه زبان های برنامه نویسی معمولا به همراه خود نمونه دیتاست های خوبی را ارائه می کنند ( همانند کتابخانه های مختلف زبان R که به همراه خود دیتاست های متعددی را برای آزمایش روش ها در اختیار قرار می دهند)، دسترسی به مجموعه های کاملی از دیتاست ها می تواند خیال برنامه نویس ها را تا حدود زیادی راحت کند.

بر همین اساس، در این مقاله چند مجموعه مهم از دیتاست های معروف که می توانند در فرایندهای دیتا ساینس بسیار مفید واقع شوند را معرفی می کنیم.

 

مجموعه های داده ای دانشگاه کالیفرنیا - ارواین

این مجموعه را شاید بتوان یکی از کامل ترین و در عین حال معتبرترین مجموعه دیتاست ها دانست که با طبقه بندی مناسب مجموعه های داده ای برای کاربردهای مختلف، طیف گسترده ای از دیتاست ها را در اختیار پژوهگشران قرار می دهد.

معرفی دیتاست برای پروژه های داده کاوی و یادگیری ماشین

Kaggle

Kaggle به عنوان یکی از بزرگترین جامعه های مجازی در حوزه دیتا ساینس اطلاعات و ابزارهای قدرتمندی را به فعالان این حوزه ارائه می کند. دیتاست های جالبی که این مجموعه در اختیار پژوهشگران قرار می دهد می تواند برای انجام پروژه های مختلف راهگشا باشد. امکان جالب این مجموعه، قابلیت افزودن دیتاست هایی است که خود کاربران ایجاد کرده اند.

دیتاست های یادگیری ماشین

AWS Public Data sets

از مجوعه بزرگی مثل آمازون که مدعی فعالیت در بیشتر حوزه های مرتبط با فناوری است انتظار می رود که دیتاست های متنوعی را نیز در اختیار پژوهگشران قرار دهد. خوشبختانه، آمازون به این نیاز پاسخ داده  و مجموعه قابل توجهی از دیتاست ها در حوزه های مختلف را به صورت رایگان در اختیار برنامه نویس ها و پژوهشگران قرار داده است.  همانگونه که در شکل زیر هم مشاهده می کنید، در حال حاضر 250 دیتاست در این مجموعه در دسترس علاقه مندان می باشد.

دیتاست های یادگیری ماشین

علاوه بر موارد فوق، مجموعه دیتاست های گوگل (شکل زیر) و مجموعه دیتاست های ارائه شده در وب سایت datasciencedojo می تواند بسیاری از نیازهای ما را در تمرین و آزمایش الگوریتم ها و روش های یادگیری ماشین و دیتا ساینس مرتفع نماید.

دیتاست های یادگیری ماشین

نظر شما
برای ارسال نظر باید وارد شوید.
0 نظر

هیچ نظری ارسال نشده است! اولین نظر برای این مطلب را شما ارسال کنید...