کاظم تقندیکی
استاد دانشگاه فني و حرفه اي و مجری پروژه های علم داده (داده کاوی، یادگیری ماشین، پردازش زبان طبیعی و ...)

مجموعه داده یا دیتاست در یادگیری ماشین چیست؟

یکی از مهمترین پارمترهای کلیدی برای تبدیل شدن به یک دانشمند بزرگ داده | data scientist ، تمرین با انواع مختلف مجموعه داده | دیتاست می باشد. اما به راحتی نمی توان یک مجموعه داده مناسب برای یک پروژه و نوع الگوریتم انتخابی یادگیری ماشین | ML انتخاب کرد، بنابراین در ادامه این مبحث، به شما آموزش خواهیم داد که از طریق چه منابعی می توانید به راحتی مجموعه داده هایی را مطابق با پروژه خود تهیه کنید.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

قبل از ذکر منابع مجموعه داده‌های یادگیری ماشین، ابتدا مفهموم مجموعه‌ داده را مورد بحث قرار می دهیم.

مجموعه داده | Dataset چیست؟

مجموعه داده | دیتاست، در واقع مجموعه ای از داده ها است که در آن داده ها به ترتیبی مرتب شده اند. یک مجموعه داده می تواند یک آرایه یا یک جدول از پایگاه داده باشد. جدول زیر نمونه ای از یک مجموعه داده را نشان می دهد که شامل 6 سطر و چهار ستون یا ویژگی کشور، سن، حقوق و خرید می باشد.

کشورسنحقوقخرید کرده است ؟
هند
25
12000
بله
چین
27
10000
بله
ایران
28
500
خیر
آمریکا
24
25000
بله
آلمان
26
18000
خیر

یک مجموعه داده را می توان به عنوان یک جدول یا ماتریس پایگاه داده درک کرد که در آن هر ستون در واقع یک متغیر یا ویژگی نامید. بیشترین نوع فایل پشتیبانی شده برای مجموعه داده های جدولی "فایل جدا شده با کاما" یا CSV  است.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

انواع داده ها در مجموعه داده

  • داده های عددی: مانند قیمت خانه، دما و غیره.
  • داده های طبقه بندی شده: مانند بله/خیر، درست/نادرست، آبی/سبز و غیره.
  • داده‌های ترتیبی: این داده‌ها شبیه به داده‌های طبقه‌بندی هستند، اما می‌توانند بر اساس مقایسه اندازه‌گیری شوند. مانند مقطع تحصیلی که شامل مقادیر وزنی (دیپلم، کاردانی، کارشناسی، کارشناسی ارشد و دکترا می باشد)

توجه: یک مجموعه داده دنیای واقعی دارای اندازه بزرگی است که مدیریت و پردازش آن در سطح اولیه دشوار است. بنابراین، برای تمرین الگوریتم‌های یادگیری ماشین، می‌توانیم از هر مجموعه داده ساختگی استفاده کنیم.

نیاز به مجموعه داده

برای کار با پروژه های یادگیری ماشین | machine learning، به حجم عظیمی از داده نیاز داریم، زیرا بدون داده، نمی توان مدل های ML/AI را آموزش داد. جمع آوری و آماده سازی مجموعه داده | دیتاست یکی از مهم ترین بخش ها در هنگام ایجاد یک پروژه ML/AI است. اگر مجموعه داده به خوبی آماده و از قبل پردازش نشده باشد، فناوری به کار رفته در پشت هر پروژه ML نمی تواند به درستی کار کند و دقت خروجی کمتری خواهد داشت. در طول توسعه پروژه ML، توسعه دهندگان کاملاً به مجموعه داده ها متکی هستند. در ساخت برنامه های ML، مجموعه داده ها به دو بخش تقسیم می شوند:

  • مجموعه داده های آموزشی : با استفاده از این مجموعه داده مدل یادگیری ماشین | machine learning مورد نظر را آموزش می دهیم.
  • مجموعه داده تست : با استفاده از این مجموعه داده مدل یادگیری ماشین | ML آموزش دیده را مورد ارزیابی قرار می دهیم.

Machine Learning

توجه: مجموعه داده ها حجم بالایی دارند، بنابراین برای دانلود این مجموعه داده ها باید اینترنت پرسرعتی در رایانه خود داشته باشید.

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

بهترین منابع برای دانلود مجموعه داده

در ادامه منابعی معرفی می شود که مجموعه داده های آن به صورت رایگان برای عموم در دسترس می باشد.

Kaggle Datasets

Kaggle یکی از بهترین منابع یا مخازن تهیه مجموعه داده برای دانشمندان داده و کاربردهای یادگیری ماشین می باشد. شما در این سایت به آسانی می توانید منابع مورد نظر را جست و جو، دانلود و حتی منتشر کنید. همچنین در این وب سایت شما می توانید با سایر دانشمندان داده در تحلیل و پیش بینی داده ها رقابت کنید.

Machine Learning

مخزن یادگیری ماشین UCI

مخزن یادگیری ماشین UCI یکی از منابع عالی مجموعه داده های یادگیری ماشین برای کاربردهای مختلف ( دسته بندی، رگرسیون، خوشه بندی و ... ) است که از سال 1987، به طور گسترده توسط دانشجویان، اساتید، محققان به عنوان منبع اصلی مجموعه داده های یادگیری ماشین استفاده شده است. از جمله مجموعه‌های داده محبوب آن عبارتند از مجموعه داده‌های Iris، مجموعه داده ارزیابی خودرو، مجموعه داده‌های دستی پوکر که برای آموزش الگوریتم های مختلف یادگیری ماشین از آن استفاده می شود.

مجموعه داده یا دیتاست در یادگیری ماشین چیست؟

مجموعه داده AWS

یکی دیگر از منابعی که با استفاده از آن می توانیم مجموعه داده های سفارشی خود را جست و جو، دانلود و منتشر کنیم عبارتند از سایت AWS. هر کسی می‌تواند با استفاده از مجموع داده‌های به اشتراک گذاشته شده از طریق منابع  AWS، الگوریتم های مختلف یادگیری ماشین را بر روی مجموعه داده های مختلف پیاده سازی کند.

Machine Learning

موتور جستجوی مجموعه داده های گوگل

موتور جستجوی مجموعه داده های گوگل توسط گوگل در 5 سپتامبر 2018 راه اندازی شد. این منبع به محققان این امکان را می دهد تا مجموعه داده های آنلاین را که به صورت رایگان برای استفاده در دسترس هستند رابه منظور کاربردهای مختلف یادگیری ماشین دانلود کنند.

Machine Learning

مجموعه داده Scikit-Learn

Scikit-learn یک کتابخانه یادگیری ماشین برای زبان برنامه نویسی پایتون می باشد که علاوه بر ارائه الگوریتم های مختلف یادگیر ماشین و پردازش امکان دسترسی به یکسری مجموعه داده را برای دانشمندان داده ممکن می سازد.

Machine Learning

در دوره آموزشی جامع علم داده مدرس کاظم تقندیکی تمام A-Z علم داده (یادگیری ماشین، داده کاوی) را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد


کاظم تقندیکی
کاظم تقندیکی

استاد دانشگاه فني و حرفه اي و مجری پروژه های علم داده (داده کاوی، یادگیری ماشین، پردازش زبان طبیعی و ...)

استاد دانشگاه فنی و حرفه ای، فعال در حوزه های علم داده، يادگيري ماشين، داده کاوی، بازیابی اطلاعات، متن کاوی و پایگاه داده ها با بیش از صد ساعت تدریس آنلاین و صدها پروژه موفق در حوزه علم داده، برای آموزش يا سفارش انجام پروژه با شماره 09157202653 (واتس اپ، تلگرام و تماس تلفنی) و ایمیل taghandiky@gmail.com در تماس باشید.

نظرات