کاظم تقندیکی
استاد دانشگاه فني و حرفه اي و مجری پروژه های علم داده (داده کاوی، یادگیری ماشین، پردازش زبان طبیعی و ...)

جنسیم | Gensim چیست؟

جنسیم | Gensim یک کتابخانه پردازش زبان طبیعی | NLP رایگان در پایتون است که تمرکز آن بیشتر بر «مدل‌سازی موضوعی بدون نظارت» می باشد. اما خب می توان از آن برای فرایندهایی مانند ساخت دیکشنری از اسناد، خلاصه سازی اسناد و ... نیز استفاده کرد.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران

در دوره آموزشی پردازش متن مدرس کاظم تقندیکی تمام A-Z پردازش متن را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد

منظور از مدل سازی موضوعی | Topic Modeling ، ارائه یک تکنیک و روشی برای شناسایی و استخراج موضوعات با اهمیت مجموعه از اسناد می باشد. به عنوان مثال شما مجموعه از اسناد (در حوزه IT) رو به عنوان ورودی به جنسیم داده و جنسیم با استفاده از الگوریتم های مدل سازی موضوعی | Topic Modeling خود مجموعه ای از موضوعات با اهمیت مانند IT، تجارت الکترونیک، پردازشگر، کامپیوتر و .. را شناسایی و استخراج می کند.

جنسیم | Gensim برای مدل سازی موضوعی  | Topic Modeling اسناد از دو الگوریتم محبوب به نام LDA و LSI استفاده می کند، و علاوه بر مدل سازی موضوعی برای انجام کارهایی که در زیر لیست شده اند نیز استفاده می شوند.

  • ساخت بردارهای سند واژه از اسناد متنی
  • ساخت دیکشنری از اسناد متنی
  • ساخت کرپس از اسناد متنی
  • انجام مقایسه بین اسناد
  • تجزیه و تحلیل اسناد متنی
  • خلاصه سازی اسناد
  • و ...

از کتابخانه جنسیم | Gensim به دلیل پشتیبانی از الگوریتم هایی مانند fastText، Word2Vec، LDA، LSI و tf-idf به طور چشمگیری در پژوهش های دانشگاهی و کاربردهای تجاری استفاده می شود

ممکن است با خود بگویید که با استفاده از scikit و زبان R می توان فرایند مدل سازی موضوعی را نیز انجام داد. اما لازم است بدانید که عرض و دامنه امکانات برای ساخت و ارزیابی مدل‌های موضوعی در gensim بسیار بیشتر از سایر زبان ها و کتابخانه ها می باشد جنسیم یک بسته عالی برای پردازش متون، کار با مدل های برداری کلمه مانند  Word2Vec، FastText  و .... به منظور ساخت مدل های موضوعی است.

یکی دیگر از مزایای قابل توجه جنسیم این است: به شما امکان می دهد فایل های متنی بزرگ را بدون نیاز به بارگذاری کل فایل در حافظه مدیریت و پردازش کنید.

در دوره آموزشی پردازش متن مدرس کاظم تقندیکی تمام A-Z پردازش متن را به شکل کاملاً عملی و با زبانی ساده به شما آموزش می دهد


کاظم تقندیکی
کاظم تقندیکی

استاد دانشگاه فني و حرفه اي و مجری پروژه های علم داده (داده کاوی، یادگیری ماشین، پردازش زبان طبیعی و ...)

استاد دانشگاه فنی و حرفه ای، فعال در حوزه های علم داده، يادگيري ماشين، داده کاوی، بازیابی اطلاعات، متن کاوی و پایگاه داده ها با بیش از صد ساعت تدریس آنلاین و صدها پروژه موفق در حوزه علم داده، برای آموزش يا سفارش انجام پروژه با شماره 09157202653 (واتس اپ، تلگرام و تماس تلفنی) و ایمیل taghandiky@gmail.com در تماس باشید.

09 خرداد 1401 این مطلب را ارسال کرده

نظرات