Meysam Madani

داده کاوی پردازی - میثم مدنی

Data Mining

Data Mining is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.

Data Mining

Data Mining is an interdisciplinary subfield of computer science. It is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.

The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management aspects, data preprocessing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating. In this cource we concentrate on the following reference:


References

  1. J. Han, M. Kamber, J. Pei, "Data Mining, Concepts and Techniques ", Elsevier, 3rd Edition, 2012. Amazon, Quotes, Supplemental Reading.
  2. P. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining, Pearson; 2015, Amazon, Authors Page

Download Course Materials

Reference

Download Slides: | Chapter 1 | Chapter 2 | Chapter 3 | Chapter 4 | Chapter 5 | Chapter 6 | Chapter 7 | Chapter 8 |

Download Exams: | Midterm 1 | Midterm 2 | Final Exam |



چند نکته:

همه دانشجویان عزیز خسته نباشید. در مورد نمره وارد شده چند نکته را لحاظ کنید:

  • فقط زمانی اعتراض خود را (با ایمیل و تا 10 صبح چهارشنبه) مطرح کنید که از اختلاف بین نمره ذهنی و نمره دریافتی مطمئن باشید (نمرات ذهنی خود از امتحانات و پروژه را در ایمیل بیان کنید).
  • بنده به هیچ وجه مسئول ترم آخر بودن یا مشکلات شخصی شما نیستم، بنابراین تقاضای خارج از حیطه درس و اعمالی که در ترم داشته‌اید، نداشته باشید.
  • سعی شده نمرات برون‌هشته شما لحاظ نشود، بنابراین کمی هموارسازی در نمرات شما (نسبت به خودتان و نه دیگران) انجام شده است.
  • به هیچ وجه نمره خود را با نمره دیگری مقایسه نکنید.
  • دوستانی که در حوزه آلودگی آب و هوا کار کرده‌اند می‌توانند به سایت پادپرس http://padpors.com مراجعه کنند و تجربیات خود را با دیگران در میان بگذارند. البته امکان مشارکت بیشتر هم هست که در صورت لزوم از بنده معرفی نامه بگیرید.
  • دوستانی که علاقه دارند در مسابقات بین‌المللی داده‌کاوی شرکت کنند می‌توانند به سایت https://www.kaggle.com مراجعه کنند.


لیست عناوین پروژه داده‌کاوی تایید شده تاکنون

  • سلیمی- تحلیل تاریخچه مرورگر
  • زارعی - استخراج دانش از داده های ترافیکی و وضعیت تردد در جاده ها
  • برزگری - فروش روزانه یک فروشگاه در دو فصل متواالی
  • بابائی‌ها - دارو و قرص های مورد استفاده افراد در روز به ویژه به صورت خود سرانه و رابطه آن با عوامل متفاوت
  • عراقیان - استخراج و مرتب سازی اطلاعات یک پایگاه داده موسیقی جهت تسریع دسترسی به آن
  • یوسف زاده شوشتری -  استخراج دانش از داده های مربوط به تصادفات جاده ای
  • حیدری - تحلیل داده‌های تلگرام (شامل زمان مکالمات در روز / هفته در فصول مختلف سال و یر اساس تاپیک)
  • بازدار - تحلیل داده اینستاگرام (بررسی تگ های مشترک)
  • وزیری - تحلیل داده های سایت های خبری (از لحاظ زمان و لینک های موجود در سایتای خبری)
  • گنجی- تحلیل داده در متن های یک شبکه اجتماعی و ساعات استفاده
  • اخوان - تحلیل داده های مربوط  قدم زدن افراد
  • درویش پور - تحلیل سایت اطلاعات موبایل
  • مجیدی - کامنت در شبکه های اجتماعی(اینستاگرام)
  • واحدی - بررسی و تحلیل داروهای فروخته شده در یک داروخانه با تمرکز بر داروهای تحت پوشش بیمه
  • اسدی - تحلیل داده های خسارت درمانی در صنعت بیمه
  • محمدنژاد -  عوامل زمینه‌ساز بیماری
  • بهرادمهر - تحلیل داده مربوط به آمار فوت و علل آن 
  • فاطمی - تحلیل داده های بیماران صرعی به منظور تخمین زمان تشنج بعدی به منظور پیشگیری از خطرات احتمالی
  • گیلانپور - تحلیل داده‌های آب و هوایی روی زمین
  • میرلو - تشخیص ویژگی ها و حالت فرد با استفاده از صوت ضبط شده
  • کریمی طاری - تحلیل نتایج تیم های لیگ برتر فوتبال انگلستان
  • فولادی - تحلیل داده مربوط به میزان استفاده از زبان های برنامه نویسی مختلف در شرکتها و ادارات
  • بندلی - تحلیل داده های توییتر یک‌کاربر
  • رضوانی - تحلیل داده های کیفیت هوای تهران
  • سعیدی - تحلیل اطلاعات یک سایت تخفیفی مانند تخفیفان
  • محمودی - تحلیل لپتاپ‌های مختلف و سخت‌افزارهای آن‌ها
  • شيرازى - بررسى بيمارى هاى يك جامعه آمارى
  • رضوی نسب - تحلیل عملکرد بازیکنان NBA
  • بيات ماكو - تحليل تاثير ژن در ويژگي هاي گياهان
  • سودخواه محمدی - مقایسه و تحلیل آمار 4 تیم فوتبال سری آ ایتالیا
  • اسمعیلی سراجی -   استخراج دانش از سایت CodeForces
  • اکبری فرد - تحلیل داده قیمت مسکن در تهران
  • نفیسی -  بررسی نامزدهای بهترین فیلم اسکار از ابتدا تا کنون
  • انصاری - تحلیل ساختاری و رفتاری نرمافزار ها بر اساس کد ماشین
  • جان نثاری -  تحلیل اطلاعات مربوط به اپلیکیشنهای موجود در کافه بازار
  • عبداله زاده -  تحلیل نمودار های google trends

Course outline:

  1. - Data Mining: why? what? how?
  2. - Getting to Know Your Data
  3. - Data Preprocessing
  4. - Data Warehousing and Online Analytical Processing
  5. - Data Cube Technology
  6. - Mining Frequent Patterns, Associations, and Correlations
  7. - Advanced Pattern Mining
  8. - Classification: Basic Concepts
  9. - Classification: Advanced Methods
  10. - Cluster Analysis: Basic Concepts and Methods
  11. - Top ten algorithms in Data Mining.