وقتی در مورد داده کاوی صحبت می کنیم، معمولاً کشف دانش از داده ها را مورد بحث قرار می دهیم. اشیاء داده data objects بخش اساسی یک پایگاه داده هستند.
مجموعه داده ها از اشیاء داده تشکیل شده اند (پس داده ها که در اینجا منظور ما اشیاداده است در دیتاست ها قرار دارند) یک شی داده نشان دهنده یک موجودیت است—در پایگاه داده فروش، اشیاء ممکن است مشتریان، اقلام ذخیره و فروش باشند. در یک پایگاه داده پزشکی، اشیاء ممکن است بیماران باشند. در پایگاه داده دانشگاه، اشیاء ممکن است دانشجویان، اساتید و دوره ها باشند.
دیتاست ها در فایل ها ذخیره می شوند که می تواند فایل اکسل یا فایل مجموعه توئیت های یک توئیتر یا تیتر روزنامه ها در یکسال گذشه باشد)
ویژگی ها: اشیاء داده معمولاً با ویژگی ها توصیف می شوند. اگر اشیاء داده در یک پایگاه داده ذخیره شوند، آنها تاپل های داده هستند. به این معنی که ردیف های یک پایگاه داده با اشیاء داده مطابقت دارند و ستون ها با ویژگی ها مطابقت دارند.
در نتیجه تعریف داده یا دیتا:
دیتا چیست؟ مجموعه ای از اشیاء داده و ویژگی های آنها
ویژگی مثل رنگ چشم یک فرد
مجموعه ای از ویژگی ها، یک شی یا رکورد را توصیف می کند. ویژگی ها نوع داده را مشخص می کنند.
انواع ویژگی ها: انواع مختلفی از ویژگی ها وجود دارد:
اسمی مثال ها: کد رشته، رنگ چشم، کد پستی. زن(1) و مرد(2). مجرد(1)- متاهل(2) عددی را به یک ویژگی اختصاص می دهیم.
رتبه ای (عددی-کیفی) مثال ها: رتبه بندی (مثلاً طعم چیپس سیب زمینی در مقیاس 1-10)، نمرات، ارتفاع در { بلند، متوسط، کوتاه}
فاصله ای (عددی-کمی)،صفر مطلق وجود ندارد بلكه قراردادي است (درجه سانتيگراد)
نسبتی صفر مطلق و واقعي وجود دارد يعني نمره صفر بيانگر فقدان كامل ويژگي مورد اندازه گيري است(طول- وزن- حجم و ...)
یک فروشگاه شکلات فروشی را تصور کنید که انواع مختلفی از شکلات را دارد. صاحب این فروشگاه تمایل دارد که در مورد رضایتمندی مشتریانش در مورد خدمات ارائه شده و محصولات فروشگاه نظرسنجی انجام دهد. برای این منظور پرسشنامهای را به صورت تصویر تهیه کرد و بین مشتریانش پخش کرد.
پرسشنامه رضایت سنجی مشتریان
مسئول فروشگاه پس از جمع آوری پرسشنامه ها، داده ها را در قالب یک فایل Excel وارد کرد. نمونهای از دادههای جمعآوری شده از مشتریان را میتوانید در جدول شماره 1 مشاهده کنید.
نمونهای از دادههای جمعآوری شده از طریق پرسشنامه
اگر موافق باشید برای دادههای این پرسشنامه این کار را با هم انجام دهیم.
دادههای اسمی یا به صورت متنی ذخیره میشوند یا می توان آنها را به صورت کد ذخیره نمود. برای مثال میتوانید به مردان کد 1 و به خانمها کد 2 را اختصاص دهید.
بله درست است. این متغیر هم از نوع گسسته اسمی است. این متغیر دارای سه رده (کمتر از 5 میلیون تومان، بین 5 تا 10 میلیون تومان و بالاتر از 10 میلیون تومان) است. توجه داشته باشید که مسئول فروشگاه این رده ها را به صورت کد نیز می توانست وارد کند. برای مثال برای درآمد کمتر از 5 میلیون تومان کد 1، برای درآمد بین 5 تا 10 میلیون تومان کد 2 و بالاتر از 10 میلیون تومان کد 3 را تعیین کند.
در تصویر زیر ذخیره سازی دادههای گسسته اسمی و گسسته ترتیبی با استفاده از کدگذاری انجام شده است.
پیش پردازش داده ها:
چرا پیش پردازش انجام می دهیم؟
دادهها در دنیای واقعی نادرست هستند(Dirty)
1.ناقص هستند: فاقد مقادیر مشخصه، فاقد ویژگیهای خاص مورد علاقه، مثلا مقدار سن یا شغل خالی باشد
دلایل ناقص بودن داده ها: 1) هنگام جمعآوری، مقدار (value) داده «مناسب نیست». 2) مشکلات انسانی/سخت افزاری/نرم افزاری
2.حاوی دادههای انبوه نویزدار: حاوی خطاها یا موارد پرت متناقض مثلا سن یا حقوق و دستمزد را منفی وارد کرده باشد یا سن را منفی یا صفر یا 230 وارد کرده باشد می شود پرت متناقض. همانطور که در شکل نمایش داده شده این نویز بودن داده می تواند در سطح class یا attributs رخ دهد. خطاها در دادههای وارد شده: کاربر به جای قیمت، تعداد کالا را وارد کرده باشه. یا اینکه مقدار منفی برای تعداد کالای فروخته شده وارد کرده باشد (بر خلاف داده های ناقص در داده های غیر دقیق، مقدار وجود دارد ولی نادرست است)
دلایل نویزی بودن داده ها: 1) اشکال در ابزارهای جمع آوری اطلاعات 2) خطای انسانی یا رایانه ای در ورود داده ها 3) خطا در انتقال و تبدیل داده ها
3.داده های ناسازگار: حاوی مغایرت در کدها یا نامها:
در یک کاربر کد کالای خازن را 1005 وارد کرده و یک کاربر دیگر کد 1008 را برای خازن وارد کرده است.
یک کاربر سوییچ را با دو تا “ی” وارد کرده است و یک سوئیچ را با یک “ئ” و یک “ی” وارد کرده است.
دلایل ناسازگار بودن داده ها: 1) داده ها از منابع مختلف جمع آوری شده اند و موقع تجمیع اشکال بوجود آمده است 2) نقض وابستگی عملکردی (به عنوان مثال، اصلاح برخی از دادههای پیوندی)
رکوردهای تکراری نیز به پاک سازی داده ها نیاز دارند.
چرا پیش پردازش داده ها مهم است؟
1) بدون داده با کیفیت، نتایج استخراج با کیفیت نخواهیم داشت
1-1)تصمیمات کیفی باید بر اساس داده های کیفی با کیفیت باشد
به عنوان مثال، داده های تکراری یا از دست رفته ممکن است باعث آمار نادرست یا حتی گمراه کننده شود.
1-2) انبار داده نیاز به ادغام مداوم داده های با کیفیت دارد
2) استخراج، تمیز کردن و تبدیل داده ها اکثریت کار ساخت انبار داده را شامل می شود
اندازه گیری کیفیت داده ها
دقت
کامل بودن
ثبات
به موقع بودن
باورپذیری
ارزش افزوده
تفسیر پذیری
دسترسی
دسته بندی های گسترده: (ذاتی، زمینه ای، بازنمایی و دسترسی)
کارهای اصلی در پیش پردازش داده ها چیست؟
پیش پردازش دادهها : پاکسازی داده، یکپارچه سازی داده، کاهش داده و تبدیل داده
1. پاکسازی داده ها:
به پاکسازی داده ها، پاکسازی یا لایروبی (تمیزکردن) داده نیز گفته می شود.
مقادیر از دست رفته (خالی- missing value) را پر کنید، داده های نویزی را هموار کنید، نقاط پرت را شناسایی یا حذف کنید، و ناسازگاری ها را برطرف کنید. اگر تجمیع داده ها صورت می گیرد، حل مشکل افزونگی. مثلا شخصی فرم مشخصات خود را در سامانه های مختلف ثبت کند و بخواهیم تجمیع کنیم باید افزونگی داده های تکراری در نظر گرفته شود.
تمیز کردن داده ها ضروری است زیرا سیستم های منبع حاوی "داده های نادرست" هستند که باید پاکسازی شوند.
داده های از دست رفته (missing data)
1.داده ها همیشه در دسترس نیستند
به عنوان مثال، بسیاری از تاپل ها هیچ ارزش ثبت شده ای برای چندین ویژگی مانند درآمد مشتری در داده های فروش ندارند
2.داده های از دست رفته ممکن است به دلیل
-خرابی تجهیزات
-ناسازگار با سایر داده های ثبت شده و در نتیجه حذف می شود
-داده ها به دلیل سوء تفاهم وارد نشده است (فک شود که به درد نمیخوره)
-داده های که در زمان ثبت مهم نبودند ولی بعدا مهم شده
-تاریخچه یا تغییرات داده ها را ثبت نکنید
-عدم ثبت داده به علت غیر قابل فهم بودن یا اشتباه سخت افزاری
چگونه داده های از دست رفته (missing data) را مدیریت کنیم؟
1.حذف داده (داده های که ما با انها سر و کار داریم به دو بخش تقسیم می شود :داده های ضروری و با اهمیت و داده های غیر ضروری). وقتی داده های ضروری ناموجود باشد، با توجه به اهمیت این داده ها اگر تخمین ما درست نباشد ممکن است خروجی تکنیک های داده کاوی را تحت تاثیر قرار بدهد، در نتیجه می تواند تکنیک مناسبی باشد. البته اگر تخمین ما قابل قبول باشد، تکنیک حذف چندان قابل قبول نخواهد بود. زمانی که داده های ناموجود در یک قلم داده ای زیاد باشد، می توان آن داده را حذف نمود. فرض کنید در یک ردیف از فاکتور فروش، نام کالا و تعداد کالای فروش رفته ناموجود است. در این مورد بهتر است آن قلم داده ای را از فاکتور فروش حذف کنیم. چون تعداد داده های ناموجود زیاد است، حذف داده می تواند تکنیک مناسبی باشد. تکینک حذف وقتی زیاد انجام شود ممکن است کل داده ها را تحت تاثیر قرار دهد و در نتیجه خروجی داده کاوی را ناکارآمد کند. در نیتجه در استفاده از این روش باید دقت نمود که خروجی داده کاوی را تحت تاثیر قرار ندهد. در کل حذف داده ها چندان روش کار آمدی نمی باشد.
Noisy Data
سن | کاربر |
17 | #1 |
1361 | #2 |
15 | #3 |
23 | #4 |
440 | #5 |
2.یکپارچه سازی داده ها:
داده ها را از چندین منبع در یک ذخیره داده منسجم ترکیب می کند، به عنوان مثال. پایگاه داده تحلیلی.
منابع ممکن است شامل چندین پایگاه داده، مکعب داده یا فایل های داده باشد.
3.تبدیل داده ها:
فرآیند تبدیل با اصلاح هرگونه ناهماهنگی (در صورت وجود) سروکار دارد.
-هموارسازی (حذف نویز از داده ها)- مثلا استفاده از میانگین
-تجمیع (مثلا میزان امانت کتاب، بجای اینکه گزارش روزانه تهیه گردد، هفتگی، ماهانه یا سالانه تجمیع شده (در یک فیلد) و گزارش ارائه گردد).
-تعمیم (مثلا بجای تک تک وارد کردن سن افراد یه دسته مشخص بشه. از سن 19-35 سال جوان، 36-60 میانسال و 60 به بالا مسن)
-نرمال سازی: تغییر مقیاس داده هاست به طوری که در یک دامنه خاص و کوچک تبدیل بشه به یک فاصله کمتر مثلا بین 1 و -1 و محاسبه Z-SCORE
-ایجاد یک ویژگی (فیلد) جدید. مثلا به جای داشتن فیلد طول عرض برای زمین کشاورزی، یک فیلد جدید می سازیم تحت عنوان مساحت و این دو عدد را در هم ضرب می کنیم.
4.کاهش داده ها: (کاهش تعداد داده ها-حذف سطر و کاهش بُعد یا حذف ستونی)
نمایش کاهش یافته در حجم را به دست می آورد اما نتایج تحلیلی یکسان یا مشابه را تولید می کند.
استراتژی های کاهش داده ها:
-تجمیع مکعبی داده ها
در نظر بگیرید که دادههای فروش AllElectronics در هر سه ماهه از سال 2008 تا سال 2010 را دارید. اگر میخواهید فروش سالیانه را دریافت کنید، فقط باید فروش هر سه ماهه را برای هر سال جمع کنید. به این ترتیب تجمیع دادههای مورد نیاز را در اختیار شما قرار میدهد که حجم بسیار کمتری دارند و در نتیجه حتی بدون از دست دادن دادهای به کاهش دادهها میرسیم.
تجمیع مکعب داده یک تجمع چند بعدی است که تجزیه و تحلیل چند بعدی را آسان می کند. مانند تصویر بالا، مکعب داده نشان دهنده فروش سالانه برای هر کالا برای هر شعبه است. مکعب داده داده های از پیش محاسبه شده و خلاصه شده را ارائه می دهد که دسترسی سریع به داده کاوی را آسان می کند.
-کاهش تعداد صفات (انتخاب گزینشی- روش مورد استفاده: درخت تصمیم)
-کاهش تعداد مقادیر ویژگی (بی اهمیت ها)
مجموعه داده های بزرگ دارای ویژگی های بسیاری است که برخی از آنها به داده کاوی بی ربط هستند یا برخی زائد هستند. انتخاب زیرمجموعه مشخصه با حذف ویژگی اضافی و نامربوط، حجم داده ها را کاهش می دهد. انتخاب زیرمجموعه ویژگی این اطمینان را ایجاد میکند که حتی پس از حذف ویژگیهای ناخواسته، زیرمجموعه خوبی از ویژگیهای اصلی به دست میآوریم، به طوری که احتمال توزیع دادهها با استفاده از تمام ویژگیها تا حد امکان به توزیع داده اصلی نزدیک است.
-کاهش تعداد تاپل ها
-فشرده سازی داده ها
فشرده سازی داده ها تکنیکی است که در آن تکنیک تبدیل داده بر روی داده های اصلی به منظور به دست آوردن داده های فشرده اعمال می شود. اگر دادههای فشردهشده را بتوان دوباره بازسازی کرد تا دادههای اصلی را بدون از دست دادن هیچ اطلاعاتی تشکیل دهد، در این صورت کاهش دادهای «بدون تلفات» است. اگر نمیتوانید دادههای اصلی را از دادههای فشرده بازسازی کنید، کاهش دادههای شما «از بین میرود». برای فشرده سازی داده ها از روش کاهش ابعاد و تعداد نیز استفاده می شود.
-نمونه گیری-گسسته سازی-تولید سلسله مراتب مفهومی
چرا کاهش داده ها؟ یک دیتا بیس یا انباره داده ممکن است چندین ترابایت داده ذخیره داشته باشد، این امر تحلیل و آنالیز داده را پیچیده می کند و زمان بر است. این امر ممکن است است ما را با کمبود منابع سخت افزاری مواجه کند.
نکته: اگر بدون از دست دادن داده ها بتوان داده ها را کاهش داد آن را کاهش داده بدون اتلاف فرض می کنیم و اگر برخی از داده ها از بین بروند کاهش داده با اتلاف می گویند.
5.گسسته سازی:
با تقسیم محدوده یک ویژگی پیوسته به فواصل، تعداد مقادیر یک ویژگی پیوسته را کاهش دهید.
گسسته سازی یکی از عملیاتی است که هدف آن تبدیل داده های دارای ویژگی های فاصله ای و نسبتی به نوع اسمی است.
با گسسته سازی می توان پیچیدگی مسئله را کاهش داد. انواع روش های گسسته سازی مانند: گسسته سازی بسامدی، اندازه ای، بخشی، اطلاعاتی و انتخابی است. که در هر کدام از آن ها ممکن است به روش ایستا (نمونه داده ها) یا به روش پویا ( کل داده ها و نوع توزیع آنها) عمل کرد. برای مثال در گسسته سازی بسامدی همانگونه که از اسم آن پیداست تمامی مواردی که بسامد رخداد رکوردها وجود دارد و در بازه های یکسان باشد تبدیل به یک مقدار معین می شود.
روش ها: باینینگ- رگرسیون- خوشه بندی
لینک منابع
منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم، منبع نهم، منبع دهم، منبع یازدهم، منبع دوازدهم
کتاب: (Jiawei Han-Micheline Kamber) Data Mining: Concepts and Techniques
کتاب: آموزش گام به گام داده کاوی با رپید ماینر، اسماعیلی
مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات و دانش شناسی/بازیابی اطلاعات و دانش
این مباحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می شود