جستجو

آرشيو مطالب

سوال: بعد از انجام مراحل پیش پردازش بر روی داده ها، اکنون این سوال پیش می آید که داده ها بعد از پیش پردازش به کجا می روند و اصلا در کجا هستند؟ و تجمیع داده ها در کجا اتفاق می افتد؟ جواب :انبار داده ها (Data Warehouse)

تعریف انبار داده ها: سیستم های انبار داده ها مجموعه ای از پایگاه داده های یکپارچه و موضوع گرا از بازه های زمانی متفاوت و غیر فرار به منظور پشتیبانی از فرایند تصمیم گیری و افزایش دانش افراد درگیر (کارکنان داخلی- افراد ناشناس شبکه ها یا هر دو) است.

به عبارت دیگر یک انبار داده، داده ای دلخواه را از یک یا چند منبع جمع آوری کرده و آن ها را به موضوعاتی اطلاعاتی تبدیل می کند، سپس آن ها را به همراه اطلاعات زمان و تاریخ برای پشتیبانی بهتر از تصمیم گیری ها ذخیره می کند.

چهار خصوصیت و ویژگی اصلی انبار داده ها بر اساس تعریف بیل اینمون پدر سیستم های انبار داده:

1) موضوع گرا 2) مجتمع 3) وابسته به زمان 4) غیر فرار

1) موضوع گرا: هر انبار داده داده های مرتبط با یک موضوع خاص را در خود نگاه می‌دارد و این داده ها را به منظور استخراج مفاهیم و نتایج خاصی به شکلی ویژه سازماندهی می‌کند انبار داده برای پاسخگویی به پرسش های مختلف در مورد یک موضوع خاص بهینه سازی می شود مثلا در یک محیط کتابخانه‌ای داده‌های مربوط به کاربران و منابع وجود دارد در بحث انبار داده ها بهتر است که موضوعات جداگانه در نظر گرفته شود و در یک موضوع خاص سازماندهی شوند.

2) مجتمع (جامعیت- یکپارچگی): داده ها در انبار داده ها از تجمیع داده های دیگر حاصل می شود مثلاً منابع داده در کشورهای مختلف با زبان و تاریخ های مختلف ذخیره شده‌اند و یا منابعی که از ماشین های مختلف هستند در اعداد، حروف و دیگری فیلد ها متناسب با محدودیت‌های ماشین، سیستم عامل و تطابق با استاندارد های مختلف متفاوت هستند در انبار داده ها با توجه به مختلف بودن منابع انبار داده قبل از ذخیره سازی آن ها در انبار داده برای تامین یکپارچگی تکنیک های پاک سازی داده ها و مجتمع سازی به کار می رود.

3) وابسته به زمان: افق زمانی برای انباره داده ها بسیار مهم است داده ها در انبار داده برای تهیه اطلاعات تاریخی مثلاً برای ۵ تا ۱۰ سال پیش به کار می روند. هر ساختار کلیدی در انبار داده شامل عنصر زمان است در سیستم انبار داده داده ها هرگز به روزآوری یا آپدیت نمی شود بلکه داده‌های جدید و یا تغییر یافته با زمان های جدید به انبار اضافه می شوند. در ساختار انباره داده ها عامل زمان می‌تواند به طور ضمنی یا وضوح بیان شود.

4) غیر فرار- دائمی بودن- پایایی: پایگاه داده ها شامل داده هایی هستند که ممکن است در عملیات روزانه اضافه یا حذف شوند در مقابل انباره داده ها با مواردی سروکار دارند که عموما تراکنش‌ها حذف و اضافه نمی شوند بنابراین نیازی به ایجاد و دسترسی انحصاری به داده ها نخواهیم داشت و فقط به دو فعالیت کلیدی احتیاج داریم وارد کردن داده ها و دسترسی به داده ها. داده های انباره داده همیشه از لحاظ فیزیکی مجزا هستند و هیچگاه نیازی به تغییر و به‌روزرسانی نخواهند داشت.

ساختار و معماری انبار داده ها:

انبار داده ها دارای ساختاری چند بعدی است و از یک معماری خاص برخوردار است. مدل داده ها در انبار داده به شکل مکعب اطلاعاتی تصور می‌شود یک مکعب اطلاعاتی داده ها را در چندین بُعد نمایش می‌دهد منظور از مکعب اطلاعاتی وجود تعدادی از سطرها و ستون ها ست که در

.ابعاد مختلف نمایش داده می شود 

انبار داده ها - مدل مفهومی
هر انبار داده ها دارای یک شِِما است. معمولاً یک مدل داده ای چندبُعدی برای طراحی انبار داده ها استفاده می شود. از معروفترین شِماها در این مدل دادهای می توان به شِمای ستاره ای و شِمای برفگونه و صورت فلکی اشاره کرد.
مدل ستاره ای: 
همانطور که از نامش مشخص است، شکل ستاره ای دارد. در این شِما انبار داده ها شامل یک جدول مرکزی بزرگ است که به نام جدول fact شناخته می شود. در این جدول که حاوی تعداد زیادی رکورد است، جزئیات هر رکورد تراکنشی بدون افزونگی ثبت می گردد. در اطراف آن، جداول مربوط به هر ویژگی dimension قرار می گیرد. جدول fact نرمال سازی شده است و به سایر جداول dimension از طریق کلیدهای خارجی مرتبط می شود. 
مدل برفگونه:
در شِمای برفگونه برخی از جداول dimension نرمالسازی شده اند تا افزونگی موجود در شِمای ستاره ای در این ساختار وجود نداشته باشد. برای مثال جدول Regionبه Storeو جدول Accountبه Customerمتصل شده است. این جداول فضای کمتری را نسبت به حالت قبل که دارای افزونگی بود، اشغال می کنند.
مدل صورت فلکی:
نوع دیگری از طراحی برای شِمای انبار داده ها وجود دارد که در آن میتوان بیش از یک جدول factپیدا کرد. در این شِما که با نام fact constellation شناخته می شود، هر یک از جداول factدارای جداول dimension مربوط به خود هستند که می تواند بین آنها به اشتراک گذاشته شود.
موارد تفاوت پایگاه داده و انباره داده:

پایگاه های داده برای مدل (OLTP) بهینه سازی شده است که بر اساس مدل داده رابطه ای امکان پردازش تعداد زیادی تراکنش هم روند که اغلب حاوی رکوردهای اندکی هستند را دارد اما در انباره های داده که برای (OLAP) طراحی شده اند امکان پردازش تعداد کمی پرس و جوی پیچیده بر روی تعداد بسیار زیادی رکورد داده فراهم می شود.

از لحاظ کاربران کاربران پایگاه داده کارمندان و مسئولان هستند و کاربران انبار داده مدیران و تصمیم گیرندگان هستند.

 عملیاتی که بر روی پایگاه داده ها صورت می گیرد شامل عملیات بهنگام سازی است در حالی که عمل خواندن از انبار عمده عملیات قابل اجرا برروی انبار داده ها را تشکیل می دهد.

مقدار داده های یک پایگاه داده در حدود چند مگابایت تا چند گیگابایت است در حالی که این مقدار در انبار داده در حدود چند گیگابایت تا چند ترابایت است انبار داده با استفاده از دو تکنیک خلاصه سازی و سلسله مراتبی کردن سرعت انجام پرس و جو را بهبود بخشیده است.

سوال: آیا نحوه پردازش داده ها در پایگاه داده ها با انباره داده متفاوت است؟ جواب: بله.
لینک منابع
کتاب: مفاهیم و تکنیک های داده کاوی (مهدی اسماعیلی)

کتاب: کلیات داده کاوی در علم اطلاعات و دانش شناسی (دکتر سعید غفاری و دکتر حمید قاضی زاده)

کتاب:  (Jiawei Han-Micheline KamberData Mining: Concepts and Techniques

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش

این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد


یکشنبه 25 مهر 1400
ادامه مطلب

وقتی در مورد داده کاوی صحبت می کنیم، معمولاً کشف دانش از داده ها را مورد بحث قرار می دهیم. اشیاء داده data objects بخش اساسی یک پایگاه داده هستند.

مجموعه داده ها از اشیاء داده تشکیل شده اند (پس داده ها که در اینجا منظور ما اشیاداده است در دیتاست ها قرار دارند) یک شی داده نشان دهنده یک موجودیت است—در پایگاه داده فروش، اشیاء ممکن است مشتریان، اقلام ذخیره و فروش باشند. در یک پایگاه داده پزشکی، اشیاء ممکن است بیماران باشند. در پایگاه داده دانشگاه، اشیاء ممکن است دانشجویان، اساتید و دوره ها باشند. 

دیتاست ها در فایل ها ذخیره می شوند که می تواند فایل اکسل یا فایل مجموعه توئیت های یک توئیتر یا تیتر روزنامه ها در یکسال گذشه باشد)

ویژگی ها: اشیاء داده معمولاً با ویژگی ها توصیف می شوند. اگر اشیاء داده در یک پایگاه داده ذخیره شوند، آنها تاپل های داده هستند. به این معنی که ردیف های یک پایگاه داده با اشیاء داده مطابقت دارند و ستون ها با ویژگی ها مطابقت دارند.

در نتیجه تعریف داده یا دیتا: 

دیتا چیست؟ مجموعه ای از اشیاء داده و ویژگی های آنها

ویژگی مثل رنگ چشم یک فرد

مجموعه ای از ویژگی ها، یک شی یا رکورد را توصیف می کند. ویژگی ها نوع داده را مشخص می کنند.

انواع ویژگی ها: انواع مختلفی از ویژگی ها وجود دارد:

اسمی مثال ها: کد رشته، رنگ چشم، کد پستی. زن(1) و مرد(2). مجرد(1)- متاهل(2) عددی را به یک ویژگی اختصاص می دهیم.

رتبه ای (عددی-کیفی) مثال ها: رتبه بندی (مثلاً طعم چیپس سیب زمینی در مقیاس 1-10)، نمرات، ارتفاع در { بلند، متوسط، کوتاه} 

فاصله ای (عددی-کمی)،صفر مطلق وجود ندارد بلكه قراردادي است (درجه سانتيگراد)

نسبتی صفر مطلق و واقعي وجود دارد يعني نمره صفر بيانگر فقدان كامل ويژگي مورد اندازه گيري است(طول- وزن- حجم و ...)


یک فروشگاه شکلات فروشی را تصور کنید که انواع مختلفی از شکلات را دارد. صاحب این فروشگاه تمایل دارد که در مورد رضایتمندی مشتریانش در مورد خدمات ارائه شده و محصولات فروشگاه نظرسنجی انجام دهد. برای این منظور پرسشنامه‌ای را به صورت تصویر  تهیه کرد و بین مشتریانش پخش کرد.

پرسشنامه رضایت سنجی مشتریان

مسئول فروشگاه پس از جمع آوری پرسشنامه ها، داده ها را در قالب یک فایل Excel وارد کرد. نمونه‌ای از داده‌های جمع‌آوری شده از مشتریان را می‌توانید در جدول شماره 1 مشاهده کنید.

نمونه‌ای از داده‌های جمع‌آوری شده از طریق پرسشنامه

اگر موافق باشید برای داده‌های این پرسشنامه این کار را با هم انجام دهیم.

  • اول به سراغ متغیر جنسیت برویم. جنسیت یک متغیر دو مقداری است. البته اگر بخواهیم به طور کلی بیان کنیم باید بگوییم که متغیر جنسیت یک متغیر گسسته اسمی است. متغیرهای گسسته اسمی بین رده‌های متعدد تفاوت قائل می‌شود، اما ترتیب ضمنی‌ای بین رده ها وجود ندارد.

داده‌های اسمی یا به صورت متنی ذخیره می‌شوند یا می توان آن‌ها را به صورت کد ذخیره نمود. برای مثال می‌توانید به مردان کد 1 و به خانم‌ها کد 2 را اختصاص دهید.

  • متغیر سطح تحصیلات یک متغیر گسسته ترتیبی است. گسسته ترتیبی شامل داده‌هایی است که یک ترتیب طبیعی دارند. به عنوان نمونه در این مثال سطح تحصیلات دکتری بالاتر از فوق لیسانس و فوق لیسانس بالاتر از لیسانس و ….. در واقع ترتیبی به صورت دیپلم < فوق دیپلم < لیسانس < فوق لیسانس < دکتری در این داده‌ها وجود دارد. داده‌های گسسته ترتیبی را می‌توان به صورت کد نیز نشان داد.
  • متغیر بعدی سن است. به متغیرهایی از این قبیل متغیرهای پیوسته نسبتی گفته می‌شود. در متغیرهای پیوسته نسبتی همه نوع عملیات ریاضی مجاز است، به ویژه توانایی ضرب و تقسیم (به عبارت دیگر، نرخ ها مورد نظر است). مثال‌های ساده از داده‌های نسبتی هر متغیری است که دارای صفر مطلق باشد. مانند وزن، قد، میزان فروش، تعداد مشتریان، درآمد کسب شده در ماه گذشته و غیره.
  • بسیار خوب. به سراغ متغیر بعدی برویم. میزان درآمد. می‌توانید با توضیحاتی که ارائه شد بگویید که این متغیر از چه نوعی است؟

بله درست است. این متغیر هم از نوع گسسته اسمی است. این متغیر دارای سه رده (کمتر از 5 میلیون تومان، بین 5 تا 10 میلیون تومان و بالاتر از 10 میلیون تومان) است. توجه داشته باشید که مسئول فروشگاه این رده ها را به صورت کد نیز می توانست وارد کند. برای مثال برای درآمد کمتر از 5 میلیون تومان کد 1، برای درآمد بین 5 تا 10 میلیون تومان کد 2 و بالاتر از 10 میلیون تومان کد 3 را تعیین کند.

  • با توجه به توضیحات ارائه شده منطقه زندگی هم از نوع گسسته اسمی است.
  • در مورد میزان رضایت از برخورد مسئولان چه می‌توان گفت؟ داده‌های مربوط به میزان رضایت مشتریان نیز در قالب داده‌های گسسته ترتیبی جمع‌آوری شده‌اند. در پژوهش‌های بازاریابی، استفاده از یک مقیاس پنج گزینه‌ای برای ارزیابی ادراکات مرسوم است: خیلی کم کم  متوسط  زیاد  خیلی زیاد
  • و در نهایت می‌رسیم به متغیر نوع شکلات مورد علاقه مشتریان. داده‌های مربوط به این متغیر از نوع گسسته اسمی هستند و دارای سه رده ی «تلخ»، «سفید» و «شیری» است. همان طور که پیش از این نیز گفته شد برای هر یک از این رده ها می توانید یک کد در نظر بگیرید. برای مثال برای شکلات تلخ دارای کد 1، شکلات شیری کد 2 و شکلات سفید کد 3 را در نظر گرفت.

در تصویر  زیر ذخیره سازی داده‌های گسسته اسمی و گسسته ترتیبی با استفاده از کدگذاری انجام شده است.

پیش پردازش داده ها:

چرا پیش پردازش انجام می دهیم؟

داده‌ها در دنیای واقعی نادرست هستند(Dirty)

1.ناقص هستند: فاقد مقادیر مشخصه، فاقد ویژگی‌های خاص مورد علاقه، مثلا مقدار سن یا شغل خالی باشد 

دلایل ناقص بودن داده ها: 1) هنگام جمع‌آوری، مقدار (value) داده «مناسب نیست». 2) مشکلات انسانی/سخت افزاری/نرم افزاری

2.حاوی داده‌های انبوه نویزدار: حاوی خطاها یا موارد پرت متناقض مثلا سن یا حقوق و دستمزد را منفی وارد کرده باشد یا سن را منفی یا صفر یا 230 وارد کرده باشد می شود پرت متناقض. همانطور که در شکل نمایش داده شده این نویز بودن داده می تواند در سطح class یا attributs رخ دهد. خطاها در داده‌های وارد شده: کاربر به جای قیمت، تعداد کالا را وارد کرده باشه. یا اینکه مقدار منفی برای تعداد کالای فروخته شده وارد کرده باشد (بر خلاف داده های ناقص در داده های غیر دقیق، مقدار وجود دارد ولی نادرست است)

دلایل نویزی بودن داده ها: 1) اشکال در ابزارهای جمع آوری اطلاعات 2) خطای انسانی یا رایانه ای در ورود داده ها 3) خطا در انتقال و تبدیل داده ها

3.داده های ناسازگار: حاوی مغایرت در کدها یا نام‌ها:

در یک کاربر کد کالای خازن را 1005 وارد کرده و یک کاربر دیگر کد 1008 را برای خازن وارد کرده است.

یک کاربر سوییچ را با دو تا “ی” وارد کرده است و یک سوئیچ را با یک “ئ” و یک “ی” وارد کرده است.

دلایل ناسازگار بودن داده ها: 1) داده ها از منابع مختلف جمع آوری شده اند و موقع تجمیع اشکال بوجود آمده است 2) نقض وابستگی عملکردی (به عنوان مثال، اصلاح برخی از داده‌های پیوندی)

رکوردهای تکراری نیز به پاک سازی داده ها نیاز دارند.

چرا پیش پردازش داده ها مهم است؟

1) بدون داده با کیفیت، نتایج استخراج با کیفیت نخواهیم داشت

1-1)تصمیمات کیفی باید بر اساس داده های کیفی با کیفیت باشد

به عنوان مثال، داده های تکراری یا از دست رفته ممکن است باعث آمار نادرست یا حتی گمراه کننده شود.

1-2) انبار داده نیاز به ادغام مداوم داده های با کیفیت دارد

2) استخراج، تمیز کردن و تبدیل داده ها اکثریت کار ساخت انبار داده را شامل می شود

اندازه گیری کیفیت داده ها

دقت

کامل بودن

ثبات

به موقع بودن

باورپذیری

ارزش افزوده

تفسیر پذیری

دسترسی

دسته بندی های گسترده: (ذاتی، زمینه ای، بازنمایی و دسترسی)

کارهای اصلی در پیش پردازش داده ها چیست؟

پیش پردازش داده‌ها : پاکسازی داده، یکپارچه سازی داده، کاهش داده و تبدیل داده

1. پاکسازی داده ها:

به پاکسازی داده ها، پاکسازی یا لایروبی (تمیزکردن) داده نیز گفته می شود.

مقادیر از دست رفته (خالی- missing value) را پر کنید، داده های نویزی را هموار کنید، نقاط پرت را شناسایی یا حذف کنید، و ناسازگاری ها را برطرف کنید. اگر تجمیع داده ها صورت می گیرد، حل مشکل افزونگی. مثلا شخصی فرم مشخصات خود را در سامانه های مختلف ثبت کند و بخواهیم تجمیع کنیم باید افزونگی داده های تکراری در نظر گرفته شود.

تمیز کردن داده ها ضروری است زیرا سیستم های منبع حاوی "داده های نادرست" هستند که باید پاکسازی شوند.


داده های از دست رفته (missing data)

1.داده ها همیشه در دسترس نیستند

به عنوان مثال، بسیاری از تاپل ها هیچ ارزش ثبت شده ای برای چندین ویژگی مانند درآمد مشتری در داده های فروش ندارند

2.داده های از دست رفته ممکن است به دلیل

-خرابی تجهیزات

-ناسازگار با سایر داده های ثبت شده و در نتیجه حذف می شود

-داده ها به دلیل سوء تفاهم وارد نشده است (فک شود که به درد نمیخوره)

-داده های که در زمان ثبت مهم نبودند ولی بعدا مهم شده

-تاریخچه یا تغییرات داده ها را ثبت نکنید

-عدم ثبت داده به علت غیر قابل فهم بودن یا اشتباه سخت افزاری

چگونه داده های از دست رفته (missing data) را مدیریت کنیم؟

1.حذف داده (داده های که ما با انها سر و کار داریم به دو بخش تقسیم می شود :داده های ضروری و با اهمیت و داده های غیر ضروری). وقتی داده های ضروری ناموجود باشد، با توجه به اهمیت این داده ها اگر تخمین ما درست نباشد ممکن است خروجی تکنیک های داده کاوی را تحت تاثیر قرار بدهد، در نتیجه می تواند تکنیک مناسبی باشد. البته اگر تخمین ما قابل قبول باشد، تکنیک حذف چندان قابل قبول نخواهد بود. زمانی که داده های ناموجود در یک قلم داده ای زیاد باشد، می توان آن داده را حذف نمود. فرض کنید در یک ردیف از فاکتور فروش، نام کالا و تعداد کالای فروش رفته ناموجود است. در این مورد بهتر است آن قلم داده ای را از فاکتور فروش حذف کنیم. چون تعداد داده های ناموجود زیاد است، حذف داده می تواند تکنیک مناسبی باشد. تکینک حذف وقتی زیاد انجام شود ممکن است کل داده ها را تحت تاثیر قرار دهد و در نتیجه خروجی داده کاوی را ناکارآمد کند. در نیتجه در استفاده از این روش باید دقت نمود که خروجی داده کاوی را تحت تاثیر قرار ندهد. در کل حذف داده ها چندان روش کار آمدی نمی باشد.

2. تعیین داده ها توسط کاربر: (نکته مهم در این بخش آن است کسی که دارد داده ها را پر میکند باید شناخت و اشراف کامل به داده داشته باشد. فرض کنید تاریخ خروج کالا برای بعضی از کالاها در فاکتورهای ما ثبت نشده است. کسی که می تواند در این حوزه به ما کمک کند مسئول انبار است. اما چگونه؟ با یک مثال چگونگی انجام کار را بیان میکنیم (فرض کنید انبادار بر اساس تجربه زمان های خروج کالاهای خاص می داند. به عبارت دیگر می داند که چه کالای در چه بازه زمانی توسط مشتریان درخواست می شود. به عنوان مثال بخاری 2 ماه شروع فصل سرما بیشترین فروش خود را دارد در نتیجه اگر زمان خروج بخاری مشخص نباشد انباردار می تواند با کمک تجربه خود داده ها را تکمیل نماید.)
3.استفاده از یک مقدار کلی و ثابت برای داده های ناموجود (یکی دیگر از تکنیک های مربوط به پر کردن داده های ناموجود (داده‌های گم شده ) قرار دادن یک مقدار ثابت برای همه آن ها است. مثلا فرض کنید همه داده های غیر موجود را با یک مقدار مانند “نشناخته” یا Unknown پر کنیم. این روش بسیار ساده است، ولی چندان کارآمدی نیست، به همین خاطر کمتر از آن استفاده می شود.
6.استفاده از محتمل ترین مقدار (the most probable value) در این روش از تکنیک های مانند رگرسیون regression، استنتاج، درخت تصمیم گیری و … استفاده می شود. به عنوان مثال فرض کنید ما میزان خرید یک مشتری را ندارد قصد داریم آن را حدس بزنید، می تواند از درخت تصمیم گیری یا استنتاج مبتنی بر شبکه بیزین استفاده کرد.

Noisy Data

نویز: خطای تصادفی یا واریانس در یک متغیر اندازه گیری شده
مقادیر مشخصه نادرست ممکن است به دلیل:
ابزارهای جمع آوری اطلاعات معیوب
مشکلات ورود داده ها
مشکلات انتقال داده
محدودیت تکنولوژی
ناهماهنگی در قرارداد نامگذاری
رکوردهای تکراری
داده های ناقص
داده های متناقض
چگونه داده های نویزی را مدیریت کنیم؟
ابتدا داده ها و پارتیشن بندی را در انباره ها (با فرکانس برابر) مرتب کنید
صاف کردن داده ها در توابع رگرسیون
خوشه بندی
موارد پرت را شناسایی و حذف کنید
بازرسی ترکیبی رایانه و انسان
مقادیر مشکوک را شناسایی کنید و توسط انسان بررسی کنید (مثلاً با موارد دور از دسترس احتمالی برخورد کنید)
مثال:
سنکاربر
17#1
1361#2
15#3
23#4
440#5
همان‌طور که می‌بینید، کاربرانِ شماره‌ی 2 و 5 داده‌هایی غیر طبیعی در ستون سن دارند. مثلاً کاربرِ شماره‌ی 2، سهواً تاریخِ تولدِ خود را وارد کرده است و کاربرِ شماره‌ی 5 نیز، به اشتباه یک صفرِ اضافی برای عددِ سنِ خود درج کرده. پس به سادگی می‌توان تشخیص داد که این مجموعه‌ی داده برای مقدارِ سن دارای داده‌های پرت است.
روش‌های حذف داده‌های دارای نویز زیاد است. یکی از این روش‌ها حذفِ مقادیر بالا و پایین داده‌ها به تعداد مشخص است. برای مثال در همین جدول بالا، می‌توانیم مقادیری که کمتر از ۱۰ و یا بیش‌تر از ۱۰۰ هستند را حذف کنیم و یا مقادیری که در بازه‌ی بین ۱۰ تا ۱۰۰ قرار ندارد را با میانگینِ سن‌های باقی‌مانده جایگزین کنیم. با این‌کار داده‌ها در یک بازه‌ی مشخص و معقول قرار می‌گیرند. پس در مثال بالا، می‌توانیم کاربران 2 و 5 را حذف کنیم و یا مقدار سن را برای آن‌ها برابر میانگین سن‌های باقی‌مانده افراد است، قرار می‌دهیم.

البته در بعضی از مواقع ما به دنبال پیدا کردنِ نویزها هستیم تا داده‌ها را با توجه به مقادیرِ غیرطبیعی (anomalies) تحلیل کنیم. مثلاً می‌خواهیم در یک سری تراکنش‌های بانکی، آن دسته از تراکنش‌هایی که رفتارِ غیرِ عادی داشتند را کشف کرده و به تخلف‌های یک فرد در بانک رسیدگی کنیم. DBSCAN را هم می‌توان برای خوشه‌بندی مورد استفاده قرار داد و هم می‌توان از آن به عنوانِ یک الگوریتمْ جهتِ تشخیص داده‌های پرت استفاده کرد. همچنین روشی به عنوان SVM تک کلاسه (one class SVM) موجود است که می‌تواند داده‌های پرت را تشخیص دهد.

2.یکپارچه سازی داده ها: 

داده ها را از چندین منبع در یک ذخیره داده منسجم ترکیب می کند، به عنوان مثال. پایگاه داده تحلیلی.

منابع ممکن است شامل چندین پایگاه داده، مکعب داده یا فایل های داده باشد.


3.تبدیل داده ها: 

فرآیند تبدیل با اصلاح هرگونه ناهماهنگی (در صورت وجود) سروکار دارد.

-هموارسازی (حذف نویز از داده ها)- مثلا استفاده از میانگین

-تجمیع (مثلا میزان امانت کتاب، بجای اینکه گزارش روزانه تهیه گردد، هفتگی، ماهانه یا سالانه تجمیع شده (در یک فیلد) و گزارش ارائه گردد).

-تعمیم (مثلا بجای تک تک وارد کردن سن افراد یه دسته مشخص بشه. از سن 19-35 سال جوان، 36-60 میانسال و 60 به بالا مسن)

-نرمال سازی: تغییر مقیاس داده هاست به طوری که در یک دامنه خاص و کوچک تبدیل بشه به یک فاصله کمتر مثلا بین 1 و -1 و محاسبه Z-SCORE

-ایجاد یک ویژگی (فیلد) جدید. مثلا به جای داشتن فیلد طول عرض برای زمین کشاورزی، یک فیلد جدید می سازیم تحت عنوان مساحت و این دو عدد را در هم ضرب می کنیم.


4.کاهش داده ها: (کاهش تعداد داده ها-حذف سطر و کاهش بُعد یا حذف ستونی)

نمایش کاهش یافته در حجم را به دست می آورد اما نتایج تحلیلی یکسان یا مشابه را تولید می کند.

استراتژی های کاهش داده ها:

-تجمیع مکعبی داده ها

در نظر بگیرید که داده‌های فروش AllElectronics در هر سه ماهه از سال 2008 تا سال 2010 را دارید. اگر می‌خواهید فروش سالیانه را دریافت کنید، فقط باید فروش هر سه ماهه را برای هر سال جمع کنید. به این ترتیب تجمیع داده‌های مورد نیاز را در اختیار شما قرار می‌دهد که حجم بسیار کمتری دارند و در نتیجه حتی بدون از دست دادن داده‌ای به کاهش داده‌ها می‌رسیم.

تجمیع مکعب داده یک تجمع چند بعدی است که تجزیه و تحلیل چند بعدی را آسان می کند. مانند تصویر بالا، مکعب داده نشان دهنده فروش سالانه برای هر کالا برای هر شعبه است. مکعب داده داده های از پیش محاسبه شده و خلاصه شده را ارائه می دهد که دسترسی سریع به داده کاوی را آسان می کند.

-کاهش تعداد صفات (انتخاب گزینشی- روش مورد استفاده: درخت تصمیم)

-کاهش تعداد مقادیر ویژگی (بی اهمیت ها)

مجموعه داده های بزرگ دارای ویژگی های بسیاری است که برخی از آنها به داده کاوی بی ربط هستند یا برخی زائد هستند. انتخاب زیرمجموعه مشخصه با حذف ویژگی اضافی و نامربوط، حجم داده ها را کاهش می دهد. انتخاب زیرمجموعه ویژگی این اطمینان را ایجاد می‌کند که حتی پس از حذف ویژگی‌های ناخواسته، زیرمجموعه خوبی از ویژگی‌های اصلی به دست می‌آوریم، به طوری که احتمال توزیع داده‌ها با استفاده از تمام ویژگی‌ها تا حد امکان به توزیع داده اصلی نزدیک است.

-کاهش تعداد تاپل ها

-فشرده سازی داده ها

فشرده سازی داده ها تکنیکی است که در آن تکنیک تبدیل داده بر روی داده های اصلی به منظور به دست آوردن داده های فشرده اعمال می شود. اگر داده‌های فشرده‌شده را بتوان دوباره بازسازی کرد تا داده‌های اصلی را بدون از دست دادن هیچ اطلاعاتی تشکیل دهد، در این صورت کاهش داده‌ای «بدون تلفات» است. اگر نمی‌توانید داده‌های اصلی را از داده‌های فشرده بازسازی کنید، کاهش داده‌های شما «از بین می‌رود». برای فشرده سازی داده ها از روش کاهش ابعاد و تعداد نیز استفاده می شود.

-نمونه گیری-گسسته سازی-تولید سلسله مراتب مفهومی

چرا کاهش داده ها؟ یک دیتا بیس یا انباره داده ممکن است چندین ترابایت داده ذخیره داشته باشد، این امر تحلیل و آنالیز داده را پیچیده می کند و زمان بر است. این امر ممکن است است ما را با کمبود منابع سخت افزاری مواجه کند. 

نکته: اگر بدون از دست دادن داده ها بتوان داده ها را کاهش داد آن را کاهش داده بدون اتلاف فرض می کنیم و اگر برخی از داده ها از بین بروند کاهش داده با اتلاف می گویند.


5.گسسته سازی: 

با تقسیم محدوده یک ویژگی پیوسته به فواصل، تعداد مقادیر یک ویژگی پیوسته را کاهش دهید. 

گسسته سازی یکی از عملیاتی است که هدف آن تبدیل داده های دارای ویژگی های فاصله ای و نسبتی به نوع اسمی است.

با گسسته سازی می توان پیچیدگی مسئله را کاهش داد. انواع روش های گسسته سازی مانند: گسسته سازی بسامدی، اندازه ای، بخشی، اطلاعاتی و انتخابی است. که در هر کدام از آن ها ممکن است به روش ایستا (نمونه داده ها) یا به روش پویا ( کل داده ها و نوع توزیع آنها) عمل کرد. برای مثال در گسسته سازی بسامدی همانگونه که از اسم آن پیداست تمامی مواردی که بسامد رخداد رکوردها وجود دارد و در بازه های یکسان باشد تبدیل به یک مقدار معین می شود. 

روش ها: باینینگ- رگرسیون- خوشه بندی



لینک منابع

منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم، منبع نهم، منبع دهم، منبع یازدهم، منبع دوازدهم

کتاب:  (Jiawei Han-Micheline KamberData Mining: Concepts and Techniques

کتاب: آموزش گام به گام داده کاوی با رپید ماینر، اسماعیلی

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات و دانش شناسی/بازیابی اطلاعات و دانش

این مباحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می شود


یکشنبه 11 مهر 1400
ادامه مطلب
درباره نویسنده
ملیحه باغبان

📖  کارشناسی کتابداری
دانشگاه پیـــام نور مرکز تبریز

📖  کارشناسی ارشد
مدیریت اطلاعات دانشگاه تبریز

📖  دانشجوی دکتری
بازیـــابی اطـلاعــات و دانــــش
دانشگـــاه الـزهرا (س) - تهران