جستجو

آرشيو مطالب
👈نویسنده : ملیحه باغبان


لینک جلسات داده کاوی و متن کاوی

👈داده کاوی و کشف دانش و معماری سیستم داده کاوی جلسه اول

👈جایگاه داده کاوی در میان علوم مختلف و کاربرد های آن و بیگ دیتا و داده های کوچک جلسه دوم

👈داده چیست و چرا باید پیش پردازش شود جلسه سوم

👈داده کاوی کجا و چه موقع؟ جایگاه داده کاوی در سازمان ها جلسه چهارم

👈انباره داده ها و ویژگی ها و تفاوت پایگاه داده و انبار داده جلسه پنجم

👈انواع انبار داده موارد استفاده از انبار داده کاربران انبار داده جلسه ششم

👈تفاوت OLAP و OLTP جلسه هفتم

👈تجزیه و تحلیل متن و متن کاوی جلسه هشتم

👈طبقه بندی جلسه نهم

👈خوشه بندی ادامه جلسه نهم

👈متن کاوی و استخراج اطلاعات جلسه دهم

👈متن کاوی و استخراج مفاهیم جلسه یازدهم

👈پردازش و تحلیل متن جلسه دوازدهم

👈وب کاوی و کاربردهای آن جلسه سیزدهم

👈یادگیری ماشین و متن کاوی جلسه سیزدهم

تکمیل مباحث داده کاوی و متن کاوی

در صورتی که مطلبی مفید باشد به هر درس اضافه خواهد شد

👈لطفا نظرات و سوالات خود را در هر درس کامنت بگذارید

با تشکر، ملیحه باغبان


شنبه 25 دي 1400
ادامه مطلب
👈نویسنده : ملیحه باغبان

یادگیری ماشین و متن کاوی

برای دانلود فایل PDF کلیک کنید

ارائه: خانم لیلی بنی هاشمی 

دانشجوی دکتری علم اطلاعات و دانش شناسی

گرایش بازیابی اطلاعات و دانش- دانشگاه الزهرا (س)


دوشنبه 29 آذر 1400
ادامه مطلب

داده کاوی کجا و چه موقع؟

امروزه در اکثر سازمان ها داده ها به سرعت در حال جمع آوری و ذخیره شدن است. اما علیرغم این حجم انبوه داده، امروزه سازمان ها با فقر دانش در تصمیم گیری روبرو هستند.

داده کاوی در موارد زیر می تواند مورد بهره گیری قرار گیرد:

- مسئله ای پیچیده و ساخت نیافته و یا نیمه ساخت یافته وجود داشته باشد

-داده های مرتبطی وجود داشته باشند و به آن ها دسترسی داشته باشیم

-داده ها در یک جا مجتمع شده و انبار داده ها ایجاد شود

- توانایی رایانه ها، امکان استفاده از نرم افزارهای مرتبط با داده کاوی را به ما بدهند

-مدیران نیاز به استفاده از دانش استخراج شده از داده ها را حس کرده باشند

یادآوری: در نهایت داده کاوی منجر به کشف دانش می شود

جایگاه داده کاوی در سازمان

کف یا پایین مثلث شامل منابع اطلاعاتی ( مقالات- فایل ها- فراهم کنندگان اطلاعات- نظام های اطلاعاتی و سیستم پردازش تراکنش آنلاین)

استفاده کنندگان و کاربران نهایی (end user) جهت اتخاذ تصمیم در بالا یا راس مثلث واقع شده است

جایگاه داده کاوی گویای این پیام است که داده کاوی یک پدیده بی ربط و حادثه وار نیست و از منبع و بستر خاصی متولد شده و پس از پردازش و بررسی های گوناگون در اتخاذ تصمیم و انتخاب راهکارهای محتلف توسط مسئولان سازمان، نقش آفرینی می کند.

مثال:

برای مثال مدیران نیازمند شناخت گروه های متفاوت مشتریان خود هستند، یا علاقمند هستند بدانند احتمال خرید کدام مشتریان بالقوه بیشتر است. دولت به دنبال گروه بندی مناطق مختلف کشور بر حسب شاخص های توسعه یافتگی است. در این راستا می توان روش های مختلف توصیف و پیش بینی را برای استخراج الگوها و قواعد مناسب از سوابق داده های موجود به کار گرفت. در حوزه های تصمیم گیری جواب به این سوالات باید متکی بر داده ها و اطلاعات موجود باشد. این نتایج به همراه نظرات فرد خبره می توانند کمک مناسبی به افراد تصمیم گیرنده نمایند. روش های موجود برای این کار تحت نام عمومی داده کاوی و کشف دانش مطرح هستند. این روش ها ترکیبی از آمار، هوش مصنوعی، و پایگاه داده ها می باشند.


لینک منابع

منبع اول، 

کتاب: کلیات داده کاوی در علم اطلاعات و دانش شناسی (دکتر سعید غفاری و دکتر حمید قاضی زاده)

کتاب: داده کاوی و کشف دانش (مهدی غضنفری- سمیه علیزاده- بابک تیمورپور)

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش

این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد


دوشنبه 19 مهر 1400
ادامه مطلب

وقتی در مورد داده کاوی صحبت می کنیم، معمولاً کشف دانش از داده ها را مورد بحث قرار می دهیم. اشیاء داده data objects بخش اساسی یک پایگاه داده هستند.

مجموعه داده ها از اشیاء داده تشکیل شده اند (پس داده ها که در اینجا منظور ما اشیاداده است در دیتاست ها قرار دارند) یک شی داده نشان دهنده یک موجودیت است—در پایگاه داده فروش، اشیاء ممکن است مشتریان، اقلام ذخیره و فروش باشند. در یک پایگاه داده پزشکی، اشیاء ممکن است بیماران باشند. در پایگاه داده دانشگاه، اشیاء ممکن است دانشجویان، اساتید و دوره ها باشند. 

دیتاست ها در فایل ها ذخیره می شوند که می تواند فایل اکسل یا فایل مجموعه توئیت های یک توئیتر یا تیتر روزنامه ها در یکسال گذشه باشد)

ویژگی ها: اشیاء داده معمولاً با ویژگی ها توصیف می شوند. اگر اشیاء داده در یک پایگاه داده ذخیره شوند، آنها تاپل های داده هستند. به این معنی که ردیف های یک پایگاه داده با اشیاء داده مطابقت دارند و ستون ها با ویژگی ها مطابقت دارند.

در نتیجه تعریف داده یا دیتا: 

دیتا چیست؟ مجموعه ای از اشیاء داده و ویژگی های آنها

ویژگی مثل رنگ چشم یک فرد

مجموعه ای از ویژگی ها، یک شی یا رکورد را توصیف می کند. ویژگی ها نوع داده را مشخص می کنند.

انواع ویژگی ها: انواع مختلفی از ویژگی ها وجود دارد:

اسمی مثال ها: کد رشته، رنگ چشم، کد پستی. زن(1) و مرد(2). مجرد(1)- متاهل(2) عددی را به یک ویژگی اختصاص می دهیم.

رتبه ای (عددی-کیفی) مثال ها: رتبه بندی (مثلاً طعم چیپس سیب زمینی در مقیاس 1-10)، نمرات، ارتفاع در { بلند، متوسط، کوتاه} 

فاصله ای (عددی-کمی)،صفر مطلق وجود ندارد بلكه قراردادي است (درجه سانتيگراد)

نسبتی صفر مطلق و واقعي وجود دارد يعني نمره صفر بيانگر فقدان كامل ويژگي مورد اندازه گيري است(طول- وزن- حجم و ...)


یک فروشگاه شکلات فروشی را تصور کنید که انواع مختلفی از شکلات را دارد. صاحب این فروشگاه تمایل دارد که در مورد رضایتمندی مشتریانش در مورد خدمات ارائه شده و محصولات فروشگاه نظرسنجی انجام دهد. برای این منظور پرسشنامه‌ای را به صورت تصویر  تهیه کرد و بین مشتریانش پخش کرد.

پرسشنامه رضایت سنجی مشتریان

مسئول فروشگاه پس از جمع آوری پرسشنامه ها، داده ها را در قالب یک فایل Excel وارد کرد. نمونه‌ای از داده‌های جمع‌آوری شده از مشتریان را می‌توانید در جدول شماره 1 مشاهده کنید.

نمونه‌ای از داده‌های جمع‌آوری شده از طریق پرسشنامه

اگر موافق باشید برای داده‌های این پرسشنامه این کار را با هم انجام دهیم.

  • اول به سراغ متغیر جنسیت برویم. جنسیت یک متغیر دو مقداری است. البته اگر بخواهیم به طور کلی بیان کنیم باید بگوییم که متغیر جنسیت یک متغیر گسسته اسمی است. متغیرهای گسسته اسمی بین رده‌های متعدد تفاوت قائل می‌شود، اما ترتیب ضمنی‌ای بین رده ها وجود ندارد.

داده‌های اسمی یا به صورت متنی ذخیره می‌شوند یا می توان آن‌ها را به صورت کد ذخیره نمود. برای مثال می‌توانید به مردان کد 1 و به خانم‌ها کد 2 را اختصاص دهید.

  • متغیر سطح تحصیلات یک متغیر گسسته ترتیبی است. گسسته ترتیبی شامل داده‌هایی است که یک ترتیب طبیعی دارند. به عنوان نمونه در این مثال سطح تحصیلات دکتری بالاتر از فوق لیسانس و فوق لیسانس بالاتر از لیسانس و ….. در واقع ترتیبی به صورت دیپلم < فوق دیپلم < لیسانس < فوق لیسانس < دکتری در این داده‌ها وجود دارد. داده‌های گسسته ترتیبی را می‌توان به صورت کد نیز نشان داد.
  • متغیر بعدی سن است. به متغیرهایی از این قبیل متغیرهای پیوسته نسبتی گفته می‌شود. در متغیرهای پیوسته نسبتی همه نوع عملیات ریاضی مجاز است، به ویژه توانایی ضرب و تقسیم (به عبارت دیگر، نرخ ها مورد نظر است). مثال‌های ساده از داده‌های نسبتی هر متغیری است که دارای صفر مطلق باشد. مانند وزن، قد، میزان فروش، تعداد مشتریان، درآمد کسب شده در ماه گذشته و غیره.
  • بسیار خوب. به سراغ متغیر بعدی برویم. میزان درآمد. می‌توانید با توضیحاتی که ارائه شد بگویید که این متغیر از چه نوعی است؟

بله درست است. این متغیر هم از نوع گسسته اسمی است. این متغیر دارای سه رده (کمتر از 5 میلیون تومان، بین 5 تا 10 میلیون تومان و بالاتر از 10 میلیون تومان) است. توجه داشته باشید که مسئول فروشگاه این رده ها را به صورت کد نیز می توانست وارد کند. برای مثال برای درآمد کمتر از 5 میلیون تومان کد 1، برای درآمد بین 5 تا 10 میلیون تومان کد 2 و بالاتر از 10 میلیون تومان کد 3 را تعیین کند.

  • با توجه به توضیحات ارائه شده منطقه زندگی هم از نوع گسسته اسمی است.
  • در مورد میزان رضایت از برخورد مسئولان چه می‌توان گفت؟ داده‌های مربوط به میزان رضایت مشتریان نیز در قالب داده‌های گسسته ترتیبی جمع‌آوری شده‌اند. در پژوهش‌های بازاریابی، استفاده از یک مقیاس پنج گزینه‌ای برای ارزیابی ادراکات مرسوم است: خیلی کم کم  متوسط  زیاد  خیلی زیاد
  • و در نهایت می‌رسیم به متغیر نوع شکلات مورد علاقه مشتریان. داده‌های مربوط به این متغیر از نوع گسسته اسمی هستند و دارای سه رده ی «تلخ»، «سفید» و «شیری» است. همان طور که پیش از این نیز گفته شد برای هر یک از این رده ها می توانید یک کد در نظر بگیرید. برای مثال برای شکلات تلخ دارای کد 1، شکلات شیری کد 2 و شکلات سفید کد 3 را در نظر گرفت.

در تصویر  زیر ذخیره سازی داده‌های گسسته اسمی و گسسته ترتیبی با استفاده از کدگذاری انجام شده است.

پیش پردازش داده ها:

چرا پیش پردازش انجام می دهیم؟

داده‌ها در دنیای واقعی نادرست هستند(Dirty)

1.ناقص هستند: فاقد مقادیر مشخصه، فاقد ویژگی‌های خاص مورد علاقه، مثلا مقدار سن یا شغل خالی باشد 

دلایل ناقص بودن داده ها: 1) هنگام جمع‌آوری، مقدار (value) داده «مناسب نیست». 2) مشکلات انسانی/سخت افزاری/نرم افزاری

2.حاوی داده‌های انبوه نویزدار: حاوی خطاها یا موارد پرت متناقض مثلا سن یا حقوق و دستمزد را منفی وارد کرده باشد یا سن را منفی یا صفر یا 230 وارد کرده باشد می شود پرت متناقض. همانطور که در شکل نمایش داده شده این نویز بودن داده می تواند در سطح class یا attributs رخ دهد. خطاها در داده‌های وارد شده: کاربر به جای قیمت، تعداد کالا را وارد کرده باشه. یا اینکه مقدار منفی برای تعداد کالای فروخته شده وارد کرده باشد (بر خلاف داده های ناقص در داده های غیر دقیق، مقدار وجود دارد ولی نادرست است)

دلایل نویزی بودن داده ها: 1) اشکال در ابزارهای جمع آوری اطلاعات 2) خطای انسانی یا رایانه ای در ورود داده ها 3) خطا در انتقال و تبدیل داده ها

3.داده های ناسازگار: حاوی مغایرت در کدها یا نام‌ها:

در یک کاربر کد کالای خازن را 1005 وارد کرده و یک کاربر دیگر کد 1008 را برای خازن وارد کرده است.

یک کاربر سوییچ را با دو تا “ی” وارد کرده است و یک سوئیچ را با یک “ئ” و یک “ی” وارد کرده است.

دلایل ناسازگار بودن داده ها: 1) داده ها از منابع مختلف جمع آوری شده اند و موقع تجمیع اشکال بوجود آمده است 2) نقض وابستگی عملکردی (به عنوان مثال، اصلاح برخی از داده‌های پیوندی)

رکوردهای تکراری نیز به پاک سازی داده ها نیاز دارند.

چرا پیش پردازش داده ها مهم است؟

1) بدون داده با کیفیت، نتایج استخراج با کیفیت نخواهیم داشت

1-1)تصمیمات کیفی باید بر اساس داده های کیفی با کیفیت باشد

به عنوان مثال، داده های تکراری یا از دست رفته ممکن است باعث آمار نادرست یا حتی گمراه کننده شود.

1-2) انبار داده نیاز به ادغام مداوم داده های با کیفیت دارد

2) استخراج، تمیز کردن و تبدیل داده ها اکثریت کار ساخت انبار داده را شامل می شود

اندازه گیری کیفیت داده ها

دقت

کامل بودن

ثبات

به موقع بودن

باورپذیری

ارزش افزوده

تفسیر پذیری

دسترسی

دسته بندی های گسترده: (ذاتی، زمینه ای، بازنمایی و دسترسی)

کارهای اصلی در پیش پردازش داده ها چیست؟

پیش پردازش داده‌ها : پاکسازی داده، یکپارچه سازی داده، کاهش داده و تبدیل داده

1. پاکسازی داده ها:

به پاکسازی داده ها، پاکسازی یا لایروبی (تمیزکردن) داده نیز گفته می شود.

مقادیر از دست رفته (خالی- missing value) را پر کنید، داده های نویزی را هموار کنید، نقاط پرت را شناسایی یا حذف کنید، و ناسازگاری ها را برطرف کنید. اگر تجمیع داده ها صورت می گیرد، حل مشکل افزونگی. مثلا شخصی فرم مشخصات خود را در سامانه های مختلف ثبت کند و بخواهیم تجمیع کنیم باید افزونگی داده های تکراری در نظر گرفته شود.

تمیز کردن داده ها ضروری است زیرا سیستم های منبع حاوی "داده های نادرست" هستند که باید پاکسازی شوند.


داده های از دست رفته (missing data)

1.داده ها همیشه در دسترس نیستند

به عنوان مثال، بسیاری از تاپل ها هیچ ارزش ثبت شده ای برای چندین ویژگی مانند درآمد مشتری در داده های فروش ندارند

2.داده های از دست رفته ممکن است به دلیل

-خرابی تجهیزات

-ناسازگار با سایر داده های ثبت شده و در نتیجه حذف می شود

-داده ها به دلیل سوء تفاهم وارد نشده است (فک شود که به درد نمیخوره)

-داده های که در زمان ثبت مهم نبودند ولی بعدا مهم شده

-تاریخچه یا تغییرات داده ها را ثبت نکنید

-عدم ثبت داده به علت غیر قابل فهم بودن یا اشتباه سخت افزاری

چگونه داده های از دست رفته (missing data) را مدیریت کنیم؟

1.حذف داده (داده های که ما با انها سر و کار داریم به دو بخش تقسیم می شود :داده های ضروری و با اهمیت و داده های غیر ضروری). وقتی داده های ضروری ناموجود باشد، با توجه به اهمیت این داده ها اگر تخمین ما درست نباشد ممکن است خروجی تکنیک های داده کاوی را تحت تاثیر قرار بدهد، در نتیجه می تواند تکنیک مناسبی باشد. البته اگر تخمین ما قابل قبول باشد، تکنیک حذف چندان قابل قبول نخواهد بود. زمانی که داده های ناموجود در یک قلم داده ای زیاد باشد، می توان آن داده را حذف نمود. فرض کنید در یک ردیف از فاکتور فروش، نام کالا و تعداد کالای فروش رفته ناموجود است. در این مورد بهتر است آن قلم داده ای را از فاکتور فروش حذف کنیم. چون تعداد داده های ناموجود زیاد است، حذف داده می تواند تکنیک مناسبی باشد. تکینک حذف وقتی زیاد انجام شود ممکن است کل داده ها را تحت تاثیر قرار دهد و در نتیجه خروجی داده کاوی را ناکارآمد کند. در نیتجه در استفاده از این روش باید دقت نمود که خروجی داده کاوی را تحت تاثیر قرار ندهد. در کل حذف داده ها چندان روش کار آمدی نمی باشد.

2. تعیین داده ها توسط کاربر: (نکته مهم در این بخش آن است کسی که دارد داده ها را پر میکند باید شناخت و اشراف کامل به داده داشته باشد. فرض کنید تاریخ خروج کالا برای بعضی از کالاها در فاکتورهای ما ثبت نشده است. کسی که می تواند در این حوزه به ما کمک کند مسئول انبار است. اما چگونه؟ با یک مثال چگونگی انجام کار را بیان میکنیم (فرض کنید انبادار بر اساس تجربه زمان های خروج کالاهای خاص می داند. به عبارت دیگر می داند که چه کالای در چه بازه زمانی توسط مشتریان درخواست می شود. به عنوان مثال بخاری 2 ماه شروع فصل سرما بیشترین فروش خود را دارد در نتیجه اگر زمان خروج بخاری مشخص نباشد انباردار می تواند با کمک تجربه خود داده ها را تکمیل نماید.)
3.استفاده از یک مقدار کلی و ثابت برای داده های ناموجود (یکی دیگر از تکنیک های مربوط به پر کردن داده های ناموجود (داده‌های گم شده ) قرار دادن یک مقدار ثابت برای همه آن ها است. مثلا فرض کنید همه داده های غیر موجود را با یک مقدار مانند “نشناخته” یا Unknown پر کنیم. این روش بسیار ساده است، ولی چندان کارآمدی نیست، به همین خاطر کمتر از آن استفاده می شود.
6.استفاده از محتمل ترین مقدار (the most probable value) در این روش از تکنیک های مانند رگرسیون regression، استنتاج، درخت تصمیم گیری و … استفاده می شود. به عنوان مثال فرض کنید ما میزان خرید یک مشتری را ندارد قصد داریم آن را حدس بزنید، می تواند از درخت تصمیم گیری یا استنتاج مبتنی بر شبکه بیزین استفاده کرد.

Noisy Data

نویز: خطای تصادفی یا واریانس در یک متغیر اندازه گیری شده
مقادیر مشخصه نادرست ممکن است به دلیل:
ابزارهای جمع آوری اطلاعات معیوب
مشکلات ورود داده ها
مشکلات انتقال داده
محدودیت تکنولوژی
ناهماهنگی در قرارداد نامگذاری
رکوردهای تکراری
داده های ناقص
داده های متناقض
چگونه داده های نویزی را مدیریت کنیم؟
ابتدا داده ها و پارتیشن بندی را در انباره ها (با فرکانس برابر) مرتب کنید
صاف کردن داده ها در توابع رگرسیون
خوشه بندی
موارد پرت را شناسایی و حذف کنید
بازرسی ترکیبی رایانه و انسان
مقادیر مشکوک را شناسایی کنید و توسط انسان بررسی کنید (مثلاً با موارد دور از دسترس احتمالی برخورد کنید)
مثال:
سنکاربر
17#1
1361#2
15#3
23#4
440#5
همان‌طور که می‌بینید، کاربرانِ شماره‌ی 2 و 5 داده‌هایی غیر طبیعی در ستون سن دارند. مثلاً کاربرِ شماره‌ی 2، سهواً تاریخِ تولدِ خود را وارد کرده است و کاربرِ شماره‌ی 5 نیز، به اشتباه یک صفرِ اضافی برای عددِ سنِ خود درج کرده. پس به سادگی می‌توان تشخیص داد که این مجموعه‌ی داده برای مقدارِ سن دارای داده‌های پرت است.
روش‌های حذف داده‌های دارای نویز زیاد است. یکی از این روش‌ها حذفِ مقادیر بالا و پایین داده‌ها به تعداد مشخص است. برای مثال در همین جدول بالا، می‌توانیم مقادیری که کمتر از ۱۰ و یا بیش‌تر از ۱۰۰ هستند را حذف کنیم و یا مقادیری که در بازه‌ی بین ۱۰ تا ۱۰۰ قرار ندارد را با میانگینِ سن‌های باقی‌مانده جایگزین کنیم. با این‌کار داده‌ها در یک بازه‌ی مشخص و معقول قرار می‌گیرند. پس در مثال بالا، می‌توانیم کاربران 2 و 5 را حذف کنیم و یا مقدار سن را برای آن‌ها برابر میانگین سن‌های باقی‌مانده افراد است، قرار می‌دهیم.

البته در بعضی از مواقع ما به دنبال پیدا کردنِ نویزها هستیم تا داده‌ها را با توجه به مقادیرِ غیرطبیعی (anomalies) تحلیل کنیم. مثلاً می‌خواهیم در یک سری تراکنش‌های بانکی، آن دسته از تراکنش‌هایی که رفتارِ غیرِ عادی داشتند را کشف کرده و به تخلف‌های یک فرد در بانک رسیدگی کنیم. DBSCAN را هم می‌توان برای خوشه‌بندی مورد استفاده قرار داد و هم می‌توان از آن به عنوانِ یک الگوریتمْ جهتِ تشخیص داده‌های پرت استفاده کرد. همچنین روشی به عنوان SVM تک کلاسه (one class SVM) موجود است که می‌تواند داده‌های پرت را تشخیص دهد.

2.یکپارچه سازی داده ها: 

داده ها را از چندین منبع در یک ذخیره داده منسجم ترکیب می کند، به عنوان مثال. پایگاه داده تحلیلی.

منابع ممکن است شامل چندین پایگاه داده، مکعب داده یا فایل های داده باشد.


3.تبدیل داده ها: 

فرآیند تبدیل با اصلاح هرگونه ناهماهنگی (در صورت وجود) سروکار دارد.

-هموارسازی (حذف نویز از داده ها)- مثلا استفاده از میانگین

-تجمیع (مثلا میزان امانت کتاب، بجای اینکه گزارش روزانه تهیه گردد، هفتگی، ماهانه یا سالانه تجمیع شده (در یک فیلد) و گزارش ارائه گردد).

-تعمیم (مثلا بجای تک تک وارد کردن سن افراد یه دسته مشخص بشه. از سن 19-35 سال جوان، 36-60 میانسال و 60 به بالا مسن)

-نرمال سازی: تغییر مقیاس داده هاست به طوری که در یک دامنه خاص و کوچک تبدیل بشه به یک فاصله کمتر مثلا بین 1 و -1 و محاسبه Z-SCORE

-ایجاد یک ویژگی (فیلد) جدید. مثلا به جای داشتن فیلد طول عرض برای زمین کشاورزی، یک فیلد جدید می سازیم تحت عنوان مساحت و این دو عدد را در هم ضرب می کنیم.


4.کاهش داده ها: (کاهش تعداد داده ها-حذف سطر و کاهش بُعد یا حذف ستونی)

نمایش کاهش یافته در حجم را به دست می آورد اما نتایج تحلیلی یکسان یا مشابه را تولید می کند.

استراتژی های کاهش داده ها:

-تجمیع مکعبی داده ها

در نظر بگیرید که داده‌های فروش AllElectronics در هر سه ماهه از سال 2008 تا سال 2010 را دارید. اگر می‌خواهید فروش سالیانه را دریافت کنید، فقط باید فروش هر سه ماهه را برای هر سال جمع کنید. به این ترتیب تجمیع داده‌های مورد نیاز را در اختیار شما قرار می‌دهد که حجم بسیار کمتری دارند و در نتیجه حتی بدون از دست دادن داده‌ای به کاهش داده‌ها می‌رسیم.

تجمیع مکعب داده یک تجمع چند بعدی است که تجزیه و تحلیل چند بعدی را آسان می کند. مانند تصویر بالا، مکعب داده نشان دهنده فروش سالانه برای هر کالا برای هر شعبه است. مکعب داده داده های از پیش محاسبه شده و خلاصه شده را ارائه می دهد که دسترسی سریع به داده کاوی را آسان می کند.

-کاهش تعداد صفات (انتخاب گزینشی- روش مورد استفاده: درخت تصمیم)

-کاهش تعداد مقادیر ویژگی (بی اهمیت ها)

مجموعه داده های بزرگ دارای ویژگی های بسیاری است که برخی از آنها به داده کاوی بی ربط هستند یا برخی زائد هستند. انتخاب زیرمجموعه مشخصه با حذف ویژگی اضافی و نامربوط، حجم داده ها را کاهش می دهد. انتخاب زیرمجموعه ویژگی این اطمینان را ایجاد می‌کند که حتی پس از حذف ویژگی‌های ناخواسته، زیرمجموعه خوبی از ویژگی‌های اصلی به دست می‌آوریم، به طوری که احتمال توزیع داده‌ها با استفاده از تمام ویژگی‌ها تا حد امکان به توزیع داده اصلی نزدیک است.

-کاهش تعداد تاپل ها

-فشرده سازی داده ها

فشرده سازی داده ها تکنیکی است که در آن تکنیک تبدیل داده بر روی داده های اصلی به منظور به دست آوردن داده های فشرده اعمال می شود. اگر داده‌های فشرده‌شده را بتوان دوباره بازسازی کرد تا داده‌های اصلی را بدون از دست دادن هیچ اطلاعاتی تشکیل دهد، در این صورت کاهش داده‌ای «بدون تلفات» است. اگر نمی‌توانید داده‌های اصلی را از داده‌های فشرده بازسازی کنید، کاهش داده‌های شما «از بین می‌رود». برای فشرده سازی داده ها از روش کاهش ابعاد و تعداد نیز استفاده می شود.

-نمونه گیری-گسسته سازی-تولید سلسله مراتب مفهومی

چرا کاهش داده ها؟ یک دیتا بیس یا انباره داده ممکن است چندین ترابایت داده ذخیره داشته باشد، این امر تحلیل و آنالیز داده را پیچیده می کند و زمان بر است. این امر ممکن است است ما را با کمبود منابع سخت افزاری مواجه کند. 

نکته: اگر بدون از دست دادن داده ها بتوان داده ها را کاهش داد آن را کاهش داده بدون اتلاف فرض می کنیم و اگر برخی از داده ها از بین بروند کاهش داده با اتلاف می گویند.


5.گسسته سازی: 

با تقسیم محدوده یک ویژگی پیوسته به فواصل، تعداد مقادیر یک ویژگی پیوسته را کاهش دهید. 

گسسته سازی یکی از عملیاتی است که هدف آن تبدیل داده های دارای ویژگی های فاصله ای و نسبتی به نوع اسمی است.

با گسسته سازی می توان پیچیدگی مسئله را کاهش داد. انواع روش های گسسته سازی مانند: گسسته سازی بسامدی، اندازه ای، بخشی، اطلاعاتی و انتخابی است. که در هر کدام از آن ها ممکن است به روش ایستا (نمونه داده ها) یا به روش پویا ( کل داده ها و نوع توزیع آنها) عمل کرد. برای مثال در گسسته سازی بسامدی همانگونه که از اسم آن پیداست تمامی مواردی که بسامد رخداد رکوردها وجود دارد و در بازه های یکسان باشد تبدیل به یک مقدار معین می شود. 

روش ها: باینینگ- رگرسیون- خوشه بندی



لینک منابع

منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم، منبع نهم، منبع دهم، منبع یازدهم، منبع دوازدهم

کتاب:  (Jiawei Han-Micheline KamberData Mining: Concepts and Techniques

کتاب: آموزش گام به گام داده کاوی با رپید ماینر، اسماعیلی

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات و دانش شناسی/بازیابی اطلاعات و دانش

این مباحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می شود


یکشنبه 11 مهر 1400
ادامه مطلب

تعریف داده کاوی: داده کاوی فرآيند به خدمت گرفتن يک روش شناسی رايانه ای است که بـا استفاده از تكنيک ها و الگوريتم های مختلف در جست و جوی دانش نهفته در داده هاست . اين فرآيند مشاركتی ميان انسان و رايانه در نهايت به دنبال کشف الگوها و قواعد معنادار در ميان  داده ها می باشد.داده كاوی، پايگاه های داده ای بزرگ را به عنوان منبع دانش درنظر می گيرد.

.................................................................................................

نکته اول: کشف الگو و قواعد معنادار در میان داده ها را کشف دانش (Knowledge Discovery) می نامیم.

نکته دوم: داده ها را داده های ثانویه یا دست دوم نیز می نامند، غفاری و قاضی زاده در کتاب کلیات داده کاوی دلیل این نامگذاری را اینگونه بیان نموده اند: "داده کاوها مستقیما در فرایند جمع آوری داده ها دخالت نداشته اند".

نکته سوم: منظور از پایگاه داده ها پایگاه های داده ای توزیع شده است که می توان هرلحظه از هر پایگاه داده جست و جو و پرس و جوهایی انجام داد و نتیجه را در یکجا آورد (meta search engine)- مثال https://www.metacrawler.com (امیر غائبی)، یک سیستم مدیریت پایگاه داده توزیع شده متمرکز (DDBMS) داده ها را منطقی یکپارچه می‌کند، بنابراین می‌توان آن ها را طوری مدیریت کرد که گویی همه در یک مکان ذخیره شده اند.

........................................................................................

مراحل کشف دانش

این فرایند با داده ها شروع و با کشف دانش خاتمه می یابد.

پیش پردازش - شامل: (پاکسازی داده ها- یکپارچه سازی داده ها- انتخاب داده ها- تبدیل داده ها)

این مرحله پاکسازی (از بین بردن نویز و ناسازگاری داده ها) داده است که در آن اطلاعات خاصی حذف می شود که غیرضروری تلقی می شود و ممکن است درخواست ها را کُند کند، به عنوان مثال توجه به جنسیت بیمار در هنگام مطالعه بارداری غیرضروری باشد. 

یکپارچه سازی داده ها: ترکیب منابع داده متعدد و پراکنده و احیانا ناهمگن که در این مرحله چندین منبع داده ترکیب می شوند.

انتخاب - بازیابی داده های مربوط به عمل کاوش از پایگاه داده ها که در این مرحله داده های مرتبط با آنالیز از پایگاه داده بازیابی می شوند.

تبدیل کردن داده ها - همیشه داده‌ها به صورتِ عددی آماده نیستند و بعضاً نیاز دارند تا به فرمتِ دلخواهِ الگوریتم (یعنی همان فرمتِ ماتریسِ عددی) تبدیل شوند. این دست از داده‌ها بایستی قبل از تزریق به الگوریتم، به فُرمتِ مناسب تبدیل (transform) شوند. تبدیل یا تلفیق داده ها به اشکالی مناسب برای به کار بردن روش های مختلف آماری که شامل تبدیل داده ها به فرمی مناسب برای داده کاوی مثل خلاصه سازی (summary) و همسان سازی (aggregation) می باشد.

مثال: فرض کنید تعدادی دانش‌آموز داریم که هر کدام ویژگی‌های مختلفی دارند. سن، معدل، قد و جنسیت ۴ویژگیِ دانش‌آموزان هستند که می‌خواهیم بر روی آن‌ها عملیاتی مانند عملیاتِ خوشه‌بندی را انجام دهیم. ۳ ویژگیِ اولْ عددی هستند و ویژگی‌ِ آخر یعنی جنسیت ۲ مقدار دارد، مرد و زن. در اصطلاح، ویژگیِ جنسیت یک ویژگیِ categorical است، به این معنی که یک مقدارِ عددی نیست که بتوان بزرگی یا کوچکی را با آن مشخص کرد. مثلا زن از مرد بزرگ‌تر نیست و یا برعکس. این دستْ از ویژگی‌ها برای بسیاری از الگوریتم‌های داده‌کاوی نامفهوم هستند. بنابراین بایستی به ویژگی‌های عددی تبدیل شوند.

داده کاوی - استخراج الگوها از داده ها. این هسته KDD است.

معروف ترین تکنیک های مورد استفاده در داده کاوی عبارتند از:

طبقه بندی

خوشه بندی

استخراج قوانین انجمنی

تفسیر و ارزیابی - شناسایی الگو های جذاب ارائه دانش، بر اساس معیار های جذابیت که برای مشخص کردن الگو های صحیح و مورد نظر به وسیله معیار های اندازه گیری انجام می شود.

ارائه دانش: ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات هر پروژه کشف دانش مانند دیگر پروژه های سیستم اطلاعات باید مدیریت شود. به عبارت دیگر یعنی نمایش بصری، تکنیک های بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده شود.


سیر تحولی پایگاه داده ها


معماری (توصیف دقیق و فنی از یک سیستم دارای اجزا و هدف) سیستم داده کاوی


1. پايگاه داده، انباره داده يا ديگر مخازن اطلاعات: که از مجموعه ای از پايگاه داده ها، انباره داده، صفحه گسترده (Spread sheets)، يا ديگر انواع مخازن اطلاعات. پاکسازی داده‌ها و تکنيک‌های يکپارچه سازی روی اين داده‌ها انجام می‌شود.

2. سرويس دهنده پايگاه داده يا انباره داده: که مسئول بازيابی داده‌های مرتبط بر اساس نوع درخواست داده کاوی کاربر می‌باشد.

3. پايگاه دانش: اين پايگاه از دانش زمينه (Domain knowledge) تشکيل شده تا به جست‌وجو کمک کند، يا برای ارزيابی الگوهای يافته شده از آن استفاده می‌شود.

4. موتور داده کاوی (Data mining engine): موتور داده کاوی جزء اصلی هر سیستم داده کاوی است. این شامل چندین ماژول برای عملیاتی کردن وظایف داده کاوی، از جمله ارتباط، خصوصیات، طبقه بندی، خوشه بندی، پیش بینی، تجزیه و تحلیل سری های زمانی و غیره است.شامل ابزار و نرم افزار مورد استفاده برای به دست آوردن بینش و دانش از داده های جمع آوری شده از منابع داده های مختلف و ذخیره شده در انبار داده است.

5. پيمانه ارزيابی الگو (Pattern evaluation module): اين جزء معيارهای جذابيت (Interesting measures) را به کار می‌بندد و با پيمانه داده کاوی تعامل می‌کند. بدين‌صورت که تمرکز آن بر جست‌وجو بين الگوهای جذاب می‌باشد، و از يک حد آستانه جذابيت استفاده می‌کند تا الگوهای کشف شده را ارزيابی کند.

6. واسط کاربرگرافيکی (Graphical User Interface): اين پيمانه بين کاربر و سيستم داده کاوی ارتباط برقرار می‌کند، به کاربر اجازه می‌دهد تا با سيستم داده کاوی از طريق پرس‌وجو (Query) ارتباط برقرار کند، اين جزء به کاربر اجازه می‌دهد تا شمای پايگاه داده يا انباره داده را مرور کرده، الگوهای يافته شده را ارزيابی کرده و الگوها را در فرم‌های بصری گوناگون بازنمايی کند.

با انجام فرآيند داده کاوی، دانش، ارتباط يا اطلاعات سطح بالا از پايگاه داده استخراج می شود و قابل مرور از ديدگاه‌های مختلف خواهد بود. دانش کشف شده در سيستم های تصميم يار، کنترل فرآيند، مديريت اطلاعات و پردازش پرس‌وجو (Query processing) قابل استفاده خواهد بود.

بنابراين داده کاوی به عنوان يکی از شاخه های پيشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان يکی از نويد بخش‌ترين زمينه‌های توسعه بين رشته‌ای در صنعت اطلاعات است.

چند سوال:

آیا داده کاوی فرایند است؟ جواب بله

این فرایند منجر به چه چیزی می شود؟ کشف دانش

تعریف داده کاوی چیست؟ داده کاوی تعریف خاصی ندارد اما در نهایت می توان گفت فرایند پیدا کردن 

الگو در بین حجم عظیمی از داده ها است

آیا داده کاوی معماری دارد؟ داده کاوی نیز همانند سایر سیستم ها دارای معماری است

نکته: داده کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین داده‌ها کمک می‌کند و در این مورد نیز روابطی که یافته می‌شود باید به وسیله داده‌های واقعی دوباره بررسی و تست شود. داده کاوی نیاز به شناخت داده‌ها و ابزارهای تحلیل و افراد خبره در این زمینه ها را از بین نمی‌برد. و یک ابزار است.

لینک منابع:

منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم، منبع نهم، منبع دهم

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش

این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد


یکشنبه 28 شهريور 1400
ادامه مطلب
👈نویسنده : ملیحه باغبان

در دنياي امروز و در اقتصاد ديجيتالي و به خصوص در حوزه هاي خدمات دولـت الكترونيكـي، اطلاعات زيادي در فرمت متن وجود دارند كه ميتوان به راحتي آنها را در كـلاسهـاي از پـيش تعريف شده طبقه بندي و رده بندي كرد كه البته حدود 80 درصد از اطلاعات در دسترس به عنـوان اسناد متني در دسترس است. اين اطلاعات اغلب در بيشتر داده هاي توصيفي ماننـد گـزارشهـا،  اطلاعات به دست آمـده از مشـتريان، سـاخت مسـتندات كيفيـت، تحقيقـات ميـداني و تجزيـه و يادداشتها و غيره هستند. بـراي بهبـود عملكـرد و ارائـة خـدمات  تحليلهاي تئوري زمينهاي  باكيفيتتر در آينده و ارائة راه حل، بايد اطلاعات موجود را به فرمتهاي قابل استفاده تبديل كرد

روشهاي داده کاوی مزايايي دارد كه سبب مديريت بهتر منابع دانش و فعاليتهاي مـديريت دانش ميشود. داده کاوي در كشف دانـش مفيـد بـراي كمـك بـه پـردازش اطلاعـات و بهبـود  بهره وري كاركنان دانشي سازمان استفاده مـيشـود. نتيجـةداده کاوی، افـزايش ارزش افـزودة كسب وكار به منظور تسهيل فرايند تصميم گيري و كاهش هزينه، نسـبت بـه سـاير تكنيـكهـاي پردازش متن است. در اصل براي به دست آوردن مزايـاي رقـابتي تـر و بهـره بـرداري از اطلاعـات چندگانه، روشهاي كشف دانش در نظر گرفته ميشود



تهیه و تنظیم: خانم فاطمه احمدنژادیان، دانشجوی کارشناسی ارشد مدیریت اطلاعات دانشگاه تبریز


دانلود فایل PDF مروری بر مبحث داده کاوی




دانلود پاور پوینت مروری بر مبحث داده کاوی


لینک کمکی


پنجشنبه 18 بهمن 1397
ادامه مطلب
درباره نویسنده
ملیحه باغبان

📖  کارشناسی کتابداری
دانشگاه پیـــام نور مرکز تبریز

📖  کارشناسی ارشد
مدیریت اطلاعات دانشگاه تبریز

📖  دانشجوی دکتری
بازیـــابی اطـلاعــات و دانــــش