داده کاوی استخراج اطلاعات ضمنی، قبلا ناشناخته و بالقوه مفید از داده ها است. هدف آن کاوش و تجزیه و تحلیل، با ابزارهای خودکار یا نیمه خودکار، مقادیر زیادی از داده ها به منظور کشف الگوهای معنادار است.
تکنیک های مختلفی وجود دارد که امکان استخراج اطلاعات ناشناخته از داده ها را فراهم می کند. به طور کلی، یک تکنیک رویکرد مفهومی است که امکان استخراج و اجرای الگوریتم معین را فراهم می کند.
تکنیک های داده کاوی را می توان بسته به فرآیندی که برای استخراج دانش استفاده می شود به دو گروه طبقه بندی کرد:
تکنیک های نظارت شده و بدون نظارت (supervised and unsupervised techniques)
تکنیک های نظارت شده یا پیش بینی. روشهای نظارت شده روشهایی هستند که سعی میکنند رابطه بین ویژگیهای ورودی (که گاهی متغیرهای مستقل نامیده میشوند) و یک ویژگی هدف (گاهی اوقات به عنوان متغیر وابسته شناخته میشوند) را کشف کنند. رابطه کشف شده در ساختاری که به عنوان مدل نامیده می شود نشان داده می شود.
معمولاً مدلها پدیدههایی را توصیف و توضیح میدهند که در مجموعه داده پنهان هستند و میتوانند برای پیشبینی مقدار ویژگی هدف با دانستن مقادیر ویژگیهای ورودی استفاده شوند. روشهای نظارت شده را میتوان در حوزههای مختلفی مانند بازاریابی، مالی و تولید پیادهسازی کرد.
تمایز بین دو مدل اصلی نظارت شده مفید است: مدل های طبقه بندی (طبقه بندی کننده ها) و مدل های رگرسیون. مدل های رگرسیون فضای ورودی را در یک دامنه با ارزش واقعی ترسیم می کنند.
به عنوان مثال، یک رگرسیور می تواند تقاضا برای یک محصول خاص را با توجه به ویژگی های آن پیش بینی کند. از طرف دیگر، طبقهبندیکنندهها فضای ورودی را به کلاسهای از پیش تعریفشده ترسیم میکنند. به عنوان مثال، طبقهبندیکنندهها میتوانند برای طبقهبندی مصرفکنندگان وام مسکن بهعنوان خوب (بازپرداخت کامل وام مسکن به موقع) و بد (بازپرداخت با تاخیر) استفاده شوند.
نکته: این مدل ماشین با استفاده از داده های برچسب گذاری شده و داشتن جواب های درست یاد می گیرند که در لاتین به آن Supervised learning می گویند.
مثال های مختلفی از یادگیری ماشین با نظارت:
یکی از مثال های مرسوم در یادگیری با نظارت تشخیص و فیلتر کردن اسپم ها میان پیام ها است. ابتدا تمامی داده ها به دو کلاس سالم و اسپم تقسیم می شوند، سپس ماشین آن ها را با مثال های موجود می آموزد در نهایت از او امتحان گرفته می شود و امتحان به این منظور تلقی می شود که شما ایمیل جدیدی که تا به حال ندیده است را به آن بدهید، سپس آن تشخیص دهد که سالم یا اسپم است.
نمونه دیگری از این دست یادگیری می توان زد پیشبینی مقدار عددی می باشد، به عنوان مثال قیمت یک ماشین با مجموعه ویژگی هایی مثل (مسافت طی شده، برند، سن ماشین و ...). از این دست مثال ها با عنوان regression نامیده می شوند.
برای آموزش سیستم، شما باید تعداد زیادی نمونه یا به عبارتی داده، در اختیار سیستم بگذارید که شامل label و predictor ها باشد.
جایگزینهای زیادی برای نمایش طبقهبندیکنندهها وجود دارد، بهعنوان مثال، ماشینهای بردار پشتیبان، درختهای تصمیم، خلاصههای احتمالی، تابع جبری و غیره. در کنار رگرسیون و تخمین احتمال، طبقهبندی یکی از مدلهای مورد مطالعه است که احتمالاً دارای بیشترین ارتباط عملی است. مزایای بالقوه پیشرفت در طبقه بندی بسیار زیاد است، زیرا این تکنیک تأثیر زیادی بر سایر زمینه ها، هم در داده کاوی و هم در کاربردهای آن دارد.
طبقه بندی - Classification
آیا یک بیمار معین سرطان دارد؟ آیا یک تصویر داده شده حاوی هات داگ است؟ الگوریتمهای انجام طبقهبندی باینری از اهمیت ویژهای برخوردار هستند، زیرا بسیاری از الگوریتمها برای انجام دستهبندی عمومیتر که در آن برچسبهای دلخواه وجود دارد، صرفاً مجموعهای از طبقهبندیکنندههای باینری هستند که با هم کار میکنند.
به عنوان مثال، یک راه حل ساده برای مشکل تشخیص دست خط، آموزش یک دسته از طبقه بندی کننده های باینری است: یک آشکارساز 0، یک آشکارساز 1، یک آشکارساز 2، و غیره، که اطمینان آنها را به دست می دهد که تصویر مربوط به آنهاست. رقم مربوطه طبقهبندیکننده فقط رقمی را که طبقهبندیکننده آن بالاترین اطمینان را دارد، خروجی میدهد.
طبقه بندی نوعی الگوریتم یادگیری ماشینی تحت نظارت است. برای هر ورودی داده شده، الگوریتم های طبقه بندی به پیش بینی کلاس متغیر خروجی کمک می کنند.
برخی از پرکاربردترین الگوریتم های طبقه بندی
نزدیکترین همسایه K—Nearest Neighbor
درختان تصمیم Decision Trees
بیز ساده Naive Bayes
ماشینهای بردار پشتیبانی Support Vector Machines
نزدیکترین همسایه ها:
فرض کنید شما یک فروشگاهِ مواد غذایی و دو دسته مشتری دارید، مشتریانِ دسته اول، کسانی هستند که بیشتر از ۱۰۰ هزار تومان در هر بار مراجعه از شما خریداری میکنند و دستهی دوم مشتریانی هستند که در هر مراجعه معمولاً کمتر از ۱۰ هزار تومان خرید میکنند. شما که فروشندهی با تجربهای هستید، به سبب چند سالی که در این مغازه فعالیت دارید میدانید که مشتریان دستهی اول خانمهایی هستند که سن بالای ۴۰ سال دارند و با اتومبیل به فروشگاه شما میآیند (مثلاً در مراجعهی آنها به این الگو دقت کردهاید). و دستهی دوم، یعنی همان مشتریانی که کمتر از ۱۰ هزار تومان از شما خریداری می کنند. معمولاً آقایانی هستند که سن زیر ۲۵ سال دارند و بدون اتومبیل به فروشگاه میآیند. حال فرض کنید، یک مشتری جدید به فروشگاه آمده است. این شخص یک خانم ۴۵ ساله است که با اتومبیلِ خود به فروشگاه آمده. شما این مشتری جدید را در کدام دسته (با توجه به مشتریان قبلی) قرار میدهید؟ انتظار دارید که این شخص چقدر از شما خرید کند؟قطعاً بدون فکر کردن، دستهی اول را برای پاسخ به سوالِ بالا انتخاب میکنید. دلیل آن بسیار ساده است. این خانم ۴۵ ساله با اتومبیل، بسیار نزدیکتر به مشتریانِ دستهی اول است تا مشتریانِ دستهی دوم (دستهی دوم، آقایانی بودند که زیر ۲۵ سال سن داشتند و بدون اتومبیل به فروشگاه میآمدند). واژه نزدیکتر، در واقع پایهی عملیاتِ طبقهبندیِ K نزدیکترین همسایه میباشد. در این الگوریتم، هر کدام از نمونههای جدید (مثلاً مشتریهای جدید) با تمامی نمونههای قبلی مقایسه میشوند و به هر کدام از نمونههای قبلی که نزدیکتر باشند، به آن دسته از نمونهها تعلق می گیرند. این دقیقاً همان کاری است که در مثال اول توسط فروشندهی با تجربهی فروشگاه مواد غذایی انجام شد.
درختان تصمیم:درختها کاربردِ فراوانی در علومِ کامپیوتر و مهندسی نرمافزار دارند. از ساختمان داده و طراحیِ الگوریتم تا سیستمهای عامل و سیستمهای توزیع شده، همه به نوعی و در قسمتهای مختلف از درختهای تصمیم استفاده کردهاند. در دادهکاوی و طبقهبندی نیز این درختها جایگاهِ ویژهای دارند و بسیاری از الگوریتمهای طبقهبندی بر پایهی این درختها ساخته شدهاند. به آنها درختهای تصمیم میگویند زیرا میتوانند یک تصمیمِ خاص (مثلاً اینکه به یک شخص وام بدهیم یا نه) را بر اساسِ اطلاعاتِ گذشته اتخاذ کنند.به صورت رایج در فعالیتهای بازاریابی، مهندسی و پزشکی استفاده میشود.در ساختار درخت تصمیم، پیشبینی به دست آمده از درخت در قالب یک سری قواعد توضیح داده میشود. هر مسیر از ریشه تا یک برگ درخت تصمیم، یک قانون را بیان میکند و در نهایت برگ با کلاسی که بیشترین مقدار رکورد در آن تعلق گرفته برچسب میخورد.
اجزای اصلی درخت تصمیم
برگ (Leaf Nodes): گرههایی که تقسیمهای متوالی در آنجا پایان مییابد. برگها با یک کلاس مشخص میشوند.
ریشه (Root Node): منظور از ریشه، گره آغازین درخت است.
شاخه (Branches): در هر گره داخلی به تعداد جوابهای ممکن شاخه ایجاد میشود.
بیزساده: فرض کنید در حال قدمزدن در یک پارک هستید و جسمی قرمز در مقابل خود مشاهده میکنید. این جسم قرمز میتواند چوبدستی، خرگوش یا توپ باشد. شما قطعاً فرض میکنید که آن جسم یک توپ است. چرا؟بیایید تصور کنیم که در حال ساخت ماشینی هستیم که وظیفهاش طبقهبندی یک جسم میان سه گروه چوبدستی، توپ و خرگوش است. در ابتدا احتمالاً به این فکر میکنیم که ماشینی که میسازیم بتواند ویژگیهای جسم را شناسایی کند و سپس آن را با یکی از گروههایی که میخواهیم در آنها طبقهبندی کنیم مطابقت دهد.بهطوری که مثلاً اگر جسم دایرهای شکل باشد، پیشبینی کند که یک توپ است یا اگر آن جسم یک موجود زنده باشد، آنگاه پیشبینی ماشین ما خرگوش باشد، یا در مثالی که داشتیم، اگر جسم قرمز باشد، بهاحتمال زیاد آن را توپ در نظر بگیرد. چرا؟ زیرا از دورهی کودکی ما توپهای قرمز زیادی دیدهایم، اما یک خرگوش قرمز یا یک چوبدستی قرمز در نظر ما بسیار بعید است. بنابراین در مثالی که داریم ویژگی ما رنگ قرمز است که آن را با هر سه گروه مطابقت میدهیم و میبینیم که احتمال اینکه این جسم یک توپ باشد خیلی بیشتر است.این تعریف ساده الگوریتم بیز ساده (Naïve Bayes) است.الگوریتم بیز ساده (Naive Bayes) بیشتر در تجزیهوتحلیل احساسات (Sentiment Analysis)، فیلتر هرزنامهها (Spam Filtering)، سیستمهای توصیهگر (Recommendation Systems) و غیره استفاده میشود. پیادهسازی آن سریع و آسان است، اما بزرگترین عیب آن نیاز به مستقلبودن پیشبینیکنندهها یا همان ویژگیهاست؛ در دنیای واقعی ویژگیها معمولاً بههموابسته هستند که این عملکرد طبقهبندیکننده ضعیف میکند.
ماشینهای بردار پشتیبانی: فرض کنیم من صاحب یک کسبوکار هستم و هر روز تعداد زیادی ایمیل از مشتریها دریافت میکنم. بعضی از این ایمیلها شکایتها و نارضایتیهایی هستند که من هرچه سریعتر باید به آنها پاسخ بدهم و به آنها رسیدگی کنم. در غیر این صورت کسبوکار من با ضرر روبرو خواهد شد. من به دنبال راهی هستم که این ایمیلها را هرچه سریعتر تشخیص بدهم(پیدا کنم) و پاسخ آنها را زودتر از بقیه ارسال کنم.
رویکرد اول: من میتوانم برچسبهایی با عنوانهای: اورژانسی، شکایت و راهنمایی در جیمیل(GMail) خود ایجاد کنم.اشکال این روش این است که من باید مدتی فکر کنم و همه کلمههای کلیدی(Keyword) بالغوه که مشتریهای عصبانی ممکن است در ایمیلهای خود استفاده کنند را پیدا کنم. طبیعی است که بعضی از آنها را هم از قلم انداخته شوند. با گذشت زمان هم لیست این کلمهها به احتمال زیاد شلوغ و مدیریت کردن آنها به کار مشکلی تبدیل میشود.
رویکرد دوم: من میتوانم از یک الگوریتم یادگیری ماشین نظارت شده استفاده کنم.
قدم اول: به تعدادی ایمیل نیاز دارم.(هرچه بیشتر بهتر)
قدم دوم: عنوان ایمیلهای قدم اول رو میخوانم و آنها را در یکی از دو گروه «شکایت است» و یا «شکایت نیست» طبقهبندی میکنم. اینجوری میتوانم ایمیلها را برچسب گذاری کنم.
قدم سوم: روی این مجموعه داده، مدلی را آموزش میدهم.
قدم چهارم: کیفیت یا صحت پیشبینی های مدل آموزش دادهشده را ارزیابی میکنم.(با استفاده از روش Cross Validation)
قدم پنجم: از این مدل برای پیشبینی این که ایمیلهای جدیدی که رسیدهاند، شکایت هستند یا نه، استفاده میکنم.
در این رویکرد اگر مدل را با تعداد ایمیلهای زیادی آموزش داده باشیم، مدل عملکرد خوبی را نشون میدهد. SVM فقط یکی از روشهایی هست که ما میتوانیم برای یادگرفتن از دادههای موجود و پیشبینی کردن، استفاده کنیم.همچنین باید به این نکته هم توجه داشته باشیم که قدم دوم اهمیت زیادی دارد و دلیلش این است که اگر در شروع کار، ایمیلهای برچسبگذاری نشده را به SVM بدهیم، کار خاصی را نمیتواند انجام دهد.
موارد کاربرد یادگیری با نظارت Supervised ML به شرح زیر است:
بیوانفورماتیک (Bioinformatics)
ساختار کمی (Quantitative Structure)
بازاریابی بانک اطلاعاتی (Database Marketing)
تشخیص دست خط(Handwriting Recognition)
بازیابی اطلاعات (Information Retrieval)
یادگیری درجهبندی (Learning to Rank)
استخراج اطلاعات (Information Extraction)
تشخیص اشیاء در دید رایانهای (Object Recognition In Computer Vision)
تشخیص نوری کاراکترها (Optical Character Recognition)
تشخیص اسپم (Spam Detection)
تشخیص الگو (Pattern Recognition)
و ….
لینک منابع: منبع اول، منبع دوم، منبع سوم, منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم، منبع نهم، منبع دهم، منبع یازدهم، منبع دوازدهم، منبع سیزدهم
Martín, L., Baena, L., Garach, L., López, G., & De Oña, J. (2014). Using data mining techniques to road safety improvement in Spanish roads. Procedia-social and behavioral sciences, 160, 607-614.
مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش
این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد