تعریف داده کاوی: داده کاوی فرآيند به خدمت گرفتن يک روش شناسی رايانه ای است که بـا استفاده از تكنيک ها و الگوريتم های مختلف در جست و جوی دانش نهفته در داده هاست . اين فرآيند مشاركتی ميان انسان و رايانه در نهايت به دنبال کشف الگوها و قواعد معنادار در ميان  داده ها می باشد.داده كاوی، پايگاه های داده ای بزرگ را به عنوان منبع دانش درنظر می گيرد.

.................................................................................................

نکته اول: کشف الگو و قواعد معنادار در میان داده ها را کشف دانش (Knowledge Discovery) می نامیم.

نکته دوم: داده ها را داده های ثانویه یا دست دوم نیز می نامند، غفاری و قاضی زاده در کتاب کلیات داده کاوی دلیل این نامگذاری را اینگونه بیان نموده اند: "داده کاوها مستقیما در فرایند جمع آوری داده ها دخالت نداشته اند".

نکته سوم: منظور از پایگاه داده ها پایگاه های داده ای توزیع شده است که می توان هرلحظه از هر پایگاه داده جست و جو و پرس و جوهایی انجام داد و نتیجه را در یکجا آورد (meta search engine)- مثال https://www.metacrawler.com (امیر غائبی)، یک سیستم مدیریت پایگاه داده توزیع شده متمرکز (DDBMS) داده ها را منطقی یکپارچه می‌کند، بنابراین می‌توان آن ها را طوری مدیریت کرد که گویی همه در یک مکان ذخیره شده اند.

........................................................................................

مراحل کشف دانش

این فرایند با داده ها شروع و با کشف دانش خاتمه می یابد.

پیش پردازش - شامل: (پاکسازی داده ها- یکپارچه سازی داده ها- انتخاب داده ها- تبدیل داده ها)

این مرحله پاکسازی (از بین بردن نویز و ناسازگاری داده ها) داده است که در آن اطلاعات خاصی حذف می شود که غیرضروری تلقی می شود و ممکن است درخواست ها را کُند کند، به عنوان مثال توجه به جنسیت بیمار در هنگام مطالعه بارداری غیرضروری باشد. 

یکپارچه سازی داده ها: ترکیب منابع داده متعدد و پراکنده و احیانا ناهمگن که در این مرحله چندین منبع داده ترکیب می شوند.

انتخاب - بازیابی داده های مربوط به عمل کاوش از پایگاه داده ها که در این مرحله داده های مرتبط با آنالیز از پایگاه داده بازیابی می شوند.

تبدیل کردن داده ها - همیشه داده‌ها به صورتِ عددی آماده نیستند و بعضاً نیاز دارند تا به فرمتِ دلخواهِ الگوریتم (یعنی همان فرمتِ ماتریسِ عددی) تبدیل شوند. این دست از داده‌ها بایستی قبل از تزریق به الگوریتم، به فُرمتِ مناسب تبدیل (transform) شوند. تبدیل یا تلفیق داده ها به اشکالی مناسب برای به کار بردن روش های مختلف آماری که شامل تبدیل داده ها به فرمی مناسب برای داده کاوی مثل خلاصه سازی (summary) و همسان سازی (aggregation) می باشد.

مثال: فرض کنید تعدادی دانش‌آموز داریم که هر کدام ویژگی‌های مختلفی دارند. سن، معدل، قد و جنسیت ۴ویژگیِ دانش‌آموزان هستند که می‌خواهیم بر روی آن‌ها عملیاتی مانند عملیاتِ خوشه‌بندی را انجام دهیم. ۳ ویژگیِ اولْ عددی هستند و ویژگی‌ِ آخر یعنی جنسیت ۲ مقدار دارد، مرد و زن. در اصطلاح، ویژگیِ جنسیت یک ویژگیِ categorical است، به این معنی که یک مقدارِ عددی نیست که بتوان بزرگی یا کوچکی را با آن مشخص کرد. مثلا زن از مرد بزرگ‌تر نیست و یا برعکس. این دستْ از ویژگی‌ها برای بسیاری از الگوریتم‌های داده‌کاوی نامفهوم هستند. بنابراین بایستی به ویژگی‌های عددی تبدیل شوند.

داده کاوی - استخراج الگوها از داده ها. این هسته KDD است.

معروف ترین تکنیک های مورد استفاده در داده کاوی عبارتند از:

طبقه بندی

خوشه بندی

استخراج قوانین انجمنی

تفسیر و ارزیابی - شناسایی الگو های جذاب ارائه دانش، بر اساس معیار های جذابیت که برای مشخص کردن الگو های صحیح و مورد نظر به وسیله معیار های اندازه گیری انجام می شود.

ارائه دانش: ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات هر پروژه کشف دانش مانند دیگر پروژه های سیستم اطلاعات باید مدیریت شود. به عبارت دیگر یعنی نمایش بصری، تکنیک های بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده شود.


سیر تحولی پایگاه داده ها


معماری (توصیف دقیق و فنی از یک سیستم دارای اجزا و هدف) سیستم داده کاوی


1. پايگاه داده، انباره داده يا ديگر مخازن اطلاعات: که از مجموعه ای از پايگاه داده ها، انباره داده، صفحه گسترده (Spread sheets)، يا ديگر انواع مخازن اطلاعات. پاکسازی داده‌ها و تکنيک‌های يکپارچه سازی روی اين داده‌ها انجام می‌شود.

2. سرويس دهنده پايگاه داده يا انباره داده: که مسئول بازيابی داده‌های مرتبط بر اساس نوع درخواست داده کاوی کاربر می‌باشد.

3. پايگاه دانش: اين پايگاه از دانش زمينه (Domain knowledge) تشکيل شده تا به جست‌وجو کمک کند، يا برای ارزيابی الگوهای يافته شده از آن استفاده می‌شود.

4. موتور داده کاوی (Data mining engine): موتور داده کاوی جزء اصلی هر سیستم داده کاوی است. این شامل چندین ماژول برای عملیاتی کردن وظایف داده کاوی، از جمله ارتباط، خصوصیات، طبقه بندی، خوشه بندی، پیش بینی، تجزیه و تحلیل سری های زمانی و غیره است.شامل ابزار و نرم افزار مورد استفاده برای به دست آوردن بینش و دانش از داده های جمع آوری شده از منابع داده های مختلف و ذخیره شده در انبار داده است.

5. پيمانه ارزيابی الگو (Pattern evaluation module): اين جزء معيارهای جذابيت (Interesting measures) را به کار می‌بندد و با پيمانه داده کاوی تعامل می‌کند. بدين‌صورت که تمرکز آن بر جست‌وجو بين الگوهای جذاب می‌باشد، و از يک حد آستانه جذابيت استفاده می‌کند تا الگوهای کشف شده را ارزيابی کند.

6. واسط کاربرگرافيکی (Graphical User Interface): اين پيمانه بين کاربر و سيستم داده کاوی ارتباط برقرار می‌کند، به کاربر اجازه می‌دهد تا با سيستم داده کاوی از طريق پرس‌وجو (Query) ارتباط برقرار کند، اين جزء به کاربر اجازه می‌دهد تا شمای پايگاه داده يا انباره داده را مرور کرده، الگوهای يافته شده را ارزيابی کرده و الگوها را در فرم‌های بصری گوناگون بازنمايی کند.

با انجام فرآيند داده کاوی، دانش، ارتباط يا اطلاعات سطح بالا از پايگاه داده استخراج می شود و قابل مرور از ديدگاه‌های مختلف خواهد بود. دانش کشف شده در سيستم های تصميم يار، کنترل فرآيند، مديريت اطلاعات و پردازش پرس‌وجو (Query processing) قابل استفاده خواهد بود.

بنابراين داده کاوی به عنوان يکی از شاخه های پيشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان يکی از نويد بخش‌ترين زمينه‌های توسعه بين رشته‌ای در صنعت اطلاعات است.

چند سوال:

آیا داده کاوی فرایند است؟ جواب بله

این فرایند منجر به چه چیزی می شود؟ کشف دانش

تعریف داده کاوی چیست؟ داده کاوی تعریف خاصی ندارد اما در نهایت می توان گفت فرایند پیدا کردن 

الگو در بین حجم عظیمی از داده ها است

آیا داده کاوی معماری دارد؟ داده کاوی نیز همانند سایر سیستم ها دارای معماری است

نکته: داده کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین داده‌ها کمک می‌کند و در این مورد نیز روابطی که یافته می‌شود باید به وسیله داده‌های واقعی دوباره بررسی و تست شود. داده کاوی نیاز به شناخت داده‌ها و ابزارهای تحلیل و افراد خبره در این زمینه ها را از بین نمی‌برد. و یک ابزار است.

لینک منابع:

منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم، منبع نهم، منبع دهم

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش

این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد



یکشنبه 28 شهريور 1400
ارسال نظر برای این مطلب

نام
ایمیل (منتشر نمی‌شود)
وبسایت
:) :( ;) :D ;)) :X :? :P :* =(( :O @};- :B :S
کد امنیتی
رفرش
کد امنیتی
نظر خصوصی
مشخصات شما ذخیره شود ؟ [حذف مشخصات] [شکلک ها]