تعریف داده کاوی: داده کاوی فرآيند به خدمت گرفتن يک روش شناسی رايانه ای است که بـا استفاده از تكنيک ها و الگوريتم های مختلف در جست و جوی دانش نهفته در داده هاست . اين فرآيند مشاركتی ميان انسان و رايانه در نهايت به دنبال کشف الگوها و قواعد معنادار در ميان داده ها می باشد.داده كاوی، پايگاه های داده ای بزرگ را به عنوان منبع دانش درنظر می گيرد.
.................................................................................................
نکته اول: کشف الگو و قواعد معنادار در میان داده ها را کشف دانش (Knowledge Discovery) می نامیم.
نکته دوم: داده ها را داده های ثانویه یا دست دوم نیز می نامند، غفاری و قاضی زاده در کتاب کلیات داده کاوی دلیل این نامگذاری را اینگونه بیان نموده اند: "داده کاوها مستقیما در فرایند جمع آوری داده ها دخالت نداشته اند".
نکته سوم: منظور از پایگاه داده ها پایگاه های داده ای توزیع شده است که می توان هرلحظه از هر پایگاه داده جست و جو و پرس و جوهایی انجام داد و نتیجه را در یکجا آورد (meta search engine)- مثال https://www.metacrawler.com (امیر غائبی)، یک سیستم مدیریت پایگاه داده توزیع شده متمرکز (DDBMS) داده ها را منطقی یکپارچه میکند، بنابراین میتوان آن ها را طوری مدیریت کرد که گویی همه در یک مکان ذخیره شده اند.
........................................................................................
مراحل کشف دانش
این فرایند با داده ها شروع و با کشف دانش خاتمه می یابد.
پیش پردازش - شامل: (پاکسازی داده ها- یکپارچه سازی داده ها- انتخاب داده ها- تبدیل داده ها)
این مرحله پاکسازی (از بین بردن نویز و ناسازگاری داده ها) داده است که در آن اطلاعات خاصی حذف می شود که غیرضروری تلقی می شود و ممکن است درخواست ها را کُند کند، به عنوان مثال توجه به جنسیت بیمار در هنگام مطالعه بارداری غیرضروری باشد.
یکپارچه سازی داده ها: ترکیب منابع داده متعدد و پراکنده و احیانا ناهمگن که در این مرحله چندین منبع داده ترکیب می شوند.
انتخاب - بازیابی داده های مربوط به عمل کاوش از پایگاه داده ها که در این مرحله داده های مرتبط با آنالیز از پایگاه داده بازیابی می شوند.
تبدیل کردن داده ها - همیشه دادهها به صورتِ عددی آماده نیستند و بعضاً نیاز دارند تا به فرمتِ دلخواهِ الگوریتم (یعنی همان فرمتِ ماتریسِ عددی) تبدیل شوند. این دست از دادهها بایستی قبل از تزریق به الگوریتم، به فُرمتِ مناسب تبدیل (transform) شوند. تبدیل یا تلفیق داده ها به اشکالی مناسب برای به کار بردن روش های مختلف آماری که شامل تبدیل داده ها به فرمی مناسب برای داده کاوی مثل خلاصه سازی (summary) و همسان سازی (aggregation) می باشد.
مثال: فرض کنید تعدادی دانشآموز داریم که هر کدام ویژگیهای مختلفی دارند. سن، معدل، قد و جنسیت ۴ویژگیِ دانشآموزان هستند که میخواهیم بر روی آنها عملیاتی مانند عملیاتِ خوشهبندی را انجام دهیم. ۳ ویژگیِ اولْ عددی هستند و ویژگیِ آخر یعنی جنسیت ۲ مقدار دارد، مرد و زن. در اصطلاح، ویژگیِ جنسیت یک ویژگیِ categorical است، به این معنی که یک مقدارِ عددی نیست که بتوان بزرگی یا کوچکی را با آن مشخص کرد. مثلا زن از مرد بزرگتر نیست و یا برعکس. این دستْ از ویژگیها برای بسیاری از الگوریتمهای دادهکاوی نامفهوم هستند. بنابراین بایستی به ویژگیهای عددی تبدیل شوند.
داده کاوی - استخراج الگوها از داده ها. این هسته KDD است.
معروف ترین تکنیک های مورد استفاده در داده کاوی عبارتند از:
طبقه بندی
خوشه بندی
استخراج قوانین انجمنی
تفسیر و ارزیابی - شناسایی الگو های جذاب ارائه دانش، بر اساس معیار های جذابیت که برای مشخص کردن الگو های صحیح و مورد نظر به وسیله معیار های اندازه گیری انجام می شود.
ارائه دانش: ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات هر پروژه کشف دانش مانند دیگر پروژه های سیستم اطلاعات باید مدیریت شود. به عبارت دیگر یعنی نمایش بصری، تکنیک های بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده شود.
سیر تحولی پایگاه داده ها
معماری (توصیف دقیق و فنی از یک سیستم دارای اجزا و هدف) سیستم داده کاوی
1. پايگاه داده، انباره داده يا ديگر مخازن اطلاعات: که از مجموعه ای از پايگاه داده ها، انباره داده، صفحه گسترده (Spread sheets)، يا ديگر انواع مخازن اطلاعات. پاکسازی دادهها و تکنيکهای يکپارچه سازی روی اين دادهها انجام میشود.
2. سرويس دهنده پايگاه داده يا انباره داده: که مسئول بازيابی دادههای مرتبط بر اساس نوع درخواست داده کاوی کاربر میباشد.
3. پايگاه دانش: اين پايگاه از دانش زمينه (Domain knowledge) تشکيل شده تا به جستوجو کمک کند، يا برای ارزيابی الگوهای يافته شده از آن استفاده میشود.
4. موتور داده کاوی (Data mining engine): موتور داده کاوی جزء اصلی هر سیستم داده کاوی است. این شامل چندین ماژول برای عملیاتی کردن وظایف داده کاوی، از جمله ارتباط، خصوصیات، طبقه بندی، خوشه بندی، پیش بینی، تجزیه و تحلیل سری های زمانی و غیره است.شامل ابزار و نرم افزار مورد استفاده برای به دست آوردن بینش و دانش از داده های جمع آوری شده از منابع داده های مختلف و ذخیره شده در انبار داده است.
5. پيمانه ارزيابی الگو (Pattern evaluation module): اين جزء معيارهای جذابيت (Interesting measures) را به کار میبندد و با پيمانه داده کاوی تعامل میکند. بدينصورت که تمرکز آن بر جستوجو بين الگوهای جذاب میباشد، و از يک حد آستانه جذابيت استفاده میکند تا الگوهای کشف شده را ارزيابی کند.
6. واسط کاربرگرافيکی (Graphical User Interface): اين پيمانه بين کاربر و سيستم داده کاوی ارتباط برقرار میکند، به کاربر اجازه میدهد تا با سيستم داده کاوی از طريق پرسوجو (Query) ارتباط برقرار کند، اين جزء به کاربر اجازه میدهد تا شمای پايگاه داده يا انباره داده را مرور کرده، الگوهای يافته شده را ارزيابی کرده و الگوها را در فرمهای بصری گوناگون بازنمايی کند.
با انجام فرآيند داده کاوی، دانش، ارتباط يا اطلاعات سطح بالا از پايگاه داده استخراج می شود و قابل مرور از ديدگاههای مختلف خواهد بود. دانش کشف شده در سيستم های تصميم يار، کنترل فرآيند، مديريت اطلاعات و پردازش پرسوجو (Query processing) قابل استفاده خواهد بود.
بنابراين داده کاوی به عنوان يکی از شاخه های پيشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان يکی از نويد بخشترين زمينههای توسعه بين رشتهای در صنعت اطلاعات است.
چند سوال:
آیا داده کاوی فرایند است؟ جواب بله
این فرایند منجر به چه چیزی می شود؟ کشف دانش
تعریف داده کاوی چیست؟ داده کاوی تعریف خاصی ندارد اما در نهایت می توان گفت فرایند پیدا کردن
الگو در بین حجم عظیمی از داده ها است
آیا داده کاوی معماری دارد؟ داده کاوی نیز همانند سایر سیستم ها دارای معماری است
نکته: داده کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین دادهها کمک میکند و در این مورد نیز روابطی که یافته میشود باید به وسیله دادههای واقعی دوباره بررسی و تست شود. داده کاوی نیاز به شناخت دادهها و ابزارهای تحلیل و افراد خبره در این زمینه ها را از بین نمیبرد. و یک ابزار است.
منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم، منبع نهم، منبع دهم
مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش
این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد