ریشههای داده کاوی در میان سه خانواده از علوم، قابل پیگیری است.

مهمترین این خانوادهها، آمار کلاسیک (Classic Statistics) میباشد. بدون آمار، هیچ داده کاوی وجود نخواهد داشت، بطوریکه آمار، اساس اغلب تکنولوژیهایی است که داده کاوی بر روی آنها بنا میشود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون، توزیع استاندارد، انحراف استاندارد، واریانس، تحلیل خوشه، و فاصلههای اطمینان را که همه این موارد برای مطالعه داده و ارتباط بین دادهها میباشد، را در بر میگیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیکهای داده کاوی ایفا میکند.
دومین خانوادهای که داده کاوی به آن تعلق دارد هوش مصنوعی (Artificial Intelligence) است. هوش مصنوعی که بر پایه روشهای ابتکاری است و با آمار ضدیت دارد، تلاش دارد تا فرایندی مانند فکر انسان، را برای حل مسائل آماری بهکار بندد. چون این رویکرد نیاز به توان محاسباتی بالایی دارد، تا اوایل دهه 1980 عملی نشد. هوش مصنوعی کاربردهای کمی را در حوزههای علمی و حکومتی پیدا کرد، اما نیاز به استفاده از کامپیوترهای بزرگ باعث شد همه افراد نتوانند از تکنیکهای ارائه شده استفاده کنند.
سومین خانواده داده کاوی، یادگیری ماشین (Machine Learning) است، که به مفهوم دقیقتر، اجتماع آمار و هوش مصنوعی میباشد. درحالیکه هوش مصنوعی نتوانست موفقیت تجاری کسب کند، یادگیری ماشین در بسیاری از موارد جایگزین آن شد.
کاربردهای داده کاوی
کاربردهای معمول تجاری: از قبیل تحلیل و مدیریت بازار (تحلیل بورس- تحلیل رفتار مشتریان)، تحلیل سبد بازار، بازاریابی هدف، فهم رفتار مشتری، تحلیل و مدیریت ریسک؛
مثال:
گزارش دیجیکالا و کتاب، که به پرسشهای زیر پاسخ دهد؛
نقش دیجیکالا در تأمین کتاب برای مردم ایران چیست؟
دیجیکالا در حوزه فروش کتاب چه عملکردی داشته است؟
ایرانیانی که تجربه خرید کتاب از دیجیکالا دارند، چه ویژگیها و عادتهایی دارند؟ (لینک دانلود گزارش کامل)
مدیریت و کشف فریب: کشف فریب تلفنی، کشف فریبهای بیمهای و اتومبیل، کشف حقههای کارت اعتباری، کشف تراکنشهای مشکوک مالی (پولشویی)؛
متن کاوی (Text Mining): پالایش متن (نامههای الکترونیکی، گروههای خبری و غیره)؛
پزشکی: کشف ارتباط علامت و بیماری، تحلیل آرایههای DNA، تصاویر پزشکی؛
ورزش: آمارهای ورزشی؛
وب کاوی (Web Mining): پیشنهاد صفحات مرتبط، بهبود ماشینهای جستوجوگر یا شخصیسازی حرکت در وب سایت؛
تعریف کلان داده (گارتنر)
John Mashey متخصص کامپیوتر در اوایل دهه 90 میلادی اصطلاح بیگ دیتا را ابداع کرد اما این مفهوم در سال 2000 مورد توجه قرار گرفت و شاید دلیل این توجه ظهور اینترنت به صورت فراگیر، گرایش ما به دستگاه های هوشمند و محبوب شدن رسانه های اجتماعی باشد. ما به طور روزانه در حال تولید اطلاعات به صورت گسترده و سریع هستیم و همین اطلاعات اساس کلان داده یا بیگ دیتا را تشکیل می دهد. در واقع بیگ دیتا به معنای حجم زیادی از داده ها و اطلاعات است که به سرعت و با تنوع بسیار منتشر می شود و نمی شود آنها را با استفاده از روش های سنتی پردازش کرد.
بیگ دیتا یا کلان داده چقدر بزرگ است و منظور از "سرعت" دقیقا چیست؟ Douglas Laney یک متخصص داده و اطلاعات در شرکت معتبر گارتنر است، او در سال 2001 سه ویژگی مهم برای بیگ دیتا تعریف کرد: حجم، سرعت و تنوع. این ویژگی ها برای تعریف بیگ دیتا و تشخیص آن از دیتا معمولی کاربرد دارد.

5 V's of Big Data
- Volume
- Veracity
- Variety
- Value
- Velocity
حجم: نام Big Data به خودی خود مربوط به اندازه عظیمی است. Big Data حجم وسیعی از دادهها است که روزانه از منابع بسیاری مانند فرآیندهای تجاری، ماشینها، پلتفرمهای رسانههای اجتماعی، شبکهها، تعاملات انسانی و بسیاری موارد دیگر تولید میشوند. فیس بوک می تواند تقریباً یک میلیارد پیام ایجاد کند، 4.5 میلیارد بار که دکمه «لایک» ضبط می شود، و بیش از 350 میلیون پست جدید هر روز آپلود می شود. فناوری های کلان داده می توانند حجم زیادی از داده ها را مدیریت کنند.
صحت: به این معناست که داده ها چقدر قابل اعتماد هستند. راه های زیادی برای فیلتر کردن یا ترجمه داده ها دارد. صداقت فرآیندی است که در آن می توان داده ها را به طور کارآمد مدیریت و مدیریت کرد. کلان داده نیز در توسعه کسب و کار ضروری است. به عنوان مثال، پست های فیس بوک با هشتگ.
تنوع: کلان داده ها می توانند ساختاریافته، بدون ساختار و نیمه ساختاری باشند که از منابع مختلف جمع آوری می شوند. دادهها در گذشته فقط از پایگاههای اطلاعاتی و برگهها جمعآوری میشد، اما این روزها دادهها به شکلهای آرایهای مانند فایلهای PDF، ایمیل، فایلهای صوتی، پستهای SM، عکسها، ویدیوها و غیره ارائه میشوند.
ارزش: یک ویژگی اساسی داده های بزرگ است. ارزش داده ها به این معنینیست که ما داده ها را پردازش یا ذخیره کنیم. ارزش یعنی داده های ارزشمند و قابل اعتمادی که ما ذخیره، پردازش و همچنین تجزیه و تحلیل می کنیم.
سرعت: سرعت در مقایسه با سایرین نقش مهمی دارد. Velocity سرعت ایجاد داده ها را در زمان واقعی ایجاد می کند. این شامل پیوند سرعت مجموعه داده های ورودی، نرخ تغییر و انفجارهای فعالیت است. جنبه اصلی Big Data ارائه سریع داده های درخواستی است. سرعت کلان داده با سرعت جریان داده از منابعی مانند گزارش برنامهها، فرآیندهای تجاری، شبکهها و سایتهای رسانههای اجتماعی، حسگرها، دستگاههای تلفن همراه و غیره سروکار دارد.
داده های بزرگ و داده های کوچک
با استفاده از داده های بزرگ و کوچک، می توانید تصویری جامع از حقیقت مشتریان خود جمع آوری کنید.
Big Data + Small Data = Real Human Insight
چه چیزی+چرا=تصویری جامع و کامل از مشتری
داده های کوچک: متخصص برندسازی مارتین لیندستروم آن را به عنوان "سرنخ های کوچکی که روندهای بزرگ را آشکار می کند" تعریف می کند، که انسان به طور کلی از طریق داده های مشاهده ای جمع آوری می کند. شايد متداولترين تعريف مورد استفاده، «دادههايي است كه به اندازه كافي برای درک انسان كوچك » (منبع اصلي ناشناخته) باشد.
این ایده «به اندازه کافی کوچک برای درک انسان» نکته کلیدی است. در مقایسه با Big Data، حجم داده های کوچک قابل مدیریت تر است و در مگابایت و گیگابایت اندازه گیری می شود. می توان آن را بر روی یک کامپیوتر ذخیره و پردازش کرد، با استفاده از تکنیک های ایجاد شده در دهه 1950 به بعد و با در دسترس قرار گرفتن اولین رایانه های بزرگ تجاری. سرعت داده ها کندتر است و در طول روزها و هفته ها جمع آوری می شود. در نهایت، این اطلاعات کاملاً از جزئیات شناخته شده تشکیل شده است، داده ها یا ساختار یافته (به عنوان مثال عددی) و/یا بدون ساختار (مانند متن، تصاویر، ویدئو) هستند.
نکته مهم:
داده های بزرگ و کوچک از نظر نحوه تعریف و شکل ظاهری داده ها بسیار متفاوت هستند. با این حال، هر نوع به خودی خود ارزشمند است. Big Data به ما کمک می کند تا اعمال و رفتارهای انسانی را درک کنیم، به عنوان مثال، کلیک های وب سایت، تراکنش های فروش. ما قادر به دستیابی به یک هدف "چه" هستیم. کاری که مردم انجام دادند. از سوی دیگر، داده های کوچک به ما کمک می کند تا نگرش ها، انگیزه ها و احساسات پشت آن اعمال و رفتار را درک کنیم. تاریخچه ها و موقعیت های منتهی به "چه چیزی" از طریق داده های بزرگ ثبت شده است. داده های کوچک به ما کمک می کند تا "چرا" را کشف کنیم.
لینک منابع:
منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم
مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات و دانش شناسی/بازیابی اطلاعات و دانش
این مباحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می شود