ریشه‌های داده کاوی در میان سه خانواده از علوم، قابل پیگیری است.

مهم‌ترین این خانواده‌ها، آمار کلاسیک (Classic Statistics) می‌باشد. بدون آمار، هیچ داده کاوی وجود نخواهد داشت، بطوری‌که آمار، اساس اغلب تکنولوژی‌هایی است که داده کاوی بر روی آن‌ها بنا می‌شود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون، توزیع استاندارد، انحراف استاندارد، واریانس، تحلیل خوشه، و فاصله‌های اطمینان را که همه این موارد برای مطالعه داده و ارتباط بین داده‌ها می‌باشد، را در بر می‌گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیک‌های داده کاوی ایفا می‌کند.

دومین خانواده‌ای که داده کاوی به آن تعلق دارد هوش مصنوعی (Artificial Intelligence) است. هوش مصنوعی که بر پایه روش‌های ابتکاری است و با آمار ضدیت دارد، تلاش دارد تا فرایندی مانند فکر انسان، را برای حل مسائل آماری به‌کار بندد. چون این رویکرد نیاز به توان محاسباتی بالایی دارد، تا اوایل دهه 1980 عملی نشد. هوش مصنوعی کاربردهای کمی را در حوزه‌های علمی و حکومتی پیدا کرد، اما نیاز به استفاده از کامپیوترهای بزرگ باعث شد همه افراد نتوانند از تکنیک‌های ارائه شده استفاده کنند.

سومین خانواده داده کاوی، یادگیری ماشین (Machine Learning) است، که به مفهوم دقیق‌تر، اجتماع آمار و هوش مصنوعی می‌باشد. درحالی‌که هوش مصنوعی نتوانست موفقیت تجاری کسب کند، یادگیری ماشین در بسیاری از موارد جایگزین آن شد.

کاربردهای داده کاوی

کاربردهای معمول تجاری: از قبیل تحلیل و مدیریت بازار (تحلیل بورس- تحلیل رفتار مشتریان)، تحلیل سبد بازار، بازاریابی هدف، فهم رفتار مشتری، تحلیل و مدیریت ریسک؛

مثال:

گزارش دیجی‌کالا و کتاب، که به پرسش‌های زیر پاسخ دهد؛

نقش دیجی‌کالا در تأمین کتاب برای مردم ایران چیست؟

دیجی‌کالا در حوزه فروش کتاب چه عملکردی داشته است؟

ایرانیانی که تجربه خرید کتاب از دیجی‌کالا دارند، چه ویژگی‌ها و عادت‌هایی دارند؟ (لینک دانلود گزارش کامل)

مدیریت و کشف فریب: کشف فریب تلفنی، کشف فریب‌های بیمه‌ای و اتومبیل، کشف حقه‌های کارت اعتباری، کشف تراکنش‌های مشکوک مالی (پولشویی)؛

متن کاوی (Text Mining): پالایش متن (نامه‌های الکترونیکی، گروه‌های خبری و غیره)؛

پزشکی: کشف ارتباط علامت و بیماری، تحلیل آرایه‌های DNA، تصاویر پزشکی؛

ورزش: آمارهای ورزشی؛

وب کاوی (Web Mining): پیشنهاد صفحات مرتبط، بهبود ماشین‌های جست‌وجوگر یا شخصی‌سازی حرکت در وب سایت؛

تعریف کلان داده (گارتنر)

John Mashey متخصص کامپیوتر در اوایل دهه 90 میلادی اصطلاح بیگ دیتا را ابداع کرد اما این مفهوم در سال 2000 مورد توجه قرار گرفت و شاید دلیل این توجه ظهور اینترنت به صورت فراگیر، گرایش ما به دستگاه های هوشمند و محبوب شدن رسانه های اجتماعی باشد. ما به طور روزانه در حال تولید اطلاعات به صورت گسترده و سریع هستیم و همین اطلاعات اساس کلان داده یا بیگ دیتا را تشکیل می دهد. در واقع بیگ دیتا به معنای حجم زیادی از داده ها و اطلاعات است که به سرعت و با تنوع بسیار منتشر می شود و نمی شود آنها را با استفاده از روش های سنتی پردازش کرد.

بیگ دیتا یا کلان داده چقدر بزرگ است و منظور از "سرعت" دقیقا چیست؟ Douglas Laney یک متخصص داده و اطلاعات در شرکت معتبر گارتنر است، او در سال 2001 سه ویژگی مهم برای بیگ دیتا تعریف کرد: حجم، سرعت و تنوع. این ویژگی ها برای تعریف بیگ دیتا و تشخیص آن از دیتا معمولی کاربرد دارد.  

5 V's of Big Data

  • Volume 
  • Veracity
  • Variety
  • Value
  • Velocity

حجمنام Big Data به خودی خود مربوط به اندازه عظیمی است. Big Data حجم وسیعی از داده‌ها است که روزانه از منابع بسیاری مانند فرآیندهای تجاری، ماشین‌ها، پلتفرم‌های رسانه‌های اجتماعی، شبکه‌ها، تعاملات انسانی و بسیاری موارد دیگر تولید می‌شوند. فیس بوک می تواند تقریباً یک میلیارد پیام ایجاد کند، 4.5 میلیارد بار که دکمه «لایک» ضبط می شود، و بیش از 350 میلیون پست جدید هر روز آپلود می شود. فناوری های کلان داده می توانند حجم زیادی از داده ها را مدیریت کنند.
Big Data Characteristics

صحت: به این معناست که داده ها چقدر قابل اعتماد هستند. راه های زیادی برای فیلتر کردن یا ترجمه داده ها دارد. صداقت فرآیندی است که در آن می توان داده ها را به طور کارآمد مدیریت و مدیریت کرد. کلان داده نیز در توسعه کسب و کار ضروری است. به عنوان مثال، پست های فیس بوک با هشتگ.
تنوع: کلان داده ها می توانند ساختاریافته، بدون ساختار و نیمه ساختاری باشند که از منابع مختلف جمع آوری می شوند. داده‌ها در گذشته فقط از پایگاه‌های اطلاعاتی و برگه‌ها جمع‌آوری می‌شد، اما این روزها داده‌ها به شکل‌های آرایه‌ای مانند فایل‌های PDF، ایمیل، فایل‌های صوتی، پست‌های SM، عکس‌ها، ویدیوها و غیره ارائه می‌شوند.
Big Data Characteristics

ارزش: یک ویژگی اساسی داده های بزرگ است. ارزش داده ها به این معنینیست که ما داده ها را پردازش یا ذخیره کنیم. ارزش یعنی داده های ارزشمند و قابل اعتمادی که ما ذخیره، پردازش و همچنین تجزیه و تحلیل می کنیم.
Big Data Characteristics
سرعتسرعت در مقایسه با سایرین نقش مهمی دارد. Velocity سرعت ایجاد داده ها را در زمان واقعی ایجاد می کند. این شامل پیوند سرعت مجموعه داده های ورودی، نرخ تغییر و انفجارهای فعالیت است. جنبه اصلی Big Data ارائه سریع داده های درخواستی است. سرعت کلان داده با سرعت جریان داده از منابعی مانند گزارش برنامه‌ها، فرآیندهای تجاری، شبکه‌ها و سایت‌های رسانه‌های اجتماعی، حسگرها، دستگاه‌های تلفن همراه و غیره سروکار دارد.
Big Data Characteristics
داده های بزرگ و داده های کوچک
با استفاده از داده های بزرگ و کوچک، می توانید تصویری جامع از حقیقت مشتریان خود جمع آوری کنید.

Big Data + Small Data = Real Human Insight
چه چیزی+چرا=تصویری جامع و کامل از مشتری
داده های کوچک: متخصص برندسازی مارتین لیندستروم آن را به عنوان "سرنخ های کوچکی که روندهای بزرگ را آشکار می کند" تعریف می کند، که انسان به طور کلی از طریق داده های مشاهده ای جمع آوری می کند. شايد متداول‌ترين تعريف مورد استفاده، «داده‌هايي است كه به اندازه كافي برای درک انسان كوچك » (منبع اصلي ناشناخته) باشد.
این ایده «به اندازه کافی کوچک برای درک انسان» نکته کلیدی است. در مقایسه با Big Data، حجم داده های کوچک قابل مدیریت تر است و در مگابایت و گیگابایت اندازه گیری می شود. می توان آن را بر روی یک کامپیوتر ذخیره و پردازش کرد، با استفاده از تکنیک های ایجاد شده در دهه 1950 به بعد و با در دسترس قرار گرفتن اولین رایانه های بزرگ تجاری. سرعت داده ها کندتر است و در طول روزها و هفته ها جمع آوری می شود. در نهایت، این اطلاعات کاملاً از جزئیات شناخته شده تشکیل شده است، داده ها یا ساختار یافته (به عنوان مثال عددی) و/یا بدون ساختار (مانند متن، تصاویر، ویدئو) هستند.
نکته مهم: 
داده های بزرگ و کوچک از نظر نحوه تعریف و شکل ظاهری داده ها بسیار متفاوت هستند. با این حال، هر نوع به خودی خود ارزشمند است. Big Data به ما کمک می کند تا اعمال و رفتارهای انسانی را درک کنیم، به عنوان مثال، کلیک های وب سایت، تراکنش های فروش. ما قادر به دستیابی به یک هدف "چه" هستیم. کاری که مردم انجام دادند. از سوی دیگر، داده های کوچک به ما کمک می کند تا نگرش ها، انگیزه ها و احساسات پشت آن اعمال و رفتار را درک کنیم. تاریخچه ها و موقعیت های منتهی به "چه چیزی" از طریق داده های بزرگ ثبت شده است. داده های کوچک به ما کمک می کند تا "چرا" را کشف کنیم.

لینک منابع:

منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات و دانش شناسی/بازیابی اطلاعات و دانش

این مباحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می شود



دوشنبه 05 مهر 1400
ارسال نظر برای این مطلب

کد امنیتی رفرش