جستجو

آرشيو مطالب
👈نویسنده : ملیحه باغبان

در جلسه اول از آموزش mysql به تعریف داده و اطلاعات پرداختم. در جلسه دوم در مورد دیتابیس صحبت خواهم کرد



سه شنبه 30 فروردين 1401
ادامه مطلب

وقتی در مورد داده کاوی صحبت می کنیم، معمولاً کشف دانش از داده ها را مورد بحث قرار می دهیم. اشیاء داده data objects بخش اساسی یک پایگاه داده هستند.

مجموعه داده ها از اشیاء داده تشکیل شده اند (پس داده ها که در اینجا منظور ما اشیاداده است در دیتاست ها قرار دارند) یک شی داده نشان دهنده یک موجودیت است—در پایگاه داده فروش، اشیاء ممکن است مشتریان، اقلام ذخیره و فروش باشند. در یک پایگاه داده پزشکی، اشیاء ممکن است بیماران باشند. در پایگاه داده دانشگاه، اشیاء ممکن است دانشجویان، اساتید و دوره ها باشند. 

دیتاست ها در فایل ها ذخیره می شوند که می تواند فایل اکسل یا فایل مجموعه توئیت های یک توئیتر یا تیتر روزنامه ها در یکسال گذشه باشد)

ویژگی ها: اشیاء داده معمولاً با ویژگی ها توصیف می شوند. اگر اشیاء داده در یک پایگاه داده ذخیره شوند، آنها تاپل های داده هستند. به این معنی که ردیف های یک پایگاه داده با اشیاء داده مطابقت دارند و ستون ها با ویژگی ها مطابقت دارند.

در نتیجه تعریف داده یا دیتا: 

دیتا چیست؟ مجموعه ای از اشیاء داده و ویژگی های آنها

ویژگی مثل رنگ چشم یک فرد

مجموعه ای از ویژگی ها، یک شی یا رکورد را توصیف می کند. ویژگی ها نوع داده را مشخص می کنند.

انواع ویژگی ها: انواع مختلفی از ویژگی ها وجود دارد:

اسمی مثال ها: کد رشته، رنگ چشم، کد پستی. زن(1) و مرد(2). مجرد(1)- متاهل(2) عددی را به یک ویژگی اختصاص می دهیم.

رتبه ای (عددی-کیفی) مثال ها: رتبه بندی (مثلاً طعم چیپس سیب زمینی در مقیاس 1-10)، نمرات، ارتفاع در { بلند، متوسط، کوتاه} 

فاصله ای (عددی-کمی)،صفر مطلق وجود ندارد بلكه قراردادي است (درجه سانتيگراد)

نسبتی صفر مطلق و واقعي وجود دارد يعني نمره صفر بيانگر فقدان كامل ويژگي مورد اندازه گيري است(طول- وزن- حجم و ...)


یک فروشگاه شکلات فروشی را تصور کنید که انواع مختلفی از شکلات را دارد. صاحب این فروشگاه تمایل دارد که در مورد رضایتمندی مشتریانش در مورد خدمات ارائه شده و محصولات فروشگاه نظرسنجی انجام دهد. برای این منظور پرسشنامه‌ای را به صورت تصویر  تهیه کرد و بین مشتریانش پخش کرد.

پرسشنامه رضایت سنجی مشتریان

مسئول فروشگاه پس از جمع آوری پرسشنامه ها، داده ها را در قالب یک فایل Excel وارد کرد. نمونه‌ای از داده‌های جمع‌آوری شده از مشتریان را می‌توانید در جدول شماره 1 مشاهده کنید.

نمونه‌ای از داده‌های جمع‌آوری شده از طریق پرسشنامه

اگر موافق باشید برای داده‌های این پرسشنامه این کار را با هم انجام دهیم.

  • اول به سراغ متغیر جنسیت برویم. جنسیت یک متغیر دو مقداری است. البته اگر بخواهیم به طور کلی بیان کنیم باید بگوییم که متغیر جنسیت یک متغیر گسسته اسمی است. متغیرهای گسسته اسمی بین رده‌های متعدد تفاوت قائل می‌شود، اما ترتیب ضمنی‌ای بین رده ها وجود ندارد.

داده‌های اسمی یا به صورت متنی ذخیره می‌شوند یا می توان آن‌ها را به صورت کد ذخیره نمود. برای مثال می‌توانید به مردان کد 1 و به خانم‌ها کد 2 را اختصاص دهید.

  • متغیر سطح تحصیلات یک متغیر گسسته ترتیبی است. گسسته ترتیبی شامل داده‌هایی است که یک ترتیب طبیعی دارند. به عنوان نمونه در این مثال سطح تحصیلات دکتری بالاتر از فوق لیسانس و فوق لیسانس بالاتر از لیسانس و ….. در واقع ترتیبی به صورت دیپلم < فوق دیپلم < لیسانس < فوق لیسانس < دکتری در این داده‌ها وجود دارد. داده‌های گسسته ترتیبی را می‌توان به صورت کد نیز نشان داد.
  • متغیر بعدی سن است. به متغیرهایی از این قبیل متغیرهای پیوسته نسبتی گفته می‌شود. در متغیرهای پیوسته نسبتی همه نوع عملیات ریاضی مجاز است، به ویژه توانایی ضرب و تقسیم (به عبارت دیگر، نرخ ها مورد نظر است). مثال‌های ساده از داده‌های نسبتی هر متغیری است که دارای صفر مطلق باشد. مانند وزن، قد، میزان فروش، تعداد مشتریان، درآمد کسب شده در ماه گذشته و غیره.
  • بسیار خوب. به سراغ متغیر بعدی برویم. میزان درآمد. می‌توانید با توضیحاتی که ارائه شد بگویید که این متغیر از چه نوعی است؟

بله درست است. این متغیر هم از نوع گسسته اسمی است. این متغیر دارای سه رده (کمتر از 5 میلیون تومان، بین 5 تا 10 میلیون تومان و بالاتر از 10 میلیون تومان) است. توجه داشته باشید که مسئول فروشگاه این رده ها را به صورت کد نیز می توانست وارد کند. برای مثال برای درآمد کمتر از 5 میلیون تومان کد 1، برای درآمد بین 5 تا 10 میلیون تومان کد 2 و بالاتر از 10 میلیون تومان کد 3 را تعیین کند.

  • با توجه به توضیحات ارائه شده منطقه زندگی هم از نوع گسسته اسمی است.
  • در مورد میزان رضایت از برخورد مسئولان چه می‌توان گفت؟ داده‌های مربوط به میزان رضایت مشتریان نیز در قالب داده‌های گسسته ترتیبی جمع‌آوری شده‌اند. در پژوهش‌های بازاریابی، استفاده از یک مقیاس پنج گزینه‌ای برای ارزیابی ادراکات مرسوم است: خیلی کم کم  متوسط  زیاد  خیلی زیاد
  • و در نهایت می‌رسیم به متغیر نوع شکلات مورد علاقه مشتریان. داده‌های مربوط به این متغیر از نوع گسسته اسمی هستند و دارای سه رده ی «تلخ»، «سفید» و «شیری» است. همان طور که پیش از این نیز گفته شد برای هر یک از این رده ها می توانید یک کد در نظر بگیرید. برای مثال برای شکلات تلخ دارای کد 1، شکلات شیری کد 2 و شکلات سفید کد 3 را در نظر گرفت.

در تصویر  زیر ذخیره سازی داده‌های گسسته اسمی و گسسته ترتیبی با استفاده از کدگذاری انجام شده است.

پیش پردازش داده ها:

چرا پیش پردازش انجام می دهیم؟

داده‌ها در دنیای واقعی نادرست هستند(Dirty)

1.ناقص هستند: فاقد مقادیر مشخصه، فاقد ویژگی‌های خاص مورد علاقه، مثلا مقدار سن یا شغل خالی باشد 

دلایل ناقص بودن داده ها: 1) هنگام جمع‌آوری، مقدار (value) داده «مناسب نیست». 2) مشکلات انسانی/سخت افزاری/نرم افزاری

2.حاوی داده‌های انبوه نویزدار: حاوی خطاها یا موارد پرت متناقض مثلا سن یا حقوق و دستمزد را منفی وارد کرده باشد یا سن را منفی یا صفر یا 230 وارد کرده باشد می شود پرت متناقض. همانطور که در شکل نمایش داده شده این نویز بودن داده می تواند در سطح class یا attributs رخ دهد. خطاها در داده‌های وارد شده: کاربر به جای قیمت، تعداد کالا را وارد کرده باشه. یا اینکه مقدار منفی برای تعداد کالای فروخته شده وارد کرده باشد (بر خلاف داده های ناقص در داده های غیر دقیق، مقدار وجود دارد ولی نادرست است)

دلایل نویزی بودن داده ها: 1) اشکال در ابزارهای جمع آوری اطلاعات 2) خطای انسانی یا رایانه ای در ورود داده ها 3) خطا در انتقال و تبدیل داده ها

3.داده های ناسازگار: حاوی مغایرت در کدها یا نام‌ها:

در یک کاربر کد کالای خازن را 1005 وارد کرده و یک کاربر دیگر کد 1008 را برای خازن وارد کرده است.

یک کاربر سوییچ را با دو تا “ی” وارد کرده است و یک سوئیچ را با یک “ئ” و یک “ی” وارد کرده است.

دلایل ناسازگار بودن داده ها: 1) داده ها از منابع مختلف جمع آوری شده اند و موقع تجمیع اشکال بوجود آمده است 2) نقض وابستگی عملکردی (به عنوان مثال، اصلاح برخی از داده‌های پیوندی)

رکوردهای تکراری نیز به پاک سازی داده ها نیاز دارند.

چرا پیش پردازش داده ها مهم است؟

1) بدون داده با کیفیت، نتایج استخراج با کیفیت نخواهیم داشت

1-1)تصمیمات کیفی باید بر اساس داده های کیفی با کیفیت باشد

به عنوان مثال، داده های تکراری یا از دست رفته ممکن است باعث آمار نادرست یا حتی گمراه کننده شود.

1-2) انبار داده نیاز به ادغام مداوم داده های با کیفیت دارد

2) استخراج، تمیز کردن و تبدیل داده ها اکثریت کار ساخت انبار داده را شامل می شود

اندازه گیری کیفیت داده ها

دقت

کامل بودن

ثبات

به موقع بودن

باورپذیری

ارزش افزوده

تفسیر پذیری

دسترسی

دسته بندی های گسترده: (ذاتی، زمینه ای، بازنمایی و دسترسی)

کارهای اصلی در پیش پردازش داده ها چیست؟

پیش پردازش داده‌ها : پاکسازی داده، یکپارچه سازی داده، کاهش داده و تبدیل داده

1. پاکسازی داده ها:

به پاکسازی داده ها، پاکسازی یا لایروبی (تمیزکردن) داده نیز گفته می شود.

مقادیر از دست رفته (خالی- missing value) را پر کنید، داده های نویزی را هموار کنید، نقاط پرت را شناسایی یا حذف کنید، و ناسازگاری ها را برطرف کنید. اگر تجمیع داده ها صورت می گیرد، حل مشکل افزونگی. مثلا شخصی فرم مشخصات خود را در سامانه های مختلف ثبت کند و بخواهیم تجمیع کنیم باید افزونگی داده های تکراری در نظر گرفته شود.

تمیز کردن داده ها ضروری است زیرا سیستم های منبع حاوی "داده های نادرست" هستند که باید پاکسازی شوند.


داده های از دست رفته (missing data)

1.داده ها همیشه در دسترس نیستند

به عنوان مثال، بسیاری از تاپل ها هیچ ارزش ثبت شده ای برای چندین ویژگی مانند درآمد مشتری در داده های فروش ندارند

2.داده های از دست رفته ممکن است به دلیل

-خرابی تجهیزات

-ناسازگار با سایر داده های ثبت شده و در نتیجه حذف می شود

-داده ها به دلیل سوء تفاهم وارد نشده است (فک شود که به درد نمیخوره)

-داده های که در زمان ثبت مهم نبودند ولی بعدا مهم شده

-تاریخچه یا تغییرات داده ها را ثبت نکنید

-عدم ثبت داده به علت غیر قابل فهم بودن یا اشتباه سخت افزاری

چگونه داده های از دست رفته (missing data) را مدیریت کنیم؟

1.حذف داده (داده های که ما با انها سر و کار داریم به دو بخش تقسیم می شود :داده های ضروری و با اهمیت و داده های غیر ضروری). وقتی داده های ضروری ناموجود باشد، با توجه به اهمیت این داده ها اگر تخمین ما درست نباشد ممکن است خروجی تکنیک های داده کاوی را تحت تاثیر قرار بدهد، در نتیجه می تواند تکنیک مناسبی باشد. البته اگر تخمین ما قابل قبول باشد، تکنیک حذف چندان قابل قبول نخواهد بود. زمانی که داده های ناموجود در یک قلم داده ای زیاد باشد، می توان آن داده را حذف نمود. فرض کنید در یک ردیف از فاکتور فروش، نام کالا و تعداد کالای فروش رفته ناموجود است. در این مورد بهتر است آن قلم داده ای را از فاکتور فروش حذف کنیم. چون تعداد داده های ناموجود زیاد است، حذف داده می تواند تکنیک مناسبی باشد. تکینک حذف وقتی زیاد انجام شود ممکن است کل داده ها را تحت تاثیر قرار دهد و در نتیجه خروجی داده کاوی را ناکارآمد کند. در نیتجه در استفاده از این روش باید دقت نمود که خروجی داده کاوی را تحت تاثیر قرار ندهد. در کل حذف داده ها چندان روش کار آمدی نمی باشد.

2. تعیین داده ها توسط کاربر: (نکته مهم در این بخش آن است کسی که دارد داده ها را پر میکند باید شناخت و اشراف کامل به داده داشته باشد. فرض کنید تاریخ خروج کالا برای بعضی از کالاها در فاکتورهای ما ثبت نشده است. کسی که می تواند در این حوزه به ما کمک کند مسئول انبار است. اما چگونه؟ با یک مثال چگونگی انجام کار را بیان میکنیم (فرض کنید انبادار بر اساس تجربه زمان های خروج کالاهای خاص می داند. به عبارت دیگر می داند که چه کالای در چه بازه زمانی توسط مشتریان درخواست می شود. به عنوان مثال بخاری 2 ماه شروع فصل سرما بیشترین فروش خود را دارد در نتیجه اگر زمان خروج بخاری مشخص نباشد انباردار می تواند با کمک تجربه خود داده ها را تکمیل نماید.)
3.استفاده از یک مقدار کلی و ثابت برای داده های ناموجود (یکی دیگر از تکنیک های مربوط به پر کردن داده های ناموجود (داده‌های گم شده ) قرار دادن یک مقدار ثابت برای همه آن ها است. مثلا فرض کنید همه داده های غیر موجود را با یک مقدار مانند “نشناخته” یا Unknown پر کنیم. این روش بسیار ساده است، ولی چندان کارآمدی نیست، به همین خاطر کمتر از آن استفاده می شود.
6.استفاده از محتمل ترین مقدار (the most probable value) در این روش از تکنیک های مانند رگرسیون regression، استنتاج، درخت تصمیم گیری و … استفاده می شود. به عنوان مثال فرض کنید ما میزان خرید یک مشتری را ندارد قصد داریم آن را حدس بزنید، می تواند از درخت تصمیم گیری یا استنتاج مبتنی بر شبکه بیزین استفاده کرد.

Noisy Data

نویز: خطای تصادفی یا واریانس در یک متغیر اندازه گیری شده
مقادیر مشخصه نادرست ممکن است به دلیل:
ابزارهای جمع آوری اطلاعات معیوب
مشکلات ورود داده ها
مشکلات انتقال داده
محدودیت تکنولوژی
ناهماهنگی در قرارداد نامگذاری
رکوردهای تکراری
داده های ناقص
داده های متناقض
چگونه داده های نویزی را مدیریت کنیم؟
ابتدا داده ها و پارتیشن بندی را در انباره ها (با فرکانس برابر) مرتب کنید
صاف کردن داده ها در توابع رگرسیون
خوشه بندی
موارد پرت را شناسایی و حذف کنید
بازرسی ترکیبی رایانه و انسان
مقادیر مشکوک را شناسایی کنید و توسط انسان بررسی کنید (مثلاً با موارد دور از دسترس احتمالی برخورد کنید)
مثال:
سنکاربر
17#1
1361#2
15#3
23#4
440#5
همان‌طور که می‌بینید، کاربرانِ شماره‌ی 2 و 5 داده‌هایی غیر طبیعی در ستون سن دارند. مثلاً کاربرِ شماره‌ی 2، سهواً تاریخِ تولدِ خود را وارد کرده است و کاربرِ شماره‌ی 5 نیز، به اشتباه یک صفرِ اضافی برای عددِ سنِ خود درج کرده. پس به سادگی می‌توان تشخیص داد که این مجموعه‌ی داده برای مقدارِ سن دارای داده‌های پرت است.
روش‌های حذف داده‌های دارای نویز زیاد است. یکی از این روش‌ها حذفِ مقادیر بالا و پایین داده‌ها به تعداد مشخص است. برای مثال در همین جدول بالا، می‌توانیم مقادیری که کمتر از ۱۰ و یا بیش‌تر از ۱۰۰ هستند را حذف کنیم و یا مقادیری که در بازه‌ی بین ۱۰ تا ۱۰۰ قرار ندارد را با میانگینِ سن‌های باقی‌مانده جایگزین کنیم. با این‌کار داده‌ها در یک بازه‌ی مشخص و معقول قرار می‌گیرند. پس در مثال بالا، می‌توانیم کاربران 2 و 5 را حذف کنیم و یا مقدار سن را برای آن‌ها برابر میانگین سن‌های باقی‌مانده افراد است، قرار می‌دهیم.

البته در بعضی از مواقع ما به دنبال پیدا کردنِ نویزها هستیم تا داده‌ها را با توجه به مقادیرِ غیرطبیعی (anomalies) تحلیل کنیم. مثلاً می‌خواهیم در یک سری تراکنش‌های بانکی، آن دسته از تراکنش‌هایی که رفتارِ غیرِ عادی داشتند را کشف کرده و به تخلف‌های یک فرد در بانک رسیدگی کنیم. DBSCAN را هم می‌توان برای خوشه‌بندی مورد استفاده قرار داد و هم می‌توان از آن به عنوانِ یک الگوریتمْ جهتِ تشخیص داده‌های پرت استفاده کرد. همچنین روشی به عنوان SVM تک کلاسه (one class SVM) موجود است که می‌تواند داده‌های پرت را تشخیص دهد.

2.یکپارچه سازی داده ها: 

داده ها را از چندین منبع در یک ذخیره داده منسجم ترکیب می کند، به عنوان مثال. پایگاه داده تحلیلی.

منابع ممکن است شامل چندین پایگاه داده، مکعب داده یا فایل های داده باشد.


3.تبدیل داده ها: 

فرآیند تبدیل با اصلاح هرگونه ناهماهنگی (در صورت وجود) سروکار دارد.

-هموارسازی (حذف نویز از داده ها)- مثلا استفاده از میانگین

-تجمیع (مثلا میزان امانت کتاب، بجای اینکه گزارش روزانه تهیه گردد، هفتگی، ماهانه یا سالانه تجمیع شده (در یک فیلد) و گزارش ارائه گردد).

-تعمیم (مثلا بجای تک تک وارد کردن سن افراد یه دسته مشخص بشه. از سن 19-35 سال جوان، 36-60 میانسال و 60 به بالا مسن)

-نرمال سازی: تغییر مقیاس داده هاست به طوری که در یک دامنه خاص و کوچک تبدیل بشه به یک فاصله کمتر مثلا بین 1 و -1 و محاسبه Z-SCORE

-ایجاد یک ویژگی (فیلد) جدید. مثلا به جای داشتن فیلد طول عرض برای زمین کشاورزی، یک فیلد جدید می سازیم تحت عنوان مساحت و این دو عدد را در هم ضرب می کنیم.


4.کاهش داده ها: (کاهش تعداد داده ها-حذف سطر و کاهش بُعد یا حذف ستونی)

نمایش کاهش یافته در حجم را به دست می آورد اما نتایج تحلیلی یکسان یا مشابه را تولید می کند.

استراتژی های کاهش داده ها:

-تجمیع مکعبی داده ها

در نظر بگیرید که داده‌های فروش AllElectronics در هر سه ماهه از سال 2008 تا سال 2010 را دارید. اگر می‌خواهید فروش سالیانه را دریافت کنید، فقط باید فروش هر سه ماهه را برای هر سال جمع کنید. به این ترتیب تجمیع داده‌های مورد نیاز را در اختیار شما قرار می‌دهد که حجم بسیار کمتری دارند و در نتیجه حتی بدون از دست دادن داده‌ای به کاهش داده‌ها می‌رسیم.

تجمیع مکعب داده یک تجمع چند بعدی است که تجزیه و تحلیل چند بعدی را آسان می کند. مانند تصویر بالا، مکعب داده نشان دهنده فروش سالانه برای هر کالا برای هر شعبه است. مکعب داده داده های از پیش محاسبه شده و خلاصه شده را ارائه می دهد که دسترسی سریع به داده کاوی را آسان می کند.

-کاهش تعداد صفات (انتخاب گزینشی- روش مورد استفاده: درخت تصمیم)

-کاهش تعداد مقادیر ویژگی (بی اهمیت ها)

مجموعه داده های بزرگ دارای ویژگی های بسیاری است که برخی از آنها به داده کاوی بی ربط هستند یا برخی زائد هستند. انتخاب زیرمجموعه مشخصه با حذف ویژگی اضافی و نامربوط، حجم داده ها را کاهش می دهد. انتخاب زیرمجموعه ویژگی این اطمینان را ایجاد می‌کند که حتی پس از حذف ویژگی‌های ناخواسته، زیرمجموعه خوبی از ویژگی‌های اصلی به دست می‌آوریم، به طوری که احتمال توزیع داده‌ها با استفاده از تمام ویژگی‌ها تا حد امکان به توزیع داده اصلی نزدیک است.

-کاهش تعداد تاپل ها

-فشرده سازی داده ها

فشرده سازی داده ها تکنیکی است که در آن تکنیک تبدیل داده بر روی داده های اصلی به منظور به دست آوردن داده های فشرده اعمال می شود. اگر داده‌های فشرده‌شده را بتوان دوباره بازسازی کرد تا داده‌های اصلی را بدون از دست دادن هیچ اطلاعاتی تشکیل دهد، در این صورت کاهش داده‌ای «بدون تلفات» است. اگر نمی‌توانید داده‌های اصلی را از داده‌های فشرده بازسازی کنید، کاهش داده‌های شما «از بین می‌رود». برای فشرده سازی داده ها از روش کاهش ابعاد و تعداد نیز استفاده می شود.

-نمونه گیری-گسسته سازی-تولید سلسله مراتب مفهومی

چرا کاهش داده ها؟ یک دیتا بیس یا انباره داده ممکن است چندین ترابایت داده ذخیره داشته باشد، این امر تحلیل و آنالیز داده را پیچیده می کند و زمان بر است. این امر ممکن است است ما را با کمبود منابع سخت افزاری مواجه کند. 

نکته: اگر بدون از دست دادن داده ها بتوان داده ها را کاهش داد آن را کاهش داده بدون اتلاف فرض می کنیم و اگر برخی از داده ها از بین بروند کاهش داده با اتلاف می گویند.


5.گسسته سازی: 

با تقسیم محدوده یک ویژگی پیوسته به فواصل، تعداد مقادیر یک ویژگی پیوسته را کاهش دهید. 

گسسته سازی یکی از عملیاتی است که هدف آن تبدیل داده های دارای ویژگی های فاصله ای و نسبتی به نوع اسمی است.

با گسسته سازی می توان پیچیدگی مسئله را کاهش داد. انواع روش های گسسته سازی مانند: گسسته سازی بسامدی، اندازه ای، بخشی، اطلاعاتی و انتخابی است. که در هر کدام از آن ها ممکن است به روش ایستا (نمونه داده ها) یا به روش پویا ( کل داده ها و نوع توزیع آنها) عمل کرد. برای مثال در گسسته سازی بسامدی همانگونه که از اسم آن پیداست تمامی مواردی که بسامد رخداد رکوردها وجود دارد و در بازه های یکسان باشد تبدیل به یک مقدار معین می شود. 

روش ها: باینینگ- رگرسیون- خوشه بندی



لینک منابع

منبع اول، منبع دوم، منبع سوم، منبع چهارم، منبع پنجم، منبع ششم، منبع هفتم، منبع هشتم، منبع نهم، منبع دهم، منبع یازدهم، منبع دوازدهم

کتاب:  (Jiawei Han-Micheline KamberData Mining: Concepts and Techniques

کتاب: آموزش گام به گام داده کاوی با رپید ماینر، اسماعیلی

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات و دانش شناسی/بازیابی اطلاعات و دانش

این مباحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می شود


یکشنبه 11 مهر 1400
ادامه مطلب
👈نویسنده : ملیحه باغبان

در حالت ایده آل، تمام داده های یک سازمان ساختار یافته است - مرتب به دسته ها، برچسب ها و ستون ها مرتب می شود، هماهنگ شده و در سازمان جمع آوری و به راحتی دسترسی به آنها امکانپذیر می شود. اما واقعیت این است که حدود 80٪ از داده های کسب و کار بدون ساختار هستند، از جمله اطلاعات موجود در اسناد، صفحات گسترده، ایمیل ها، کنفرانس ها، صوتی و تصویری، جستجوی وب، تصاویر و پست های رسانه های اجتماعی.

داده های ساختاریافته می توانند رفتارها را تعریف یا شناسایی کنند اما داده های غیر ساختاری توضیح  توصیف یا پیش بینی کامل تری از یک رفتار خاص یا تغییر در تقاضا را ارائه می دهند. داده های بدون ساختار در حال حاضر با استخراج تحلیل می شود. به عنوان مثال، تطبیق اثر انگشت، تصویر اثر انگشت واقعی کاملاً بدون ساختار است. برای تجزیه و تحلیل اثر انگشت، نقاط اصلی شناسایی شده و سپس نقشه برداری می شوند. نقشه، داده های ساخت یافته است.

به طور کلی ،بیشتر داده های بدون ساختار از استخراج، تجزیه و تحلیل متن و انتزاع متن با یک پایگاه داده رابطه ای برای ایجاد نمای یکپارچه از داده ها استفاده می کنند، و سازمان را قادر می سازد تا تصمیمات تجاری دقیق تری بگیرد. خرده فروشانی مانند Chico's FAS توانسته اند ارتباطات رسانه های اجتماعی را با داده های مشتری خود ادغام کنند و تبلیغات هدفمندی را به مشتریان ارائه دهند.


ادامه.......>


یکشنبه 13 تير 1400
ادامه مطلب
درباره نویسنده
ملیحه باغبان

📖  کارشناسی کتابداری
دانشگاه پیـــام نور مرکز تبریز

📖  کارشناسی ارشد
مدیریت اطلاعات دانشگاه تبریز

📖  دانشجوی دکتری
بازیـــابی اطـلاعــات و دانــــش
دانشگـــاه الـزهرا (س) - تهران