👈نویسنده : ملیحه باغبان

در حالت ایده آل، تمام داده های یک سازمان ساختار یافته است - مرتب به دسته ها، برچسب ها و ستون ها مرتب می شود، هماهنگ شده و در سازمان جمع آوری و به راحتی دسترسی به آنها امکانپذیر می شود. اما واقعیت این است که حدود 80٪ از داده های کسب و کار بدون ساختار هستند، از جمله اطلاعات موجود در اسناد، صفحات گسترده، ایمیل ها، کنفرانس ها، صوتی و تصویری، جستجوی وب، تصاویر و پست های رسانه های اجتماعی.

داده های ساختاریافته می توانند رفتارها را تعریف یا شناسایی کنند اما داده های غیر ساختاری توضیح  توصیف یا پیش بینی کامل تری از یک رفتار خاص یا تغییر در تقاضا را ارائه می دهند. داده های بدون ساختار در حال حاضر با استخراج تحلیل می شود. به عنوان مثال، تطبیق اثر انگشت، تصویر اثر انگشت واقعی کاملاً بدون ساختار است. برای تجزیه و تحلیل اثر انگشت، نقاط اصلی شناسایی شده و سپس نقشه برداری می شوند. نقشه، داده های ساخت یافته است.

به طور کلی ،بیشتر داده های بدون ساختار از استخراج، تجزیه و تحلیل متن و انتزاع متن با یک پایگاه داده رابطه ای برای ایجاد نمای یکپارچه از داده ها استفاده می کنند، و سازمان را قادر می سازد تا تصمیمات تجاری دقیق تری بگیرد. خرده فروشانی مانند Chico's FAS توانسته اند ارتباطات رسانه های اجتماعی را با داده های مشتری خود ادغام کنند و تبلیغات هدفمندی را به مشتریان ارائه دهند.


ادامه.......>

هنگام تجزیه و تحلیل داده های بدون ساختار و تلفیق اطلاعات با نمونه ساختاری آن، 

موارد زیر را به خاطر بسپارید:

هدف نهایی را مشخص کنید:

دانستن هدف نهایی، برای تعیین چگونگی تجزیه و تحلیل داده های بدون ساختار ضروری است. با توجه به حجم بالقوه اطلاعاتی که وجود دارد، همه آنها مفید و سودآور نیستند به عنوان مثال، وقتی شرکت ها می خواهند احساسات را در رسانه های اجتماعی تعیین کنند، می خواهند بدانند که وضعیت ها، توییت ها یا نظرات، منفی هستند یا مثبت. اگر هدف تنها مشخص کردن واکنش کلی نسبت به محصولات است، فقط در نظر گرفتن کلمات و هشتگ های مربوط به آن کمپین می تواند به جای تجزیه و تحلیل تمام اطلاعات رسانه های اجتماعی از یک بازه زمانی دلخواه، یک نقطه کانونی مفید باشد.

روش تجزیه و تحلیل را انتخاب کنید:

پس از تعیین اهداف، می توانید تصمیم بگیرید که چگونه داده های بدون ساختار را برای شناسایی اطلاعات ساختارمند کنید. با احساسات رسانه های اجتماعی، برخی از کلمات و عبارات درون پست ها به عنوان مقادیر خوب یا بد تعیین می شوند. یک کلمه یا عبارت خوب ممکن است "+1" ، "-1" بد و "0" خنثی بدست آورد. نمره احساسات با جمع نمرات کلمه یا عبارت تعیین می شود، بنابراین داده های عددی منجر به ایجاد ساختاری می شود که از متن منبع بی ساختار بدست آمده است.

همه منابع داده را شناسایی کنید:

از منابع داده ای استفاده کنید که کاملاً مرتبط هستند، از جمله اطلاعات حاصل از بررسی های آنلاین و فرم های بازخورد مشتری و همچنین اطلاعات دستگاه ها.

فناوری خود را ارزیابی کنید:

معماری ذخیره سازی و بازیابی اطلاعات را بر اساس مقیاس پذیری، حجم، تنوع انتخاب کنید. برخی از ابزارهای کلان داده برای مدیریت و تجزیه و تحلیل داده های بدون ساختار طراحی شده اند، مانند ابزارهای مبتنی بر Hadoop، یک بستر نرم افزاری که می تواند پرونده های عظیم را ذخیره کرده و اطلاعات را پردازش کند.

دسترسی بدون درنگ را مشخص کنید:
دسترسی به زمان واقعی مستلزم ردیابی فعالیتهای زمان واقعی و پیش بینی های مربوط به تجارت براساس تجزیه و تحلیل های پیش بینی کننده است. به عنوان مثال، در تجارت الکترونیکی، دسترسی بی درنگ می تواند به شركت ها اجازه دهد قیمت ها را در زمان واقعی ارائه دهند. در یک فضای کاری 24/7، جمع آوری اطلاعات در زمان واقعی ضروری است و هر پلتفرم فناوری که یک سازمان از آن استفاده می کند، نیاز به این اطمینان دارد که هیچ داده ای از بین نرود.
از Data Lakes (دریاچه داده ها) استفاده کنید:
از مخازنی که به عنوان دریاچه داده شناخته می شوند، برای داده های بدون ساختار آسان تر استفاده می شود زیرا می توانید با حفظ فراداده و هر چیز دیگری که در تحلیل کمک می کند، به داده ها در قالب اصلی آن دسترسی داشته باشید.
داده ها را پاک کنید
یک کپی از فایل اصلی ایجاد کنید و داده ها را پاک کنید. به عنوان مثال ، هر متنی را که غیررسمی است یا به اختصار یا نماد نوشته شده است، گسترش دهید. سازماندهی داده ها تضمین می کند که تمام اطلاعات ارزشمند برجسته می شوند.
بازیابی، طبقه بندی و تقسیم بندی داده ها
پس از شناسایی و پاکسازی داده ها، بسته به آنچه می خواهید، قسمتهایی از آنها را در اولویت قرار دهید. یک روش با استفاده از برچسب گذاری توسط بخش هایی از گفتار، موجودیت هایی مانند "شخص" ، "مکان" یا "سازمان" را استخراج می کند. رگرسیون لجستیک ، Naive Bayes ، k-means و دیگر یادگیری ماشین تحت نظارت و بدون نظارت نیز می توانند برای یافتن الگوهایی در رفتار مشتری، هدف یک کمپین و طبقه بندی اسناد استفاده شوند.
از تکنیک های مدل سازی می توان برای تجزیه و تحلیل مهمترین موضوعات مورد بحث مشتریان در موضوعات و رویدادهایی که از طریق فرم ها، رسانه های اجتماعی یا سایر سیستم عامل ها به اشتراک می گذارند، استفاده کرد. وضعیت مشتری همچنین می تواند با تجزیه و تحلیل احساسات از رسانه های اجتماعی، بررسی ها و بازخورد تجزیه و تحلیل شود. این می تواند توصیه های محصول آینده و روند کلی را مشخص کند.
تجزیه و تحلیل داده ها را نمایش دهید:
با استفاده از نمودارها برای نمایش تجزیه و تحلیل این اطمینان حاصل می شود که اطلاعات توسط طرف های دیگر برای ارائه توصیه ها بر اساس داده ها قابل استفاده است.

ترجمه: ملیحه باغبان دانشجوی دکتری علم اطلاعات

یکشنبه 13 تیر 1400
ارسال نظر برای این مطلب

کد امنیتی رفرش