داده ها به اشکال مختلفی وجود دارند. اولین سوالی که هنگام مشاهده داده ها باید از خودمان بپرسیم این است که آیا این داده ها ساختار دارند یا بدون ساختار هستند، یا اینکه این داده ها برای پاسخ به سوالی خاص جمع آوری شده اند یا بدون قصد و هدف جمع آوری شده اند.

داده های ساختار یافته:

داده هایی هستند که به طور مرتب، می توانند منظم شوند. در گذشته شرکت ها فقط ابزار و منابع لازم را برای کشف داده های ساخت یافته در اختیار داشتند. تجزیه و تحلیل داده های بدون ساختار یا امکانپذیر نبود یا در صورت ممکن بود هزینه های بالایی را برای شرکت ها تحمیل می کرد. به همین ذلیل شرکت ها مجبور بودند که به داده های ساختارمند بسنده کنند. داده های ساختاری (داده های کمی) نیز نامیده می شوند.

جمع آوری داده های ساختاریافته:

گردآوری داده های ساختاری کاری دشوار است و از لحاظ ماهیت، مقدار داده های ساختاری قابل جمع آوری، محدود می باشد. یک روش معمول برای جمع آوری داده های ساختاری پرسشنامه است. در صورتی که داده ها از طریق پرسشنامه جمع آوری نشوند، آنها را تایپ و یا کدگذاری می کنند و افراد در یک سیستم ساخت یافته با آنها تعامل می کنند.

داده های ساختار نیافته:

داده هایی هستند که به طور صحیح قلب بندی نشده و سازمان نیافته اند. جمع آوری، پردازش و تجزیه و تحلیل داده های ساختار نیافته یک چالش مهم است. داده های غیر ساختاری (داده های کیفی) نیز نامیده می شوند.

جمع آوری داده های ساختارنیافته:

توانایی رمزگشایی داده های بدون ساختار گزینه های جدیدی را برای جمع آوری داده ها بوجود آورده است. ذخیره اطلاعات با هزینه کمتری صورت می گیرد و می توان از مدل های یادگیری ماشین برای استخراج اطلاعات استفاده نمود. صدا، فیلم، می تواند به عنوان منبع داده مورد استفاده قرار گیرد.


ادامه....>

به عنوان مثال: برای تشخیص گفتار، می توانیم از AT&T Speech API استفاده کنیم. Cloud Vision API Google برای بسیاری از کارهای خاص تصویر مفید است.

یکی از مزایای داده های ساختار نیافته این است که قابلیت استفاده مجدد را دارند. به عنوان مثال یک فایل صوتی را می توان برای اهداف مختلف مورد استفاده قرار داد و عیبی که این امر دارد این است که حریم خصوصی افراد نقض می شود چون کاربران دقیقا نمی دانند از این داده ها برای تحقق کدامین هدف استفاده می شود.

همچنین اپل داده های غیرساختاری کاربران خود را به فروشندگان و تبلیغ کنندگان می فروشد و آن ها از طریق این داده ها می توانند نحوه آگاهی و دسترسی کاربران به آگهی ها را شناسایی کنند.

می توان تفاوت داده های ساختاری و غیر ساختاری را به صورت زیر خلاصه کرد:

داده های نیمه ساختاریافته

سازماندهی این نوع داده ها سخت و دشوار نیست و می توان پس از کمی الک، پردازش و تبدیل از آنها استفاده کرد. برای این کار از نرم افزارهایی مانند Apache Hadoop استفاده شده است. با این حال ، اینها در DB رابطه ای ذخیره نمی شوند. در حقیقت، داده های نیمه ساختاری را می توان داده های ساخت یافته ای نامید که به صورت غیر سازمان یافته در دسترس هستند.

نمونه هایی از این نوع اطلاعات به صورت داده های وب مانند پرونده های JSON (JavaScript Object Notation)، فایل های متنی با جدول جدا شده، فایل های .csv ، فایل های BibTex ، XML و سایر زبان های نشانه گذاری وجود دارد. داشتن یک نیمه ساختاری باعث سهولت در فضا، شفاف سازی در محاسبه داده ها می شود. آنها دارای ویژگی های سازمانی هستند که تجزیه و تحلیل را آسان می کند.

تاریخچه:

در دهه 1960، مشاغل شروع به استفاده از رایانه ها کردند، ذخیره و مدیریت داده ها برای آن ها اهمیت پیداکرد. نیاز به ذخیره کارآمد داده ها احساس شد و بانک های اطلاعاتی بوجود آمدند. IMS IBM یک نمونه از این بانک های اطلاعاتی اولیه است و تنها قادر به ذخیره داده های ساخت یافته بودند.

دهه 1970 شاهد ورود پایگاه های داده رابطه ای هستیم. در سال 1974، IBM SQL به عنوان زبانی برای پرس و جو از چنین پایگاه های اطلاعاتی بوجود آمد.

1991، اندی رن، معاون بازاریابی برای مهندسین معماری پایگاه داده، اظهار داشت که "تا 90 درصد از اطلاعات کسب و کار، داده های غیر عددی و شکل آزاد است." این یکی از اولین گزارش های منتشر شده است که داده های بدون ساختار را بصورت کمی ارائه می دهد.

اوایل و اواسط دهه 1990 است که متن کاوی شروع به ورود به برنامه های واقعی می کند. سیستم های مدیریت اسناد ظهور می کنند، بعداً به عنوان سیستم های مدیریت محتوای سازمانی (ECM) تغییر نام می دهند. شبکه جهانی وب نیز شروع به تولید داده های غیر ساختاری زیادی می کند. هوش تجاری (BI) که در داده های ساخت یافته رشد کرده است، شروع به استخراج متن برای درک بهتر می کند.

1998، یک قانون کلی این است که 80٪ کل داده ها در بهترین حالت بدون ساختار یا نیمه ساختاری هستند. این رقم 80٪ در گزارش مریل-لینچ ذکر شده است اما دلایل قابل قبولی برای آن ارائه نشده است.

2007، TDWI Research از یک نظرسنجی که شامل انباره داده ها و جستجوی هوش تجاری است، دریافت که نسبت ساختار یافته / غیر ساختاری 20/80 نیست که معمولاً ادعا می شود. داده های ساختاری 47٪، داده های غیر ساختاری 31٪ و بقیه نیمه ساختاری است. با این حال، این گزارش نشان دهنده این است که داده های غیرساختاری رو به افزایش است.

2009، OASIS، نسخه 1.0، معماری مدیریت ساختار اطلاعات (UIMA) را تأیید می کند. Apache UIMA یک برنامه متن باز از این استاندارد است. V1.0.0 این نرم افزار در ژانویه 2014 منتشر شد. در آگوست 2019 ، V3.1.0 منتشر شد.

2019، تجزیه و تحلیل داده های بدون ساختار در برخی از حوزه ها هنوز جدید است. نمونه موردی صنعت بهداشت است که در آن یادداشت های دست نویس پزشکان، تصاویر، تاریخچه ها، فرمول ها و ژنتیک به طور کامل تجزیه و تحلیل نشده است.


ترجمه و گردآوری: ملیحه باغبان دانشجوی دکتری علم اطلاعات


منابع:

https://www.bmc.com/blogs/structured-vs-unstructured-data/

https://devopedia.org/structured-vs-unstructured-data

https://www.cabotsolutions.com/big-data-testing-how-to-overcome-quality-challenges


پنجشنبه 10 تیر 1400
ارسال نظر برای این مطلب

کد امنیتی رفرش