جستجو

آرشيو مطالب

سوال: بعد از انجام مراحل پیش پردازش بر روی داده ها، اکنون این سوال پیش می آید که داده ها بعد از پیش پردازش به کجا می روند و اصلا در کجا هستند؟ و تجمیع داده ها در کجا اتفاق می افتد؟ جواب :انبار داده ها (Data Warehouse)

تعریف انبار داده ها: سیستم های انبار داده ها مجموعه ای از پایگاه داده های یکپارچه و موضوع گرا از بازه های زمانی متفاوت و غیر فرار به منظور پشتیبانی از فرایند تصمیم گیری و افزایش دانش افراد درگیر (کارکنان داخلی- افراد ناشناس شبکه ها یا هر دو) است.

به عبارت دیگر یک انبار داده، داده ای دلخواه را از یک یا چند منبع جمع آوری کرده و آن ها را به موضوعاتی اطلاعاتی تبدیل می کند، سپس آن ها را به همراه اطلاعات زمان و تاریخ برای پشتیبانی بهتر از تصمیم گیری ها ذخیره می کند.

چهار خصوصیت و ویژگی اصلی انبار داده ها بر اساس تعریف بیل اینمون پدر سیستم های انبار داده:

1) موضوع گرا 2) مجتمع 3) وابسته به زمان 4) غیر فرار

1) موضوع گرا: هر انبار داده داده های مرتبط با یک موضوع خاص را در خود نگاه می‌دارد و این داده ها را به منظور استخراج مفاهیم و نتایج خاصی به شکلی ویژه سازماندهی می‌کند انبار داده برای پاسخگویی به پرسش های مختلف در مورد یک موضوع خاص بهینه سازی می شود مثلا در یک محیط کتابخانه‌ای داده‌های مربوط به کاربران و منابع وجود دارد در بحث انبار داده ها بهتر است که موضوعات جداگانه در نظر گرفته شود و در یک موضوع خاص سازماندهی شوند.

2) مجتمع (جامعیت- یکپارچگی): داده ها در انبار داده ها از تجمیع داده های دیگر حاصل می شود مثلاً منابع داده در کشورهای مختلف با زبان و تاریخ های مختلف ذخیره شده‌اند و یا منابعی که از ماشین های مختلف هستند در اعداد، حروف و دیگری فیلد ها متناسب با محدودیت‌های ماشین، سیستم عامل و تطابق با استاندارد های مختلف متفاوت هستند در انبار داده ها با توجه به مختلف بودن منابع انبار داده قبل از ذخیره سازی آن ها در انبار داده برای تامین یکپارچگی تکنیک های پاک سازی داده ها و مجتمع سازی به کار می رود.

3) وابسته به زمان: افق زمانی برای انباره داده ها بسیار مهم است داده ها در انبار داده برای تهیه اطلاعات تاریخی مثلاً برای ۵ تا ۱۰ سال پیش به کار می روند. هر ساختار کلیدی در انبار داده شامل عنصر زمان است در سیستم انبار داده داده ها هرگز به روزآوری یا آپدیت نمی شود بلکه داده‌های جدید و یا تغییر یافته با زمان های جدید به انبار اضافه می شوند. در ساختار انباره داده ها عامل زمان می‌تواند به طور ضمنی یا وضوح بیان شود.

4) غیر فرار- دائمی بودن- پایایی: پایگاه داده ها شامل داده هایی هستند که ممکن است در عملیات روزانه اضافه یا حذف شوند در مقابل انباره داده ها با مواردی سروکار دارند که عموما تراکنش‌ها حذف و اضافه نمی شوند بنابراین نیازی به ایجاد و دسترسی انحصاری به داده ها نخواهیم داشت و فقط به دو فعالیت کلیدی احتیاج داریم وارد کردن داده ها و دسترسی به داده ها. داده های انباره داده همیشه از لحاظ فیزیکی مجزا هستند و هیچگاه نیازی به تغییر و به‌روزرسانی نخواهند داشت.

ساختار و معماری انبار داده ها:

انبار داده ها دارای ساختاری چند بعدی است و از یک معماری خاص برخوردار است. مدل داده ها در انبار داده به شکل مکعب اطلاعاتی تصور می‌شود یک مکعب اطلاعاتی داده ها را در چندین بُعد نمایش می‌دهد منظور از مکعب اطلاعاتی وجود تعدادی از سطرها و ستون ها ست که در

.ابعاد مختلف نمایش داده می شود 

انبار داده ها - مدل مفهومی
هر انبار داده ها دارای یک شِِما است. معمولاً یک مدل داده ای چندبُعدی برای طراحی انبار داده ها استفاده می شود. از معروفترین شِماها در این مدل دادهای می توان به شِمای ستاره ای و شِمای برفگونه و صورت فلکی اشاره کرد.
مدل ستاره ای: 
همانطور که از نامش مشخص است، شکل ستاره ای دارد. در این شِما انبار داده ها شامل یک جدول مرکزی بزرگ است که به نام جدول fact شناخته می شود. در این جدول که حاوی تعداد زیادی رکورد است، جزئیات هر رکورد تراکنشی بدون افزونگی ثبت می گردد. در اطراف آن، جداول مربوط به هر ویژگی dimension قرار می گیرد. جدول fact نرمال سازی شده است و به سایر جداول dimension از طریق کلیدهای خارجی مرتبط می شود. 
مدل برفگونه:
در شِمای برفگونه برخی از جداول dimension نرمالسازی شده اند تا افزونگی موجود در شِمای ستاره ای در این ساختار وجود نداشته باشد. برای مثال جدول Regionبه Storeو جدول Accountبه Customerمتصل شده است. این جداول فضای کمتری را نسبت به حالت قبل که دارای افزونگی بود، اشغال می کنند.
مدل صورت فلکی:
نوع دیگری از طراحی برای شِمای انبار داده ها وجود دارد که در آن میتوان بیش از یک جدول factپیدا کرد. در این شِما که با نام fact constellation شناخته می شود، هر یک از جداول factدارای جداول dimension مربوط به خود هستند که می تواند بین آنها به اشتراک گذاشته شود.
موارد تفاوت پایگاه داده و انباره داده:

پایگاه های داده برای مدل (OLTP) بهینه سازی شده است که بر اساس مدل داده رابطه ای امکان پردازش تعداد زیادی تراکنش هم روند که اغلب حاوی رکوردهای اندکی هستند را دارد اما در انباره های داده که برای (OLAP) طراحی شده اند امکان پردازش تعداد کمی پرس و جوی پیچیده بر روی تعداد بسیار زیادی رکورد داده فراهم می شود.

از لحاظ کاربران کاربران پایگاه داده کارمندان و مسئولان هستند و کاربران انبار داده مدیران و تصمیم گیرندگان هستند.

 عملیاتی که بر روی پایگاه داده ها صورت می گیرد شامل عملیات بهنگام سازی است در حالی که عمل خواندن از انبار عمده عملیات قابل اجرا برروی انبار داده ها را تشکیل می دهد.

مقدار داده های یک پایگاه داده در حدود چند مگابایت تا چند گیگابایت است در حالی که این مقدار در انبار داده در حدود چند گیگابایت تا چند ترابایت است انبار داده با استفاده از دو تکنیک خلاصه سازی و سلسله مراتبی کردن سرعت انجام پرس و جو را بهبود بخشیده است.

سوال: آیا نحوه پردازش داده ها در پایگاه داده ها با انباره داده متفاوت است؟ جواب: بله.
لینک منابع
کتاب: مفاهیم و تکنیک های داده کاوی (مهدی اسماعیلی)

کتاب: کلیات داده کاوی در علم اطلاعات و دانش شناسی (دکتر سعید غفاری و دکتر حمید قاضی زاده)

کتاب:  (Jiawei Han-Micheline KamberData Mining: Concepts and Techniques

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش

این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد


یکشنبه 25 مهر 1400
ادامه مطلب
درباره نویسنده
ملیحه باغبان

📖  کارشناسی کتابداری
دانشگاه پیـــام نور مرکز تبریز

📖  کارشناسی ارشد
مدیریت اطلاعات دانشگاه تبریز

📖  دانشجوی دکتری
بازیـــابی اطـلاعــات و دانــــش
دانشگـــاه الـزهرا (س) - تهران