سوال: بعد از انجام مراحل پیش پردازش بر روی داده ها، اکنون این سوال پیش می آید که داده ها بعد از پیش پردازش به کجا می روند و اصلا در کجا هستند؟ و تجمیع داده ها در کجا اتفاق می افتد؟ جواب :انبار داده ها (Data Warehouse)
تعریف انبار داده ها: سیستم های انبار داده ها مجموعه ای از پایگاه داده های یکپارچه و موضوع گرا از بازه های زمانی متفاوت و غیر فرار به منظور پشتیبانی از فرایند تصمیم گیری و افزایش دانش افراد درگیر (کارکنان داخلی- افراد ناشناس شبکه ها یا هر دو) است.
به عبارت دیگر یک انبار داده، داده ای دلخواه را از یک یا چند منبع جمع آوری کرده و آن ها را به موضوعاتی اطلاعاتی تبدیل می کند، سپس آن ها را به همراه اطلاعات زمان و تاریخ برای پشتیبانی بهتر از تصمیم گیری ها ذخیره می کند.
چهار خصوصیت و ویژگی اصلی انبار داده ها بر اساس تعریف بیل اینمون پدر سیستم های انبار داده:
1) موضوع گرا 2) مجتمع 3) وابسته به زمان 4) غیر فرار
1) موضوع گرا: هر انبار داده داده های مرتبط با یک موضوع خاص را در خود نگاه میدارد و این داده ها را به منظور استخراج مفاهیم و نتایج خاصی به شکلی ویژه سازماندهی میکند انبار داده برای پاسخگویی به پرسش های مختلف در مورد یک موضوع خاص بهینه سازی می شود مثلا در یک محیط کتابخانهای دادههای مربوط به کاربران و منابع وجود دارد در بحث انبار داده ها بهتر است که موضوعات جداگانه در نظر گرفته شود و در یک موضوع خاص سازماندهی شوند.
2) مجتمع (جامعیت- یکپارچگی): داده ها در انبار داده ها از تجمیع داده های دیگر حاصل می شود مثلاً منابع داده در کشورهای مختلف با زبان و تاریخ های مختلف ذخیره شدهاند و یا منابعی که از ماشین های مختلف هستند در اعداد، حروف و دیگری فیلد ها متناسب با محدودیتهای ماشین، سیستم عامل و تطابق با استاندارد های مختلف متفاوت هستند در انبار داده ها با توجه به مختلف بودن منابع انبار داده قبل از ذخیره سازی آن ها در انبار داده برای تامین یکپارچگی تکنیک های پاک سازی داده ها و مجتمع سازی به کار می رود.
3) وابسته به زمان: افق زمانی برای انباره داده ها بسیار مهم است داده ها در انبار داده برای تهیه اطلاعات تاریخی مثلاً برای ۵ تا ۱۰ سال پیش به کار می روند. هر ساختار کلیدی در انبار داده شامل عنصر زمان است در سیستم انبار داده داده ها هرگز به روزآوری یا آپدیت نمی شود بلکه دادههای جدید و یا تغییر یافته با زمان های جدید به انبار اضافه می شوند. در ساختار انباره داده ها عامل زمان میتواند به طور ضمنی یا وضوح بیان شود.
4) غیر فرار- دائمی بودن- پایایی: پایگاه داده ها شامل داده هایی هستند که ممکن است در عملیات روزانه اضافه یا حذف شوند در مقابل انباره داده ها با مواردی سروکار دارند که عموما تراکنشها حذف و اضافه نمی شوند بنابراین نیازی به ایجاد و دسترسی انحصاری به داده ها نخواهیم داشت و فقط به دو فعالیت کلیدی احتیاج داریم وارد کردن داده ها و دسترسی به داده ها. داده های انباره داده همیشه از لحاظ فیزیکی مجزا هستند و هیچگاه نیازی به تغییر و بهروزرسانی نخواهند داشت.
انبار داده ها دارای ساختاری چند بعدی است و از یک معماری خاص برخوردار است. مدل داده ها در انبار داده به شکل مکعب اطلاعاتی تصور میشود یک مکعب اطلاعاتی داده ها را در چندین بُعد نمایش میدهد منظور از مکعب اطلاعاتی وجود تعدادی از سطرها و ستون ها ست که در
.ابعاد مختلف نمایش داده می شود
پایگاه های داده برای مدل (OLTP) بهینه سازی شده است که بر اساس مدل داده رابطه ای امکان پردازش تعداد زیادی تراکنش هم روند که اغلب حاوی رکوردهای اندکی هستند را دارد اما در انباره های داده که برای (OLAP) طراحی شده اند امکان پردازش تعداد کمی پرس و جوی پیچیده بر روی تعداد بسیار زیادی رکورد داده فراهم می شود.
از لحاظ کاربران کاربران پایگاه داده کارمندان و مسئولان هستند و کاربران انبار داده مدیران و تصمیم گیرندگان هستند.
عملیاتی که بر روی پایگاه داده ها صورت می گیرد شامل عملیات بهنگام سازی است در حالی که عمل خواندن از انبار عمده عملیات قابل اجرا برروی انبار داده ها را تشکیل می دهد.
مقدار داده های یک پایگاه داده در حدود چند مگابایت تا چند گیگابایت است در حالی که این مقدار در انبار داده در حدود چند گیگابایت تا چند ترابایت است انبار داده با استفاده از دو تکنیک خلاصه سازی و سلسله مراتبی کردن سرعت انجام پرس و جو را بهبود بخشیده است.
کتاب: کلیات داده کاوی در علم اطلاعات و دانش شناسی (دکتر سعید غفاری و دکتر حمید قاضی زاده)
کتاب: (Jiawei Han-Micheline Kamber) Data Mining: Concepts and Techniques
مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش
این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد