قبل از پرداختن به مفهوم اکوسیستم داده، لازم است با مفهوم اکوسیستم آشنا شویم:
تعریف اکوسیستم: یک اکوسیستم (Ecosystem) یا زیست بوم به عنوان یک محیط به همراه هر گونه موجود زنده و تمام عوامل غیرزنده که درون آن محیط وجود دارند، تعریف میشود.
تعریف اکوسیستم داده: اکوسیستم داده مجموعه ای از زیرساخت ها، تحلیل ها و برنامه های کاربردی است که برای جمع آوری و تجزیه و تحلیل داده ها استفاده می شود. اکوسیستمهای داده دادههایی را در اختیار شرکتها قرار میدهند که برای درک مشتریان خود و تصمیمگیری بهتر در مورد قیمتگذاری، عملیات و بازاریابی به آنها تکیه میکنند.
از این رو، اصطلاح اکوسیستم داده: محیط های داده ای هستند که برای تکامل طراحی شده اند. هیچ «اکوسیستم داده» یکسانی وجود ندارد هر کسبوکاری اکوسیستم خود را ایجاد میکند که به آن پشته فناوری نیز گفته میشود و آن را با مجموعهای از سختافزار و نرمافزارها پر میکند تا دادهها را جمعآوری،ذخیره، تجزیه و تحلیل و عمل کند. بهترین اکوسیستم های داده حول یک پلت فرم تجزیه و تحلیل محصول ساخته شده اند که اکوسیستم را به هم متصل می کند. پلتفرم های تجزیه و تحلیل به تیم ها کمک می کند تا چندین منبع داده را ادغام کنند.
چطور یک اکوسیستم داده ایجاد کنیم؟
برای هر اکوسیستم داده سه عنصر وجود دارد:
1) زیر ساخت
اگر یک اکوسیستم داده یک خانه باشد، زیرساخت، پی آن است. و در اینجا زیرساخت، خدمات سخت افزاری و نرم افزاری است که داده ها را تسخیر، جمع آوری و سازماندهی می کند. این زیرساخت شامل سرورهایی برای ذخیره سازی، زبان های جستجو مانند SQL و پلتفرم های میزبانی می شود. زیرساخت می تواند برای جمع آوری و ذخیره سه نوع داده استفاده شود: ساختاریافته، بدون ساختار و چند ساختاری. همانطور که از نام آن پیداست، داده های ساختاریافته تمیز، برچسب گذاری شده و سازماندهی شده هستند، مانند تعداد کل بازدیدهای یک وب سایت که به یک صفحه گسترده اکسل صادر می شود. بدون ساختار به داده هایی گفته می شود که برای تجزیه و تحلیل سازماندهی نشده اند، به عنوان مثال، متن مقالات. دادههای چندساختاری دادههایی هستند که از منابع مختلف در قالبهای مختلف تحویل داده میشوند – این دادهها میتواند ترکیبی از هر دو ساختار یافته و بدون ساختار باشد.
اگر اکوسیستم ها حجم زیادی از داده ها را در خود نگهداری می کنند، به ابزارهای اضافی نیاز دارند تا تیم ها بتوانند به آن دسترسی پیدا کنند. ممکن است تیمها از فناوریهایی مانند Hadoop یا Not Only SQL (NoSQL) برای تقسیمبندی دادههای خود و امکان درخواستهای سریعتر استفاده کنند.
2) تجزیه و تحلیل
تجزیه و تحلیل درب ورودی به خانه اکوسیستم داده است. پلتفرم های تجزیه و تحلیل داده های ذخیره شده در زیرساخت را جستجو و خلاصه می کنند و قطعات زیرساخت را به هم گره می زنند تا همه داده ها در یک مکان در دسترس باشند. در حالی که سیستم های زیرساختی تجزیه و تحلیل اولیه خود را ارائه می دهند، این ابزارها کافی نیستند. یک پلتفرم تجزیه و تحلیل اختصاصی میتواند دادهها را عمیق تر کاوش کند، رابط بصریتری ارائه دهد، و مجموعهای از ابزارهایی را که برای کمک به تیمها در انجام محاسبات سریعتر ساخته شده است، شامل شود. به عنوان مثال، در حالی که یک سرور برنامه ممکن است به یک تیم اطلاع دهد که برنامه آنها چه مقدار داده را پردازش می کند، یک پلت فرم تجزیه و تحلیل می تواند به شناسایی همه کاربران منفرد در آن داده ها، پیگیری کارهایی که هر کدام در حال حاضر انجام می دهند و پیش بینی اقدامات بعدی آنها کمک کند. فقط تجزیه و تحلیل می تواند کاربران را تقسیم بندی کند و آنها را با قیف های بازاریابی اندازه گیری کند، ویژگی های خریداران ایده آل را شناسایی کند، یا به طور خودکار پیام های درون برنامه ای را برای کاربرانی که در معرض خطر ریزش هستند ارسال کند.
3) برنامه های کاربردی
برنامه ها دیوارها و سقف خانه اکوسیستم داده ها هستند - آنها خدمات و سیستم هایی هستند که داده ها را پردازش و قابل استفاده می کنند.
مواردی که باید هنگام ایجاد یک اکوسیستم داده در نظر گرفت:
1) حاکمیت داده
در عصری که فناوری اطلاعات دیگر نظارت دقیق و مرکزی بر دادهها ندارد، شرکتها باید قوانین حاکم بر دادهها را مشخص کنند، معمولاً با انتشار یک دستورالعمل داخلی برای نحوه جمعآوری، استفاده، ذخیره، حفاظت و دفع دادهها. قوانینی مانند GDPR اتحادیه اروپا، بسیاری از تیمهای محصول را مجبور میکند شفافتر عمل کنند، هر سازمانی باید دستورالعمل های حاکمیت داده خود را منتشر کند و به آن پایبند باشد.
منبع تصویر+مطالعه بیشتر در زمینه حاکمیت داده
2) دموکراتیک کردن علم داده
اکثر تیم ها می توانند از اطلاعات مشتری بهره مند شوند، اما اگر تنها یک نفر بتواند به داده ها دسترسی داشته باشد، آن شخص به گلوگاه تبدیل می شود. بسیاری از شرکتها روی پلتفرمهای تحلیلی سرمایهگذاری میکنند که رابطهای بصری ارائه میکنند و به هر کسی در سراسر شرکت اجازه دسترسی به دادهها را میدهند. به عنوان مثال، DocuSign Mixpanel را مستقر کرد و مجوزها را به بیش از صد کاربر در سراسر شرکت ارائه کرد. درو اشلاک، مدیر ارشد محصول DocuSign، گفت: «ما اکنون در حال ساخت یک اکوسیستم داده هستیم و به تدریج دادههای بیشتری را اضافه میکنیم که میخواهیم مردم دسترسی آسانتری به آن داشته باشند. با افزایش دسترسی به داده ها، DocuSign تغییراتی ایجاد کرد که منجر به افزایش 15 درصدی در ایجاد حساب کاربری جدید مشتری شد.
منبع تصویر+مطالعه بیشتردر مورد دموکراتیک کردن علم داده
3) اصالت منبع داده (منشا): منشأ داده مستنداتی است که نشان می دهد یک قطعه داده از کجا آمده و فرآیندها و روشی که توسط آن تولید شده است، کدامند.ئکلمه منشأ از واژه فرانسوی «provenir» به معنای «از آمده» گرفته شده است و به «نسب» یا «شجره» نیز معروف است. منشأ، به عنوان یک عمل، در زمینه تاریخ هنر برای مستندسازی تاریخ یک اثر هنری استفاده شده است. و در کتابخانه های دیجیتال برای مستندسازی چرخه حیات یک شی دیجیتال. به طور مشابه، ثبت منشأ داده (نوعی فراداده) برای تأیید صحت داده ها و امکان استفاده مجدد از آن، مهم است.
لینک منابع:
ضرورت ساخت و چگونگی ایجاد اکوسیستم داده
ترجمه وگردآوری: ملیحه باغبان، دانشجوی دکتری علم اطلاعات و دانش شناسی/گرایش بازیابی