👈نویسنده : ملیحه باغبان

تجزیه و تحلیل متن ( TEXT ANALYTICS)، مجموعه ای از تکنیک های یادگیری ماشینی، آماری و زبانی را برای پردازش حجم زیادی از متن بدون ساختار (unstructured text) یا متنی که قالب از پیش تعریف شده ای ندارد، ترکیب می کند تا الگوهای درونی را استخراج کند. کسب‌وکارها، دولت‌ها، محققان و رسانه‌ها را قادر می‌سازد تا از محتوای عظیمی که در اختیار دارند برای تصمیم‌گیری‌های حیاتی بهره‌برداری کنند. تجزیه و تحلیل متن از تکنیک های مختلفی استفاده می کند مثل: تجزیه و تحلیل احساسات، مدل سازی موضوع، شناسایی موجودیت نامگذاری شده، فراوانی اصطلاح و استخراج رویداد.

دو نکته مهم: 1) داده های بدون ساختار  و  2) حجم بالای داده (بیگ دیتا)

تفاوت متن کاوی و تجزیه و تحلیل متن:

گاهی این دو اصطلاح به جای هم بکار می روند اما اصطلاح متن کاوی به طور کلی برای استخراج بینش کیفی از متن بدون ساختار استفاده می شود، در حالی که تجزیه و تحلیل متن نتایج کمی را ارائه می دهد.

به عنوان مثال:

از متن کاوی می توان برای تشخیص رضایت مشتریان از یک محصول با تجزیه و تحلیل نظرات و نظرسنجی های آنها استفاده کرد. 

تجزیه و تحلیل متن برای شناسایی یک الگو یا روند از متن بدون ساختار استفاده می شود. به عنوان مثال، تجزیه و تحلیل متن می تواند برای درک امتیاز منفی تجربه مشتری یا محبوبیت یک محصول استفاده شود. (چرا یک مشتری به یک کالا امتیاز منفی داده و یا چرا یک محصول از محبوبیت بیشتری برخوردار است)

Text Analysis:به منظور استخراج حقایق از متن به منظور ماشین خوان کردن آن هاست. هدف از تجزیه و تحلیل متن، ایجاد داده های ساختار یافته از محتوای متن ساختارنیافته است. این فرآیند را می توان به عنوان برش انبوه اسناد بدون ساختار و ناهمگن به قطعات داده با مدیریت و تفسیر آسان در نظر گرفت. تجزیه و تحلیل متن به اصطلاحات دیگری مانند متن کاوی، تجزیه و تحلیل متن (text analytics) و استخراج اطلاعات نزدیک است.

Text mining, Text analytics, Text analysis
همه این اصطلاحات به پردازش زبان طبیعی (NLP) اشاره دارد که در آن هدف نهایی درک کامل متن نیست، بلکه بازیابی اطلاعات خاص از آن به عملی ترین روش است.Text Analysis کاری است که شما انجام می دهید تا جمله را به داده تبدیل کنید و بتوانید آنچه را که این متن در مورد آن است به رایانه ها ارائه دهید. Text Analytics برای کمک به درک این داده ها وارد عمل می شود.

Text Mining، مجموعه به هم پیوسته از فناوری هایی است که برای پردازش و تحلیل انواع داده های نیم ساخت یافته و غیرساخت یافته به کار می رود و سعی دارد که حروف و واژگان را به عدد (ساختارمند کند) تبدیل کند. درحقیقت متن کاوی، به تحلیل هوشمند متن، داده کاوی متنی یا کشف دانش در متن معروف است و به فرایند استخراج دانش و اطلاعات مهم از مجموعه متنی غیرساختاریافته  اشاره دارد.

Text analytics process flow
داده‌های متنی چیست؟ معمولاً از اسنادی تشکیل می‌شوند که می‌توانند کلمات، جملات یا حتی پاراگراف‌هایی از متن را نشان دهند. ماهیت بدون ساختار ذاتی (بدون ستون های داده با فرمت منظم!) و ماهیت نویزی داده های متنی، روش های یادگیری ماشینی را بر روی داده های متن خام دشوارتر می کند.
متن کاوی چه چیزی را پوشش می دهد؟
علم اطلاعات و دانش شناسی از کدام فیلد به متن کاوی مرتبط می شود؟ بازیابی اطلاعات (Information Retrieval)

لینک منابع
مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات و دانش شناسی/بازیابی اطلاعات و دانش

این مباحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می شود



یکشنبه 16 آبان 1400
ارسال نظر برای این مطلب

کد امنیتی رفرش