جستجو

آرشيو مطالب
👈نویسنده : ملیحه باغبان

امروزه متن کاوی شتاب بیشتری به دست آورده است و در تجزیه و تحلیل در سراسر جهان مورد استفاده قرار می گیرد.

تحلیل احساسات- پیش بینی بازار سهام و سایر کاربردهای مالی- نفوذ مشتری- تحلیل اخبار- تحلیل شبکه های اجتماعی- خدمات مشتری و میز راهنمایی

شکل زیر پیش پردازش متن معمولی:

شکل زیر:سیستم متن کاوی عمومی

مراحل: 1) پیش پردازش متن - 2) پردازش متن (کشف دانش- یافتن معانی پنهان از متن) - 3) تحلیل متن

مرحله سوم: تحلیل متن (در این مرحله برونداد مورد ارزیابی قرار می گیرد واینکه آیا دانش کشف شده از متن اهمیت دارد یا نه. انجام این کار از طریق اجرای الگوریتم ها و امکان استفاده مستقیم از آنهاست که از طریق ابزار کشف پیوند یا مصور سازی و ... صورت می گیرد.

فنون به کار رفته در تحلیل متن: استخراج اطلاعات-استخراج مفاهیم-دسته بندی-خوشه بندی-خلاصه سازی- مصور سازی- کشف پیوندها (concept linkage)-(topic tracking)

فنون بکار رفته در پردازش متن: الگوریتم درخت تصمیم- الگوریتم های ژنتیک- به دست آوردن قواعد انجمنی

استخراج اطلاعات: نرم افزار استخراج اطلاعات عبارات کلیدی و روابط با متن را شناسایی می کند. این نرم افزار روابط بین تمام افراد، مکان ها و زمان شناسایی شده را استنباط می کند تا اطلاعات قابل توجهی را به کاربر ارائه دهد. این فناوری می تواند در هنگام برخورد با حجم زیاد متن بسیار مفید باشد.

دسته بندی: دسته بندی ها با قرار دادن سند در مجموعه ای از موضوعات از پیش تعریف شده، مضامین اصلی یک سند را شناسایی می کنند. طبقه‌بندی فقط کلماتی را محاسبه می‌کند که ظاهر می‌شوند و از شمارش‌ها، موضوعات اصلی را که سند پوشش می‌دهد، مشخص می‌کند. دسته بندی اغلب بر واژگانی متکی است که موضوعات برای آن از پیش تعریف شده است و روابط با جستجوی اصطلاحات گسترده، اصطلاحات محدودتر، مترادف ها و اصطلاحات مرتبط شناسایی می شوند. ابزارهای طبقه بندی معمولاً دارای تکنیکی برای درجه بندی اسناد هستند که به ترتیب اسناد دارای بیشترین محتوا در یک موضوع خاص هستند.

خوشه بندی: خوشه‌بندی تکنیکی است که برای گروه‌بندی اسناد مشابه استفاده می‌شود، اما تفاوت آن با دسته‌بندی در این است که اسناد به‌جای استفاده از موضوعات از پیش تعریف‌شده، به‌سرعت خوشه‌بندی می‌شوند. یکی دیگر از مزایای خوشه بندی این است که اسناد می توانند در چندین موضوع فرعی ظاهر شوند، بنابراین اطمینان حاصل می شود که یک سند مفید از نتایج جستجو غایب نخواهد بود. یک الگوریتم خوشه‌بندی پایه، بردار موضوعاتی را برای هر سند ایجاد می‌کند و وزن‌های تناسب سند در هر خوشه را تعیین می‌کند. فناوری خوشه‌بندی می‌تواند در سازماندهی سیستم‌های اطلاعات مدیریت که ممکن است حاوی هزاران سند باشد، مفید باشد.

به دست آوردن قواعد انجمنی: ماینینگ قانون انجمن (ARM) تکنیکی است که برای کشف روابط بین مجموعه بزرگی از متغیرها در یک مجموعه داده استفاده می‌شود. که در صنعت بیشترین کاربرد را دارد.

topic tracking: مکانیزم سیستم ردیابی موضوع با نگهداری از پروفایل های کاربر و بر اساس اسنادی که کاربر مشاهده می کند، سایر اسناد مورد علاقه کاربر را حدس می زند. یاهو (www.alerts.yahoo.com) یک ابزار رایگان ردیابی موضوع را ارائه می دهد که به کاربران اجازه می دهد کلمات کلیدی را انتخاب کنند و در صورت وجود اخبار مربوط به آن موضوعات به آنها اطلاع می دهد.برخی از ابزارهای متن کاوی بهبودیافته به کاربران اجازه می‌دهند دسته‌های خاص مورد علاقه خود را انتخاب کنند یا نرم‌افزار به طور معمول حتی می‌تواند نگرانی کاربر را بر اساس تاریخچه خواندن و اطلاعات کلیک او استنباط کند.

concept linkage: ابزارهای پیوند مفهومی، اسناد مرتبط را با شناسایی ایده مشترکشان پیوند می دهند و به کاربران کمک می‌کنند اطلاعاتی را پیدا کنند که شاید با استفاده از روش‌های جستجوی مرسوم نمی‌توانستند آن‌ها را پیدا کنند. به جای جستجوی اطلاعات، مرور برای اطلاعات را ترویج می کند. پیوند مفهومی ایده ارزشمندی در متن کاوی است، به ویژه در زمینه های زیست پزشکی که مطالعات زیادی در آن انجام شده است که خواندن همه مطالب برای محققان غیرممکن است. در حالت ایده‌آل، نرم‌افزار پیوند مفهومی می‌تواند پیوندهای بین بیماری‌ها و درمان‌ها را در زمانی که انسان نمی‌تواند شناسایی کند. به عنوان مثال، یک راه حل نرم افزار متن کاوی ممکن است به راحتی پیوند بین موضوعات X و Y و Y و Z را که روابط شناخته شده ای هستند شناسایی کند. اما ابزار متن کاوی همچنین می‌تواند یک پیوند بالقوه بین X و Z را شناسایی کند، چیزی که یک محقق انسانی به دلیل حجم زیادی از اطلاعاتی که برای ایجاد ارتباط باید مرتب‌سازی کند، هنوز با آن مواجه نشده است.

مصور سازی: متن کاوی بصری یا تجسم اطلاعات، منابع متنی بزرگ را در یک سلسله مراتب بصری یا نقشه قرار می دهد و علاوه بر جستجوی ساده، قابلیت های مرور را نیز فراهم می کند. DocMiner ابزاری است که نگاشت مقادیر زیادی متن را نشان می دهد و به کاربر امکان می دهد محتوا را به صورت بصری تجزیه و تحلیل کند. کاربر می تواند با بزرگنمایی، مقیاس گذاری و ایجاد نقشه های فرعی با نقشه سند تعامل داشته باشد. تجسم اطلاعات زمانی مفید است که کاربر نیاز دارد طیف وسیعی از اسناد را محدود کند و موضوعات مرتبط را بررسی کند. دولت می‌تواند از تجسم اطلاعات برای شناسایی شبکه‌های تروریستی یا یافتن اطلاعاتی در مورد جنایاتی که قبلاً تصور می‌شد ارتباطی با یکدیگر ندارند، استفاده کند. این می‌تواند نقشه‌ای از روابط احتمالی بین فعالیت‌های مشکوک را در اختیار آنها بگذارد تا بتوانند ارتباطاتی را که به تنهایی به آن دست پیدا نکرده‌اند، بررسی کنند.

تکنیک های بصری سازی: بررسی نقطه ای- بصری سازی فضایی- نمایش خوشه ای، نمایش شبکه ای و ...

اهداف بصری سازی: کشف داده ها- تایید فرضیه ها- بازنمون بصری

بصری سازی اطلاعات و ارائه آن به کاربر می تواند کمک کند: 

1 .کاهش میزان وقت برای درک نتایج جستجو و خوشه های احتمالی اطلاعات مرتبط. 

2.اطلاعات حیاتی که از روابط بین آیتم بیرون می آید . 

3 .انجام اقدامات ساده است که توابع جستجو اطلاعات پیچیده را تولید می کند.

بازنمود اطلاعات در حالت بصری اجازه پردازش موازی شناختی حقایق متعدد و روابط رضایت بخش را می دهد. بنابراین، جنبه های شناخت انسان اساس فنی برای درک جزئیات سیستم های بصری سازی اطلاعات دارد. 

پردازش می تواند در چهار سطح صورت پذیرد:

1. سطح حروف و روابط بین آن ها

2.سطح واژگان از طریق matching (تطبیق واژه)

3.سطح اصطلاحات و بدست آوردن رابطه ها از طریق تزاروس ها

4. سطح مفهوم: پیوند متن به آنتولوژی منتسب به آن

لینک منابع: منبع اول، منبع دوم، منبع سوم

Feldman, Ronen, and James Sanger. 2007. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press.

Thilagavathi, K., & Shanmuga, V. (2014). A survey on text mining techniques. International Journal of Advanced Research in Computer Science and Robotics, ISSN2320(7345), 41-50.

مدرس: ملیحه باغبان، دانشجوی دکتری علم اطلاعات ودانش شناسی/ بازیابی اطلاعات و دانش

این مبحث برای دانشجویان علم اطلاعات و دانش شناسی گردآوری و ارائه می گردد


دوشنبه 15 آذر 1400
ادامه مطلب
درباره نویسنده
ملیحه باغبان

📖  کارشناسی کتابداری
دانشگاه پیـــام نور مرکز تبریز

📖  کارشناسی ارشد
مدیریت اطلاعات دانشگاه تبریز

📖  دانشجوی دکتری
بازیـــابی اطـلاعــات و دانــــش
دانشگـــاه الـزهرا (س) - تهران