تصاویر از جمله منابع اطلاعاتی هستند که هر روزه میلیون ها قطعه بر تعداد آن ها افزوده می شود و به دلیل همین حجم بالای تولید و نیز ویژگی های خاص منابع دیداری، سازماندهی و نمایه سازی آن ها با چالش هایی همراه است. مسئله نمایه سازی و بازیابی تصاویر از سال 1970 میلادی به بعد به مقوله پژوهشی فعالی تبدیل شد و محققان دو حوزه مدیریت پایگاه ها و علوم رایانه در این زمینه رویکردهای مختلفی ارائه داده اند که آن ها را می توان به دو قسمت کلی روش های سنتی یا متنی و روش های محتوایی تقسیم کرد (عباسپور، 1386).
رویکردهای رایج در بازنمایی تصاویر
الف) رویکرد متنی: در این رویکرد به هر تصویر مثل آثار مکتوب چندین اصطلاح نمایه ای نسبت می دهند به طوری که بازتاب دهنده موضوع تصویر باشد. این ساده ترین روش برای بازنمایی تصاویر است و بیشتر افراد نیز ترجیح می دهند تا با وارد کردن چند کلمه در موتور های کاوش به تصویر مورد نظر خود برسند. دو روش برای اختصاص اصطلاحات نمایه ای برای منابع دیداری وجود دارد: استفاده از زبان آزاد و استفاده از زبان کنترل شده. در روش اصطلاح دهی با زبان آزاد، نمایه ساز از توصیفگرهایی که خود مناسب می داند برای توصیف مفاهیم موجود در تصویر استفاده می کند. به عنوان نمونه، تگ هایی که در اینستاگرام توسط کاربران ایجاد می شود را می توان ذکر کرد. در اصطلاح دهی با واژگان کنترل شده نیز نمایه ساز از طرح های رده بندی، سرعنوان های موضوعی و اصطلاحنامه ها برای انتخاب واژگان جهت توصیف تصویر استفاده می کند. لنکستر (1382) واژگان کنترل شده را فهرستی معتبر می داند که نمایه سازان تنها اصطلاحاتی را می توانند به مدرک اختصاص دهند که در این فهرست وجود داشته باشند. کتابخانه کنگره برای منابع گرافیکی اصطلاح نامه ای دارد که در آن هر مدخل حاوی تصویر نمونه همراه با ذکر اصلاحات مرتبط و عام تر است.
یکی دیگر از رویکردهای متنی برای توصیف منابع دیداری قالب های فراداده ای است. قالب های فراداده ای علاوه بر موضوع، مشخصات دیگر تصویر مثل نام سازنده یا عکاس، فرمت و اندازه تصویر را به شکل متنی توصیف می کنند به طوری که هر یک از این مشخصات می توانند به عنوان نقاط دسترسی برای بازیابی دقیق تر تصاویر از طرف نظام های جستجو استفاده شوند. حریری و حسینی شکرایی (1391) در پژوهش خود عناصر یک طرح فراداده ای مناسب برای انواع منابع دیجیتالی از جمله تصاویر را ذکر کرده اند که شامل طیف وسیعی از اطلاعات از جمله عنوان، تاریخ تهیه، اطلاعات مربوط به فایل تصویر، اطلاعات مربوط به دوربین و سایر موارد می شود. قالب فراداده ای دوبلین کور، قالب فایل تصویری قابل تبادل که حاوی اطلاعات مربوط به دوربین است و چارچوب ابر داده ای قابل توسعه از جمله قالب های فراداده ای موجود برای توصیف تصاویر هستند.
ب) رویکرد محتوایی: نمایه سازی محتوایی تصاویر، بر اساس خصوصیات سطح پایین تصاویر مانند رنگ، شکل، بافت و هر خصوصیتی که مستقیما تصویر را توصیف کند کار می کند. طیف رنگی، با محاسبه هیستوگرام رنگ برای هر تصویر مشخص می شود. هیستوگرام رنگی یک تابع چهار بعدی است که شدت رنگ های اصلی را برای هر نقطه، توصیف می کند. وقتی تفاضل دو هیستوگرام رنگ به اندازه کافی کوچک باشد دو هیستوگرام شبیه هم هستند (ذوالفقاری و خسروی 1392). میزان روشنایی دو نقطه مجاور و تمایز آن، بافت را توصیف میکند. شکل نیز یکی از مشخصه های مهم اشیای فیزیکی است که با تحلیل لبه های تصویر تعیین می شود.
شکل 1. ساختار سامانه تعاملی بازیابی تصویر (شمسی گوشکی و همکاران، 1393).
حاشیه نویسی خودکار: ایده اصلی حاشیه نویسی خودکار تکنیک هایی است که مفهومی را با استفاده از مجموعه تصاویر نمونه بسیار زیاد به صورت خودکار یاد می گیرند و از این مدل های مفهومی برای برچسب زدن به تصاویر جدید استفاده می کنند. مشخصه کلیدی حاشیه نویسی خودکار این است که مجموعه ای از اصطلاحات نمایه ای را بر اساس محتوای تصاویر پیشنهاد می دهد.
ترتیب کار بدین صورت است که ابتدا مجموعه ای از تصاویر اولیه توسط کارشناسان وارد سیستم می شود. سپس با استفاده از خوشه بندی، این مجموعه تصاویر در کلاس های مختلف قرار می گیرند مانند غروب آفتاب، ماشین، حیوانات مختلف، ابزارآلات و غیره. سپس به هرکدام از کلاس ها مجموعه ای از اصطلاحات نمایه ای اختصاص می گیرد. در مرحله بازیابی نیز، هر تصویر دلخواه بعد از ورود به سیستم تقسیم بندی و بعد از استخراج ویژگی های هر بخش، کلاس آن بخش از تصویر مشخص می شود و در نهایت تصاویری از آن کلاس که بیشترین شباهت را به بخش مذکور دارند انتخاب و از اصطلاحات اختصاص داده شده برای توصیف آن بخش از تصویر استفاده می شود. با انجام این فرایند برای همه بخش ها، کل تصویر با چند اصطلاح بازنمایی می شود (عبداللهئی و فائز، 1393). در شکل (2) نتایج حاشیه نویسی خودکار با نمایه سازی دستی تصاویر توسط انسان مقایسه شده است.
شکل 2. مقایسه حاشیه نویسی خودکار با حاشیه نویسی دستی توسط انسان (بهرامی و صنیعی آباده، 1394).
منابع:
عباسپور، جواد (1386). نمایهسازی تصاویر: چالشها و رویکردها. تحقیقات کتابداری و اطلاع رسانی دانشگاهی، 39(44).
لنکستر، فردریک (1382). نمایه سازی و چکیده نویسی، مبانی نظری و عملی (عباس گیلوری، مترجم). تهران: نشر چاپار.
حاجی اسمعیلی، محمدمهدی؛ منتظر، غلامعلی (۱۳۹6). نگاهی بر بازیابی معنایی تصاویر در وب. سومین کنفرانس بین المللی وب پژوهی، دانشگاه علم و فرهنگ، تهران، ایران.
حریری، نجلا؛ حسینی شکرایی، افروز (1391). بررسی طرح¬های فرا داده ای منابع دیجیتالی تصویری، صوتی و ویدیوئی و شناسایی طرح مناسب. پژوهشنامه کتابداری و اطلاع رسانی، 2 (2)، 222-201.
ذوالفقاری، احمد؛ خسروی، حسین (1392). روشی سریع دربازیابی تصاویر مبتنی بر محتوا با استفاده از ترکیب ویژگی لبه و رنگ. همایش ملی مهندسی برق و توسعه پایدار با محوریت دستاوردهای نوین در مهندسی برق، موسسه آموزش عالی خاوران، مشهد، ایران.
شمسی گوشکی، اسما؛ نظام آبادی پور، حسین؛ سریزدی، سعید؛ کبیر اله، احسان. روشی برای بازخورد ربط براساس بهبود تابع شباهت در بازیابی تصویر بر اساس محتوا. پردازش علائم و دادهها، ۱۱ (۲)، ۴۳-۵۵.
عبدالله ئی، فاطمه؛ کریم، فائز (۱۳۹3). حاشيه نويسي خودکار تصاوير با کلاس بندي به کمک شبکه عصبي. بیستمین كنفرانس ملي سالانه انجمن كامپيوتر ايران، دانشگاه فردوسی مشهد، مشهد، ایران.
یکی از پیش نیازهای اصلی پژوهش در حوزه ی علوم انسانی, دسترسی به اسناد دیجیتالی ست. با وجود دیجیتالی شدن حجم انبوهی از اسناد در کتابخانه ها, کنفرانس روسای مدیریت آرشیوی ایالت فدرال آلمان (KLA) اعلام کرد که تنها 5 تا 10 درصد اسناد آرشیوی دیجیتالی شده اند و 90 تا 95 درصد هنوز دیجیتالی نشده اند.با این شرایط محققانِ علاقمند به استفاده از اسناد آرشیوی دو راه پیش رو خواهند داشت: یا باید سند مورد نیاز خود را سفارش دهند تا بصورت دیجیتالی شده برایشان ارسال شود که هزینه بر و زمان بر خواهد بود و یا از دستگاههای دیجیتالی موجود در مراکز آرشیوی برای عکسبرداری استفاده کنند.
مراجعه کنندگان اگر خود مجبور به اسکن از اسناد باشند, با سه مشکل مواجه هستند: مشکلات صحافی در جلد و صفحات کتابها( به دلیل قدمت اسناد), شرایط نور در اتاق های مطالعه و ممنوعیت نور فلاش دوربین.
بنیاد تحقیقاتی آلمان (DFG), برای دیجیتال سازی اسناد وضوح تصویر 300DP و عمق رنگ 8 بیت را مناسب اعلام کرده که در حال حاضر با دوربین تلفن های همراه این امر می تواند محقق شود.تلفن همراه به عنوان یک دستگاه که همواره در دسترس تمامی مراجعه کنندگان است, می تواند مورد استفاده قرار گیرد.مزیتی که دوربین های تلفن همراه نسبت به اسکنر دارد,این است که نیاز به تماس سطح کتاب با دستگاه نیست و مشکلی برای مدارک ایجاد نمی شود.
DOCSCAN نرم افزار منبع باز با قابلیت تشخیص بلادرنگ صفحه و قابلیت عکسبرداری متوالی ست که از طریق github,google play store در دسترس است.
این برنامه قابیلت تشخیص تورق صفحات مدارک و عکسبرداری بلادرنگ و متوالی را دارد .
scantent پایه ای خیمه شکل است که تلفن همراه در بالای خیمه قرار گرفته و نور پیرامون را مسدود و نور ال ای دی غیر مخرب ایجاد می کند.ترکیب docscan و scantent در سیستم تلفن های همراه موجب کاهش هزینه ی کاربران برای دیجیتالی کردن اسناد در آرشیو ها می شود.
ترجمه از: ملیحه باغبان، دانشجوی کارشناسی ارشد مدیریت اطلاعات دانشگاه تبریز
یک سند هویتی سندی است که به منظور شناسایی یک شخص خاص و یا تایید او و یا جنبههایی از آن شخص از قبیل اسم، سن، آدرس و شماره شناسایی و غیره مورد استفاده قرار میگیرد. در حالی که برخی کشورها کارت شناسایی رسمی صادر می کنند، کشورهایی هم هستند که از اسناد غیر رسمی جهت تایید هویت افراد بهره می گیرند انواع مختلفی از اسناد هویتی وجود دارد؛ از قبیل پاسپورت، کارت شناسایی ملی، کارت اقامت، گواهی تولد و گواهی فوت، گواهینامه رانندگی و کارت شناسایی نظامیان. عکس پرسنلی موجود بر روی اسناد هویتی نیز به منظور پیوند دادن یک سند به یک فرد خاص استفاده میشود.
بنیان تقلب در اسناد هویتی بر ایجاد هویتهای جعلی استوار است که اغلب از طریق ادغام اطلاعات واقعی با اطلاعات ساختگی ساخته می شوند. به عنوان مثال شخص جاعل می تواند شماره تامین اجتماعی یک فرد را با اسم فرد دوم و آدرس فردی دیگر ترکیب کرده و یک سند هویتی جدید تولید کند. شخص مذکور سپس می تواند از این سند جعلی برای دریافت اعتبار مالی یا خریدهای بزرگ و یا برای انجام فعالیتهای مختلف دیگر که نیازمند ارائه پیشینه مالی است استفاده کند.
به دلیل پیشرفت و توسعه رایانهها چاپگرها و اسکنرها و نیز قیمت نسبتا پایین آنها، جعل اسناد هویتی به یک مشکل بزرگ در عصر حاضر تبدیل شده است؛ به طوری که هم اکنون اسناد هویتی جعلی به طور گسترده در سطح جهان استفاده میشوند؛ از جمله در مهاجرتهای غیر قانونی، قاچاق دارو و مواد مخدر، قاچاق انسان و حملههای تروریستی. محققان تخمین زده اند که یک رشد 40 درصدی در تعداد اسناد هویتی مکرر بین سالهای 2018-2014 روی خواهد داد. پیش بینی شده که ضرر مالی ناشی از این قضیه از 5 میلیارد دلار به 8 میلیارد دلار در سال افزایش پیدا خواهد کرد. در این رابطه تعداد زیادی از پژوهشگران این موضوع را مورد بحث قرار داده و برای حل و جلوگیری از آن روشهای مختلفی را ارائه کرده اند.
روشهای تشخیص جعل
(1) نهاننگاری (واترمارکینگ) الکترونیکی: فرایندی است که در آن یک رشته از دادهها به منظور حفاظت از مالکیت یک شخص بر یک شی چند رسانه ای، در آن جاسازی میشود که میتوان آن را در چند دسته طبقه بندی کرد. دسته اول نهاننگاریهایی هستند که مبتنی بر اشیائی چون متن، تصویر میباشند. دسته دوم که بر پایه درک افراد است میتواند نهاننگاری قابل رویت و یا غیر قابل رویت باشد. و دسته سوم مبتنی بر مقاومت است؛ یعنی چگونه واترماک در مقابل اقدامات جاعلان مقاومت میکند. این نوع از نهاننگاری میتواند شکننده، نیمه شکننده و مقاوم باشد.
(2) بیومتریکس (زیست سنجشی): شامل مشخصههای فیزیکی و رفتاری منحصر به فرد است که برای تایید هویت یک شخص استفاده میشوند. مشخصه فیزیکی شامل شکل اجزای خاصی از بدن از قبیل اثر انگشت، دی ان ای، چهره، دست، شبکیه چشم و بوی بدن است. مشخصههای رفتاری نیز رفتار و عادات شخصی از قبیل الگوی تایپ کردن، راه رفتن، صدا و ژست و حرکات بدن را شامل می شود.
(3) استگانوگرافی (پنهان نگاری): که علم و هنر پنهان کردن اطلاعات به وسیله جاسازی پیامهایی در داخل متن، تصویر، صوت و ویدیو است. هدف پنهان نگاری، پنهان کردن یک پیام در یک شی میباشد.
پژوهش های مرتبط
مترجم: مهرداد شبان غازانی، دانشجوی کارشناسی ارشد مدیریت اطلاعات دانشگاه تبریز
منابع:
A. B. Hassan and Y. A. Fadlalla, "A survey on techniques of detecting identity documents forgery," 2017 Sudan Conference on Computer Science and Information Technology (SCCSIT), Elnihood, 2017, pp. 1-5.
[1] Yang, Chunlin. "Fingerprint biometrics for ID document verification." 2014 9th IEEE Conference on Industrial Electronics and Applications. IEEE, 2014.
[2] Schouten, Ben, and Bart Jacobs. "Biometrics and their use in epassports."Image and Vision Computing 27.3 (2009): 305-312.
[3] Perry, Burt, Scott Carr, and Phil Patterson. "Digital watermarks as a security feature for identity