بازیابی اطلاعات

بازیابی اطلاعات (به انگلیسی: Information Retrieval) فعالیت بدست آوردن منابع سیستم اطلاعاتی که مربوط به اطلاعات لازم از یک مجموعه است را می‌گویند. جستجوها می‌توانند برپایه جستجوی تمام متن یا سایر جستجوهای مبتنی بر محتوا نمایه گذاری شوند. بازیابی اطلاعات علم جستجو اطلاعات در یک سند، جستجو برای خود سندها، جستجو برای فراداده‌ها که داده‌ها را توصیف می‌کنند و برای پایگاه داده ‎های متنی، عکسی یا آوایی است. سیستم‌های بازیابی اطلاعات خودکار برای کاهش چیزی که آن را سرریز داده‌ها (اضافه‌بار اطلاعات) میگوییند، استفاده می‌شوند. سیستم بازیابی اطلاعات نرم‌افزاری است که دسترسی، ذخیره و مدیریت کتاب‌ها، مقالات و دیگر سندها را فراهم می‌کند.

موتورهای جستجوگر وب (موتور جستجوی وب) از قابل مشاهده‌ترین برنامه‌های کاربردی بازیابی اطلاعات هستند.

با افزایش روزافزون حجم اطلاعات ذخیره‌شده در منابع قابل دسترس و گوناگون، فرایند بازیابی و استخراج اطلاعات اهمیت ویژه‌ای یافته‌است. اطلاعات مورد نظر ممکن است شامل هر نوع منبعی مانند متن، تصویر، صوت و ویدئو باشد. بر خلاف پایگاه داده‌ها، اطلاعات ذخیره شده در منابع اطلاعاتی بزرگ مانند وب و زیرمجموعه‌های آن مانند شبکه‌های اجتماعی از ساختار مشخصی پیروی نمی‌کنند و عموماً دارای معانی تعریف شده و مشخصی نیستند. هدف بازیابی اطلاعات در چنین شرایطی، کمک به کاربر برای یافتن اطلاعات موردنظر در انبوهی از اطلاعات ساختار نایافته‌است.

جستجوگرهای گوگل، یاهو و بینگ سه نمونه از پراستفاده‌ترین سیستم‌های بازیابی اطلاعات هستند که به کاربران برای بازیابی اطلاعات متنی، تصویری، ویدئویی و غیره کمک می‌کنند.

«بازیابی اطلاعات» در برخی منابع فارسی به اشتباه به جای ذخیره و بازیابی داده‌ها که به معنای دانش شناخت رسانه‌های ذخیره‌سازی فیزیکی است، به کار رفته‌است.

مرورکلی

پردازش بازیابی اطلاعات زمانی شروع می‌شود که کاربر پرس و جو (query) را در سیستم وارد کند. پرس وجوها حالتی قراردادی از نیازهای اطلاعاتی هستند. برای مثال، رشته‌های جستجو در موتورهای جستجوگر در وب را می‌توان نام برد. در بازیابی اطلاعات، یک پرس و جو تنها یک شی منحصر به فرد را در مجموعه شناسایی نمی‌کند. درعوض، ممکن است با درجه‌های مختلفی از ارتباط، اشیاء متعددی با پرس و جو مطابقت داشته باشند.

یک شیء یک موجودیت است که در مجموعه ای از محتواها یا پایگاه داده نمایش داده می‌شود. پرس و جوهای کاربر با اطلاعات بانک اطلاعاتی مطابقت داده می‌شوند. اگرچه بر خلاف پرس و جوهای کلاسیک پایگاه دادهٔ SQL، در بازیابی اطلاعات نتایج ممکن است با پرس و جو مطابقت داشته باشند یا نداشته باشند، بنابراین نتایج به‌طور معمول رتبه‌بندی می‌شوند. این رتبه‌بندی نتایج یک تفاوت کلیدی در جستجوی بازیابی اطلاعات در مقایسه با جستجوی پایگاه داده‌است.[1]

بسته به نوع برنامه بازیابی اطلاعات، اشیاء داده ممکن است به عنوان مثال اسناد متنی، تصاویر،[2] آواها،[3] نقشه‌های ذهنی[4] یا ویدیوها باشند. اغلب، اسناد خودشان به صورت مستقیم در سیستم بازیابی اطلاعات ذخیره نمی‌شوند، اما در عوض در سیستم با اسناد جایگزین یا ابرداده نمایش داده می‌شود. اکثر سیستم‌های بازیابی اطلاعات یک مقدار عددی را برای هر عنصر محاسبه می‌کنند که چه میزان با پرس وجو مطابقت دارند، و اشیا را با توجه به این مقدار رتبه‌بندی می‌کنند، سپس برترین شیءها را از نظر رتبه به کاربر نمایش می‌دهند. این فرایند می‌تواند تکرار شود اگر، کاربر بخواهد پرس و جو را اصلاح کند.[5]

تاریخچه

یک دستگاه به‌نام uivac وجود دارد … به طوری که حروف و ارقام به عنوان الگویی از لکه‌های مغناطیسی برروی نوار فولادی طولانی رمزگذاری می‌شوند. باتوجه به این مسئله متن یک سند پیش از موضوع سمبلیک آن می‌تواند ثبت شود، این دستگاه به‌طور خودکار آن منابعی را که به‌هر ترتیب ۱۲۰ کلمه در دقیقه کدگذاری شده‌است، انتخاب و نمایش می‌دهد.

J. E. Holmstrom, 1948

ایده استفاده از کامپیوتر برای جستجو اطلاعات موردنظر در مقالهٔ As We May Think در سال ۱۹۴۵ توسط ونیوار بوش، ارائه شد.[6] بنظر می‌رسد که بوش از اختراع ماشین‌های آماری که توسط امانوئل گلدبرگ در دهه ۱۹۲۰ و ۳۰ (میلادی) ثبت شده بود الهام گرفته‌است، که آن اختراع به دنبال اسنادی که در فیلم ذخیره شده بودند می‌گشت.[7] اولین توصیف در مورد کامپیوتری که به دنبال اطلاعات می‌گردد در سال ۱۹۴۸ توسط holmstorm ارائه شد؛ که جزئیات ذکر شده در مورد نسل اول کامپیوترهای تجاری[8] که بر اساس جزئیات اولیه کامپیوترهای UNIVACبود. سیستم‌های بازیابی‌اطلاعات خودکار در دهه ۱۹۷۵ معرفی شدند، که حتی یکی از آن‌ها در یک کمدی عاشقانه به نام میز برجسته شد. در دهه ۱۹۶۰، نخستین گروه تحقیقاتی بزرگ بازیابی اطلاعات توسط جرارد سالتون در دانشگاه کرنل تشکیل شد. در سال ۱۹۷۰ چندین تکنیک بازیابی بر روی پیکره متنی مانند مجموعه کرانفیلد ارائه شد (چندین هزار سند) سیستم‌های بازیابی در مقیاس بزرگ مانند سیستم گفتگو لاکهید در اوایل دهه ۷۰ میلادی استفاده شد.

در سال ۱۹۹۲، وزارت دفاع ایالات متحده همراه مؤسسه ملی فناوری و استانداردها(NIST)، با همکاری یک دیگر به عنوان بخشی از برنامه متنی TIPSTER از کنفرانس بازیابی اطلاعات(TREC) پشتیبانی کردند؛ که هدف از آن این بود که با جمع‌آوری زیرساخت‌هایی که برای ارزیابی روش‌های بازیابی متن در یک مجموعه متن بسیار بزرگ مورد نیاز بود، جامعه بازیابی اطلاعات بررسی شود؛ که باعث تسریع تحقیقاتی شد که برروی متدهایی که در مقیاس‌پذیری بزرگی از مجموعه نوشته‌ها انجام می‌گرفت که در پی آن معرفی موتورهای جستجو گر وب سرعت گرفت و حتی نیاز برای سیستم‌های بازیابی اطلاعات که دارای مقیاس بزرگی بودند بیشتر شد.

مدل‌سازی اطلاعات

مدلسازی مفهومی اطلاعات، یکی از فنون تجزیه و تحلیل و تشریح اطلاعات مورد نیاز کاربران سیستم است. در تجزیه و تحلیل اطلاعات باید ذهن خود را بر شناخت مفهومی اطلاعات متمرکز ساخت. در تشریح ماهیت اطلاعات باید از جملات موجز، دقیق و خوانا استفاده کرد. از آنجایی که تشریح اطلاعات، راهنمای طراحی پایگاه اطلاعاتی به‌شمار می‌آید باید برای کاربران، برنامه نویسان و سایر متخصصان فنی خوانا باشد. زیرا راهنمای طراحی پایگاه اطلاعاتی به‌شمار می‌آید. از آنجایی که هر سیستم کاربران متعددی دارد و آنان نیز از داده و بازداده‌های گوناگون استفاده می‌کنند و همچنین تحلیلگر معمولاً با سیستم آشنا نیست و ضمن تجزیه و تحلیل و تشریح با آن آشنا می‌شود تشریح اطلاعات برای سیستم دشوار است. تشریح اطلاعات برای پاسخگویی به نیازهای «فرایند سیستم» باید به صورت تفضیلی صورت پذیرد و در عین حال از کلیتی برخوردار باشد که به تشکیل یک پایگاه اطلاعاتی منجر شود و نیازهای کلی سازمان را در بعد اطلاعات برآورده سازد؛ و چون تا این مرحله به اندازه کافی کار طراحی آسان شده‌است تحلیلگر باید تشریح اطلاعات را در محدوده زمانی و بودجه‌ای پروژه مکتوب نماید. اکنون این پرسش ممکن است مطرح شود که چرا «نمودار جریان اطلاعات» شرح کاملی از اطلاعات ارائه نمی‌دهد؟ پاسخ این است که نمودار جریان اطلاعات تنها چگونگی بکارگیری اطلاعات در فرایندهای سیستم را نشان می‌دهد و روابط مورد نیاز میان موجودیتهای سازمان را به نمایش نمی‌گذارد. بدین ترتیب پایگاه اطلاعاتی مبتنی بر یک نمودار جریان اطلاعات نمی‌تواند از شاخص روانی سازمانی برخوردار باشد. از سوی دیگر، مدل مفهومی اطلاعات، تحلیلگر را تشویق می‌نماید تا تحلیل اطلاعات را بر مبنای نیازهای سازمان و از دید کاربرای یا نحوه تجسم ذهنی آنان قرار دهد. شرح تفصیلی نیازهای اطلاعاتی سیستم مانند بازداده‌ها و غیره بعداً به مدل افزوده خواهد شد. از آنجایی که مدل مفهومی، اطلاعات را از دید سازمان تشریح می‌کند نه از دید فرایندهای تفصیلی سیستم بنابراین پایگاه اطلاعاتی حاصل از آن با نیازهای اطلاعاتی سازمان قابلیت انطباق بیشتری خواهد داشت. تشریح اطلاعات با استفاده از مدل مفهومی مستلزم موارد زیر است:

  1. مجموعه‌ای از ساخته‌ها (موجودیت، رابطه، صفت، نشانگر، وابستگی) برای تعریف اطلاعات.
  2. قوانینی برای کنترل چگونگی ترسیم ساخته‌ها در شکل‌دهی مدل.
  3. روشی برای ساختن مدل مفهومی اطلاعات با استفاده از ساخته‌ها، و قوانین برای نمایش ساخته‌ها، قوانین و روش ساختن مدل مفهومی اطلاعات.

نخستین گام در بازیابی اطلاعات، مدل‌سازی اطلاعات و توصیف و تعریف ارتباط موجود میان اجزاء منبع اطلاعاتی با نیازهای اطلاعاتی کاربر است. سه مدل مهم در حوزهٔ بازیابی اطلاعات عبارت است از:

  • مدل دودویی (یا دوگانی): در مدل دودویی (یا دوگانی) هر سند (document) به صورت کیفی پر از کلمات (bag of words) در نظر گرفته می‌شود.
  • مدل بُرداری: در مدل بُرداری، هر سند به صورت برداری از کلمات در یک فضای برداری چند بُعدی در نظر گرفته می‌شود که ابعاد آن را کلمات تشکیل می‌دهند. مؤلفه‌های این بردار سند، در واقع وزن‌هایی هستند که نشان می‌دهند هر یک از کلمات چقدر در متمایز کردن آن سند دخیل هستند.
  • مدل احتمالاتی: در مدل احتمالاتی، به هر سند احتمالی اختصاص داده می‌شود که مربوط بودن آن مستند را به نیاز کاربر به صورت احتمال بین صفر و یک بیان می‌کند.

تعیین میزان ربط هر سند به نیاز اطلاعاتی کاربر

بعد از تعریف مدل، سیستم آمادهٔ دریافت نیاز اطلاعاتی کاربر است. معمولاً کاربران نیاز اطلاعاتی خود را در قالب یک «پُرسه» برای سیستم بیان می‌کند که معمولاً شامل چندین کلمات یا عبارات است. سیستم سپس بر اساس مدلی که اطلاعات بر اساس آن تعریف شده‌اند، میزان ربط هر سند را با پُرسهٔ کاربر محاسبه می‌کند، و سندهایی را که از همه باربط تر تشخیص داده شده‌اند به عنوان نتیجهٔ بازیابی بازمی‌گرداند.

مدل دودویی

در مدل دودویی، نیاز اطلاعاتی کاربر به صورت عبارتی منطقی با عملگرهای AND و OR و NOT بیان می‌شود و هر سندی که این عبارت در مورد آن صحیح باشد بازیابی می‌شود. مثلاً اگر نیاز اطلاعاتی به صورت Iran AND Oil بیان شود، تمامی اسنادی که هردو کلمهٔ Iran و Oil را دربردارند به کاربر نمایش داده می‌شوند. در مدل دودویی سند یا باربط است یا نیست، و هیچ معیاری برای سنجش میزان (درجهٔ) ربط وجود ندارد. مثلاً دو سند را در نظر بگیرید که یکی تماماً دربارهٔ ایران و نفت بحث می‌کند، و دیگری در مورد اقتصاد جهانی صحبت می‌کند و فقط از نام ایران و نفت به عنوان مثالی در یک جمله استفاده کرده‌است. سیستمی که از مدل دودویی استفاده کرده تفاوتی بین این دو سند قائل نخواهد شد. در صورتی‌که در واقع سند اول بیشتر به نیاز کاربر مربوط است.

مدل بُرداری

در مدل برداری، برای سنجش میزان ربط اسناد و نیاز اطلاعاتی کاربر، سیستم اسناد موجود و پُرسهٔ کاربر را در فضای چند بعدی مدل‌سازی می‌کند. در نتیجه برای سنجش میزان شباهت میان بُردار پُرسه و بردار هر سند می‌توان از زاویه‌ای که این دو بردارها با هم می‌سازند استفاده کرد. اسنادی که بردارشان با بردار پرسهٔ کاربر زاویه کوچکتری می‌سازد بیشتر با نیاز اطلاعاتی کاربر هم جهت هستند و در نتیجه مرتبط‌تر خواهند بود. برتری این مدل این است که به سیستم امکان درجه‌بندی میزان ارتباط اسناد با پرسه را می‌دهد.

مدل احتمالاتی

این مدل نخستین بار توسط استیو رابرتسن و کارن اسپارک جونز در سال‌های ۱۹۷۰ معرفی شد. این مدل به لحاظ اینکه مدارک و پرسش‌ها را به صورت بردار عرضه می‌کند شبیه مدل‌برداری است، اما به جای بازیابی مدارک براساس میزان مشابهت با پرسش، مدارک را براساس احتمال ارتباطشان با پرسش بازیابی می‌کند. احتمال ربط مدرکی خاص به پرسش را می‌توان با جمع اوزان ربط اصطلاحات آن مدرک، یعنی برآورد احتمال ظهور اصطلاحات موجود در پرسش و در مدرک مرتبط، و نه در مدرک غیرمرتبط، محاسبه کرد. در مدل بازیابی کلاسیک احتمالی، این احتمالات اصطلاح از طریق مجموعه‌ای نمونه از مدارک و پرسش‌ها همراه با قضاوت مرتبط مربوط به آن تخمین زده می‌شود. با وجود این، اجرای فرایند تخمین به صورت عملیاتی مشکل است، زیرا جمع‌آوری داده‌های ربط لازم قبل از جستجوی واقعی عملاً غیرممکن است. در نتیجه، برای تخمین احتمال اصطلاح، معمولاً، در این مدل از بازخورد ربط استفاده می‌کنند.

در مدل احتمالاتی هم به ازای هر نیاز اطلاعاتی، تمامی اسناد بر اساس احتمال این که با نیاز اطلاعاتی مرتبط باشد مرتب می‌شوند و لیست اسناد در نهایت به صورت درجه‌بندی شده (مانند مدل برداری) به کاربر نمایش داده می‌شود، به نحوی که اولین سندی که کاربر می‌بیند از همه بیشتر احتمال دارد که به نیاز او ربط داشته باشد.

تفاوت بازیابی داده و بازیابی اطلاعات

بین بازیابی اطلاعات و بازیابی داده تفاوت‌های زیادی وجود دارد. داده‌ها ابهام ندارند، اما اطلاعات نیاز به تفسیر دارد و در نتیجه مبهم می‌شوند. سیستمی که برای بازیابی داده طراحی شده نیازی به رفع این ابهام‌ها ندارد، اما در سیستم بازیابی اطلاعات باید هر چه بهتر اطلاعات را مدل کرد تا ابهام در درک اطلاعات توسط سیستم کمتر شوند. به همین علت بر خلاف سیستم‌های بازیابی داده که در آن کارایی سیستم از نظر سرعت و فضا به عنوان معیار ارزیابی در نظر گرفته می‌شود، در سیستم‌های بازیابی اطلاعات، معیار دقت (precision) و بازخوانی (recall) و معیارهایی شبیه به آن‌ها به عنوان معیارهای اصلی ارزیابی به کار می‌روند.

بازاریابی اطلاعات در کتابخانه‌ها

بازاریابی به عنوان جنبه‌ای از مدیریت این توانایی را دارد که به مدیران کتابخانه‌ها و مراکز اطلاع‌رسانی جهت درک و شناخت هر چه بهتر نیازهای مراجعانشان یاری رساند. چنین دانشی به مدیران کمک خواهد کرد تا در عرصه‌های مدیریتی تصمیماتی صحیح اتخاذ نمایند و از این طریق بتوانند خدمات مؤثرتر و مفیدتری به کاربران خود ارائه نمایند

معیارهای ارزیابی

  • معیار Presicion (دقت): به حاصل تقسیم «تعداد مستندات بازیابی شدهٔ واقعاً باربط» بر «تعداد کل مستندات بازیابی شده» گفته می‌شود.
  • معیار Recall (صحت): به حاصل تقسیم «تعداد مستندات بازیابی شدهٔ واقعاً باربط» بر «تعداد کل مستندات مرتبط موجود» گفته می‌شود.

جستارهای وابسته

پیوند به بیرون

منابع

  1. Jansen, B. J. and Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval بایگانی‌شده در ۴ مارس ۲۰۱۶ توسط Wayback Machine. Journal of the American Society for Information Sciences and Technology. 61(8), 1517-1534.
  2. Goodrum, Abby A. (2000). "Image Information Retrieval: An Overview of Current Research". Informing Science. 3 (2).
  3. Foote, Jonathan (1999). "An overview of audio information retrieval". Multimedia Systems. 7: 2–10. CiteSeerX 10.1.1.39.6339. doi:10.1007/s005300050106.
  4. Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Information Retrieval On Mind Maps - What Could It Be Good For?. Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. Archived from the original on 13 May 2011. Retrieved 23 May 2019.
  5. Frakes, William B.; Baeza-Yates, Ricardo (1992). Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Archived from the original on 2013-09-28.
  6. Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview" (PDF). Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. 24 (4): 35–43.
  7. Mark Sanderson & W. Bruce Croft (2012). "The History of Information Retrieval Research". Proceedings of the IEEE. 100: 1444–1451. doi:10.1109/jproc.2012.2189916.
  8. JE Holmstrom (1948). "'Section III. Opening Plenary Session". The Royal Society Scientific Information Conference, 21 June-2 July 1948: Report and Papers Submitted: 85.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.