شرح نظام استرجاع المعلومات: الأنواع والمقارنة والمكونات

نشرت: 2021-03-10

نظام استرجاع المعلومات (IR) عبارة عن مجموعة من الخوارزميات التي تسهل ملاءمة المستندات المعروضة للاستعلامات التي تم البحث عنها. بكلمات بسيطة ، يعمل على فرز المستندات وترتيبها بناءً على استفسارات المستخدم. هناك اتساق فيما يتعلق بالاستعلام والنص في المستند لتمكين الوصول إلى المستند.

يسمح هذا أيضًا باستخدام وظيفة المطابقة بشكل فعال لترتيب المستند رسميًا باستخدام قيمة حالة الاسترداد (RSV). يتم تمثيل محتويات المستند من خلال مجموعة من الواصفات ، والمعروفة باسم المصطلحات ، التي تنتمي إلى المفردات V. يستخرج نظام IR أيضًا التعليقات على قابلية استخدام النتائج المعروضة من خلال تتبع سلوك المستخدم.

عندما نتحدث عن محركات البحث ، فإننا نعني أمثال Google و Yahoo و Bing من بين محركات البحث العامة. تشمل محركات البحث الأخرى DBLP و Google Scholar.

في هذه المقالة ، سنلقي نظرة على الأنواع المختلفة لنماذج IR ، والمكونات المتضمنة ، والتقنيات المستخدمة في استرداد المعلومات لفهم الآلية الكامنة وراء محركات البحث التي تعرض النتائج.

اقرأ أيضًا: راتب عالم البيانات في الهند

جدول المحتويات

أنواع نموذج استرجاع المعلومات

يتكون استرجاع المعلومات من العناصر الأربعة الرئيسية التالية:

  1. د- وثيقة التمثيل.
  2. س - الاستعلام عن التمثيل.
  3. و - إطار لمطابقة وإنشاء علاقة بين D و Q.
  4. R (q، di) - دالة ترتيب تحدد التشابه بين الاستعلام والمستند لعرض المعلومات ذات الصلة.

هناك ثلاثة أنواع من نماذج استرداد المعلومات (IR):

1. نموذج IR الكلاسيكي - تم تصميمه بناءً على المفاهيم الرياضية الأساسية وهو الأكثر استخدامًا في نماذج IR. يمكن تنفيذ نماذج استرجاع المعلومات الكلاسيكية بسهولة. تشمل أمثلةها نماذج Vector-space و Boolean و Probabilistic IR. في هذا النظام ، يعتمد استرجاع المعلومات على المستندات التي تحتوي على مجموعة الاستعلامات المحددة. لا يوجد تصنيف أو تصنيف من أي نوع. تأخذ نماذج IR الكلاسيكية المختلفة تمثيل المستندات ، وتمثيل الاستعلام ، ووظيفة الاسترداد / المطابقة في الاعتبار في نمذجةهم.

2. نموذج IR غير الكلاسيكي - تختلف عن النماذج الكلاسيكية من حيث أنها مبنية على المنطق الافتراضي. تتضمن أمثلة نماذج IR غير الكلاسيكية منطق المعلومات ونظرية الموقف ونماذج التفاعل.

3. نموذج الأشعة تحت الحمراء البديل - تأخذ هذه مبادئ نموذج الأشعة تحت الحمراء الكلاسيكي وتعززها لإنشاء المزيد من النماذج الوظيفية مثل نموذج المجموعة ، ونماذج المجموعة النظرية البديلة ، ونموذج الفهرسة الدلالية الكامنة (LSI) ، والنماذج الجبرية البديلة ، نموذج الفضاء المتجه المعمم ، إلخ.

دعونا نفهم نماذج الأشعة تحت الحمراء الكلاسيكية الأكثر اعتمادًا على أساس التشابه بمزيد من التفصيل:

1. نموذج منطقي - يتطلب هذا النموذج ترجمة المعلومات إلى تعبير منطقي واستعلامات منطقية. يتم استخدام الأخير لتحديد المعلومات المطلوبة لتكون قادرًا على توفير التطابق الصحيح عندما يكون التعبير المنطقي صحيحًا. يستخدم العمليات المنطقية AND ، OR ، NOT لإنشاء مجموعة من المصطلحات المتعددة بناءً على ما يطلبه المستخدم.

2. نموذج فضاء متجه - يأخذ هذا النموذج المستندات والاستعلامات المشار إليها كمتجهات ويسترجع المستندات اعتمادًا على مدى تشابهها. يمكن أن يؤدي هذا إلى نوعين من المتجهات التي تستخدم بعد ذلك لترتيب نتائج البحث أيضًا

  • ثنائي في منطقية VSM.
  • مرجح في VSM غير ثنائي.

3. نموذج التوزيع الاحتمالي - في هذا النموذج ، تُعتبر المستندات توزيعات للمصطلحات ويتم مطابقة الاستعلامات بناءً على تشابه هذه التمثيلات. أصبح هذا ممكنًا باستخدام الانتروبيا أو عن طريق حساب المنفعة المحتملة للمستند. هم إذا نوعان:

  • نموذج التوزيع الاحتمالي القائم على التشابه
  • نموذج التوزيع الاحتمالي القائم على المنفعة المتوقعة

4. النماذج الاحتمالية - النموذج الاحتمالي بسيط إلى حد ما ويأخذ الترتيب الاحتمالي لعرض النتائج. ببساطة ، يتم ترتيب المستندات بناءً على احتمالية صلتها بالاستعلام الذي تم البحث عنه.

الخروج: علم البيانات مقابل تحليلات البيانات

مكونات نموذج استرجاع المعلومات

فيما يلي المتطلبات الأساسية لنموذج الأشعة تحت الحمراء:

  1. نظام فهرسة آلي أو يدوي يستخدم لفهرسة تقنيات وإجراءات البحث والبحث فيها.
  2. مجموعة من المستندات بأي من التنسيقات التالية: نص أو صورة أو وسائط متعددة.
  3. مجموعة من الاستعلامات التي تعمل كمدخل لنظام ما عبر الإنسان أو الآلة.
  4. مقياس تقييم لقياس أو تقييم فعالية النظام (على سبيل المثال ، الدقة والاسترجاع). على سبيل المثال ، للتأكد من مدى فائدة المعلومات المعروضة للمستخدم.

تشمل المكونات المختلفة لنموذج استرداد المعلومات ما يلي:

الخطوة 1

اكتساب
يقوم نظام IR بمصادر المستندات ومعلومات الوسائط المتعددة من مجموعة متنوعة من موارد الويب. يتم تجميع هذه البيانات بواسطة برامج زحف الويب وإرسالها إلى أنظمة تخزين قواعد البيانات.

الخطوة 2

التمثيل
تتم فهرسة مصطلحات النص الحر ، ويتم فرز المفردات ، سواء باستخدام الإجراءات الآلية أو اليدوية. على سبيل المثال ، سيتضمن ملخص المستند ملخصًا ووصفًا تعريفيًا وببليوغرافيا وتفاصيل المؤلفين أو المؤلفين المشاركين.

الخطوه 3

منظمة الملف
يتم تنظيم الملفات بإحدى طريقتين ، متسلسلة أو مقلوبة. يتضمن تنظيم الملف المتسلسل البيانات الواردة في المستند. يتألف الملف المقلوب من قائمة السجلات ، بحسب مصطلح المصطلح.

الخطوة 4

استفسار
يبدأ نظام IR عند إدخال استعلام. يمكن أن تكون استفسارات المستخدم إما بيانات رسمية أو غير رسمية تسلط الضوء على المعلومات المطلوبة. في أنظمة IR ، لا يشير الاستعلام إلى كائن واحد في نظام قاعدة البيانات. يمكن أن يشير إلى عدة كائنات أيهما يطابق الاستعلام. ومع ذلك ، قد تختلف درجات صلتها بالموضوع.

الفرق بين استرجاع المعلومات واسترجاع البيانات

تقوم أنظمة استرداد البيانات باسترداد البيانات مباشرة من أنظمة إدارة قواعد البيانات مثل ODBMS عن طريق تحديد الكلمات الرئيسية في الاستعلامات المقدمة من قبل المستخدمين ومطابقتها مع المستندات الموجودة في قاعدة البيانات.

في حين أن نظام استرجاع المعلومات في نظم إدارة قواعد البيانات عبارة عن مجموعة من الخوارزميات أو البرامج التي تتضمن تخزين واسترجاع وتقييم تمثيلات المستندات والاستعلام ، خاصة المستندة إلى النص ، لعرض النتائج بناءً على التشابه.

لا استرجاع المعلومات استرجاع البيانات
1 يسترجع المعلومات بناءً على التشابه بين الاستعلام والمستند. يسترجع البيانات بناءً على الكلمات الأساسية في الاستعلام الذي أدخله المستخدم.
2 يتم التغاضي عن الأخطاء الصغيرة ومن المحتمل ألا يلاحظها أحد. لا يوجد مجال للأخطاء لأنه ينتج عنه فشل كامل في النظام.
3 إنه غامض وليس له هيكل محدد. لها هيكل محدد فيما يتعلق بدلالات الألفاظ.
4 لا يوفر حلاً لمستخدم نظام قاعدة البيانات. يقدم حلولاً لمستخدم نظام قاعدة البيانات.
5 ينتج عن نظام استرجاع المعلومات نتائج تقريبية ينتج نظام استرجاع البيانات نتائج دقيقة.
6 النتائج المعروضة مرتبة حسب الصلة النتائج المعروضة لا يتم فرزها حسب الصلة.
7 نموذج الأشعة تحت الحمراء احتمالي بطبيعته. نموذج استرجاع البيانات حتمية بطبيعتها.

خاتمة

هذا يقودنا إلى نهاية المقال. نأمل أن تكون قد وجدت المعلومات مفيدة. إذا كنت تبحث عن مزيد من المعرفة حول مفاهيم علوم البيانات ، فيجب عليك التحقق من برنامج PG التنفيذي الأول المعتمد من NASSCOM في الهند في علوم البيانات من IITB على upGrad.

ما هي تطبيقات نظام استرجاع المعلومات؟

يحدد نظام استرداد المعلومات العلاقة بين كائنات البيانات واستعلامات الاسترجاع. يتم إعطاء الأولوية لهذه المستندات لاستعلامات بحث المستخدم ويتم إعطاء أفضل التطابقات الأولوية القصوى.
يعد نظام استرداد المعلومات آلية القيادة في العديد من تطبيقات الحياة الواقعية مثل:
1. تستخدم المكتبات الرقمية هذا النظام لفرز الكتب والعثور عليها وفقًا للاسم المطلوب أو النوع أو اسم المؤلف.
2. تستخدم محركات البحث مثل محرك بحث Google هذه الآلية لتقديم نتائج بحث دقيقة وأسرع عن طريق مطابقة المستندات وتحديد أولوياتها.
3. تعمل منصات البحث الأخرى ، مثل البحث في الهاتف المحمول ، والبحث عن ملفات سطح المكتب ، والبحث في المستعرض أيضًا على هذه التقنية.
4. تستخدم تطبيقات مثل تطبيقات دفق الموسيقى وتطبيقات دفق الفيديو ومكتبات الصور عمليات استرداد المعلومات للبحث في ترتيب النتائج.

ما هو الفرق بين استرجاع المعلومات واسترجاع البيانات؟

يوضح ما يلي الاختلافات بين استرجاع المعلومات واسترجاع البيانات:
استرجاع المعلومات - يتعامل استرجاع المعلومات مع العمليات مثل استرجاع المعلومات وتخزينها وتقييم البيانات. يتم إهمال الأخطاء الصغيرة. إنه مثال على نموذج احتمالي. النتائج النهائية ليست دقيقة وهي تقريبية. مستخدم قاعدة البيانات لا يحصل على النتائج.
استرداد البيانات - يسمى استرداد البيانات من قاعدة البيانات "استرداد البيانات". يتضمن استرجاع البيانات تحديد وجمع البيانات من قاعدة البيانات. حتى خطأ واحد يمكن أن يفشل النظام. إنه مثال على نموذج حتمي. النتائج النهائية هي النتائج الدقيقة. يحصل مستخدم قاعدة البيانات على جميع النتائج. نظام استرجاع البيانات منظم بشكل جيد.

تحديد تفاعل المستخدم مع نظام IR؟

في نظام استرجاع المعلومات أو نظام IR ، يقوم المستخدم أولاً بترجمة المعلومات إلى استعلام. يحتوي نظام IR على مجموعة معينة من الكلمات التي تحدد المنطق للتعامل مع المعلومات.
في وقت سابق ، تم تمثيل الوثائق من خلال بعض الكلمات الأساسية أو مجموعة من الفهارس. ولكن تم تحديثه وعرض المستندات بمجموعة كاملة من الكلمات الرئيسية. يمكن القيام بذلك باستخدام عمليات النص حيث تتم إزالة / حذف المقالة أو الوصلات. تقلل هذه الطريقة من تعقيد المستند أيضًا.