Объяснение информационно-поисковой системы: типы, сравнение и компоненты

Опубликовано: 2021-03-10

Информационно-поисковая система (ИП) представляет собой набор алгоритмов, которые облегчают соответствие отображаемых документов искомым запросам. Проще говоря, он работает для сортировки и ранжирования документов на основе запросов пользователя. Существует единообразие в отношении запроса и текста в документе, чтобы обеспечить доступность документа.

Это также позволяет эффективно использовать функцию сопоставления для формального ранжирования документа с использованием его значения статуса поиска (RSV). Содержимое документа представлено набором дескрипторов, известных как термины, которые принадлежат словарю V. Система IR также извлекает отзывы о удобстве использования отображаемых результатов, отслеживая поведение пользователя.

Когда мы говорим о поисковых системах, мы имеем в виду Google, Yahoo и Bing среди обычных поисковых систем. Другие поисковые системы включают DBLP и Google Scholar.

В этой статье мы рассмотрим различные типы IR-моделей, задействованные компоненты и методы, используемые в информационном поиске, чтобы понять механизм, лежащий в основе отображения результатов поисковыми системами.

Читайте также: Зарплата Data Scientist в Индии

Оглавление

Типы информационно-поисковой модели

Поиск информации состоит из следующих четырех ключевых элементов:

  1. D — Представление документа.
  2. Q — представление запроса.
  3. F — структура для сопоставления и установления связи между D и Q.
  4. R (q, di) — функция ранжирования, которая определяет сходство между запросом и документом для отображения соответствующей информации.

Существует три типа моделей информационного поиска (IR):

1. Классическая ИК-модель . Она разработана на основе основных математических концепций и является наиболее широко используемой из ИК-моделей. Классические модели информационного поиска могут быть легко реализованы. Его примеры включают векторное пространство, булевы и вероятностные модели IR. В этой системе поиск информации зависит от документов, содержащих определенный набор запросов. Нет никакого ранжирования или градации любого рода. Различные классические модели IR учитывают при моделировании представление документа, представление запроса и функцию поиска/сопоставления.

2. Неклассическая модель IR . Они отличаются от классических моделей тем, что построены на пропозициональной логике. Примеры неклассических моделей IR включают модели информационной логики, теории ситуации и взаимодействия.

3. Альтернативная модель IR. Они основаны на принципах классической модели IR и улучшены для создания более функциональных моделей, таких как кластерная модель, альтернативные теоретико-множественные модели, модель нечетких множеств, модель скрытого семантического индексирования (LSI), альтернативные алгебраические модели. Модель обобщенного векторного пространства. , так далее.

Давайте более подробно разберем наиболее распространенные классические модели IR, основанные на сходстве:

1. Булева модель. Эта модель требовала преобразования информации в логическое выражение и логические запросы. Последний используется для определения информации, необходимой для обеспечения правильного совпадения, когда логическое выражение оказывается истинным. Он использует логические операции И, ИЛИ, НЕ для создания комбинации нескольких терминов на основе того, что спрашивает пользователь.

2. Модель векторного пространства. Эта модель принимает документы и запросы, обозначенные как векторы, и извлекает документы в зависимости от того, насколько они похожи. Это может привести к двум типам векторов, которые затем используются для ранжирования результатов поиска:

  • Бинарный в логическом VSM.
  • Взвешено в недвоичном VSM.

3. Модель распределения вероятностей. В этой модели документы рассматриваются как распределения терминов, и запросы сопоставляются на основе сходства этих представлений. Это стало возможным благодаря энтропии или вычислению вероятной полезности документа. Они бывают двух видов:

  • Модель распределения вероятностей на основе подобия
  • Модель распределения вероятностей на основе ожидаемой полезности

4. Вероятностные модели . Вероятностная модель довольно проста и использует ранжирование вероятности для отображения результатов. Проще говоря, документы ранжируются на основе вероятности их релевантности искомому запросу.

Оформить заказ: наука о данных против аналитики данных

Компоненты информационно-поисковой модели

Вот предварительные условия для модели IR:

  1. Автоматизированная или управляемая вручную система индексирования, используемая для индексирования и поиска методов и процедур.
  2. Коллекция документов в любом из следующих форматов: текст, изображение или мультимедиа.
  3. Набор запросов, которые служат входными данными для системы через человека или машину.
  4. Метрика оценки для измерения или оценки эффективности системы (например, точность и полнота). Например, чтобы убедиться, насколько полезна информация, отображаемая для пользователя.

Различные компоненты модели информационного поиска включают в себя:

Шаг 1

Приобретение
ИК-система получает документы и мультимедийную информацию из различных веб-ресурсов. Эти данные компилируются поисковыми роботами и отправляются в системы хранения баз данных.

Шаг 2

Представление
Термины с произвольным текстом индексируются, а словарный запас сортируется как с использованием автоматических, так и ручных процедур. Например, аннотация документа будет содержать резюме, метаописание, библиографию и сведения об авторах или соавторах.

Шаг 3

Организация файлов
Организация файлов осуществляется одним из двух способов: последовательным или инвертированным. Последовательная организация файлов включает данные, содержащиеся в документе. Инвертированный файл содержит список записей, почленный порядок.

Шаг 4

Запрос
Система IR инициируется при вводе запроса. Запросы пользователей могут быть как формальными, так и неформальными заявлениями, в которых указывается, какая информация требуется. В системах IR запрос не указывает на один объект в системе базы данных. Он может ссылаться на несколько объектов, соответствующих запросу. Однако степень их актуальности может различаться.

Разница между поиском информации и поиском данных

Системы поиска данных напрямую извлекают данные из систем управления базами данных, таких как СУБД, путем определения ключевых слов в запросах, предоставленных пользователями, и сопоставления их с документами в базе данных.

Принимая во внимание, что система информационного поиска в СУБД представляет собой набор алгоритмов или программ, которые включают хранение, извлечение, оценку представлений документов и запросов, особенно текстовых, для отображения результатов на основе сходства.

С. Нет Поиск информации Поиск данных
1 Извлекает информацию на основе сходства между запросом и документом. Извлекает данные на основе ключевых слов в запросе, введенном пользователем.
2 Небольшие ошибки допускаются и, скорее всего, останутся незамеченными. Здесь нет места ошибкам, поскольку это приводит к полному сбою системы.
3 Он неоднозначен и не имеет определенной структуры. Он имеет определенную структуру в отношении семантики.
4 Не предоставляет решения пользователю системы баз данных. Предоставляет решения пользователю системы баз данных.
5 Информационно-поисковая система выдает приблизительные результаты Система поиска данных дает точные результаты.
6 Отображаемые результаты отсортированы по релевантности Отображаемые результаты не сортируются по релевантности.
7 Модель IR носит вероятностный характер. Модель извлечения данных является детерминированной по своей природе.

Заключение

Это подводит нас к концу статьи. Мы надеемся, что вы нашли информацию полезной. Если вам нужны дополнительные знания о концепциях науки о данных, вам следует ознакомиться с 1-й сертифицированной NASSCOM в Индии программой Executive PG по науке о данных от IITB на upGrad.

Каковы приложения информационно-поисковой системы?

Информационно-поисковая система устанавливает связь между объектами данных и поисковыми запросами. Эти документы имеют приоритет по отношению к поисковым запросам пользователей, а лучшим совпадениям присваивается наивысший приоритет.
Информационно-поисковая система является движущим механизмом многих реальных приложений, таких как:
1. Электронные библиотеки используют эту систему для сортировки и поиска книг по запрошенному названию, жанру или имени автора.
2. Поисковые системы, такие как поиск Google, используют этот механизм для предоставления точных и быстрых результатов поиска путем сопоставления документов и определения их приоритета.
3. Другие поисковые платформы, такие как мобильный поиск, поиск файлов на рабочем столе и поиск в браузере, также работают на этом методе.
4. Такие приложения, как приложения для потоковой передачи музыки, приложения для потоковой передачи видео и библиотеки изображений, используют операции информационного поиска для ранжирования результатов поиска.

В чем разница между поиском информации и поиском данных?

Ниже показаны различия между поиском информации и поиском данных:
Поиск информации . Поиск информации имеет дело с такими операциями, как поиск информации, хранение и оценка данных. Мелкими ошибками пренебрегают. Это пример вероятностной модели. Окончательные результаты не точны и являются приблизительными. Пользователь базы данных не получает результатов.
Извлечение данных. Извлечение данных из базы данных называется извлечением данных. Поиск данных включает в себя идентификацию и сбор данных из базы данных. Даже одна ошибка может вывести систему из строя. Это пример детерминированной модели. Окончательные результаты являются точными результатами. Пользователь базы данных получает все результаты. Система поиска данных хорошо структурирована.

Определить взаимодействие пользователя с IR-системой?

В информационно-поисковой системе или ИК-системе пользователь сначала переводит информацию в запрос. Система IR содержит определенный набор слов, который определяет логику работы с информацией.
Раньше документы представлялись через некоторые ключевые слова или набор индексов. Но он был модернизирован, и документы показываются по всему набору ключевых слов. Это можно сделать с помощью текстовых операций, при которых артикль или связки удаляются/исключаются. Этот метод также снижает сложность документа.