Erklärung des Informationsabrufsystems: Typen, Vergleich und Komponenten

Veröffentlicht: 2021-03-10

Ein Information Retrieval (IR)-System ist eine Reihe von Algorithmen, die die Relevanz angezeigter Dokumente für Suchanfragen erleichtern. In einfachen Worten, es funktioniert, um Dokumente basierend auf den Abfragen eines Benutzers zu sortieren und einzustufen. Es gibt eine Einheitlichkeit in Bezug auf die Abfrage und den Text im Dokument, um die Zugänglichkeit des Dokuments zu ermöglichen.

Dies ermöglicht auch, dass eine Übereinstimmungsfunktion effektiv verwendet wird, um ein Dokument formal unter Verwendung seines Wiedergewinnungsstatuswerts (RSV) einzustufen. Die Dokumentinhalte werden durch eine Sammlung von Deskriptoren, bekannt als Begriffe, repräsentiert, die zu einem Vokabular V gehören. Ein IR-System extrahiert auch Feedback über die Verwendbarkeit der angezeigten Ergebnisse, indem es das Verhalten des Benutzers verfolgt.

Wenn wir von Suchmaschinen sprechen, meinen wir unter den allgemeinen Suchmaschinen Google, Yahoo und Bing. Andere Suchmaschinen sind DBLP und Google Scholar.

In diesem Artikel werden wir uns die verschiedenen Arten von IR-Modellen, die beteiligten Komponenten und die beim Informationsabruf verwendeten Techniken ansehen, um den Mechanismus zu verstehen, der hinter Suchmaschinen steht, die Ergebnisse anzeigen.

Lesen Sie auch: Data Scientist Gehalt in Indien

Inhaltsverzeichnis

Arten von Informationsabrufmodellen

Ein Informationsabruf besteht aus den folgenden vier Schlüsselelementen:

D − Dokumentendarstellung.
Q − Abfragedarstellung.
F − Ein Framework, um eine Beziehung zwischen D und Q herzustellen und abzugleichen.
R (q, di) – Eine Rangfolgefunktion, die die Ähnlichkeit zwischen der Abfrage und dem Dokument bestimmt, um relevante Informationen anzuzeigen.

Es gibt drei Arten von Information Retrieval (IR)-Modellen:

1. Klassisches IR-Modell – Es basiert auf grundlegenden mathematischen Konzepten und ist das am weitesten verbreitete IR-Modell. Klassische Information-Retrieval-Modelle lassen sich einfach implementieren. Zu seinen Beispielen gehören Vektorraum-, Boolesche und probabilistische IR-Modelle. In diesem System hängt der Abruf von Informationen von Dokumenten ab, die den definierten Satz von Abfragen enthalten. Es gibt keinerlei Ranking oder Bewertung. Die verschiedenen klassischen IR-Modelle berücksichtigen bei ihrer Modellierung die Dokumentendarstellung, die Abfragedarstellung und die Abruf-/Abgleichsfunktion.

2. Nicht-klassisches IR-Modell – Sie unterscheiden sich von klassischen Modellen dadurch, dass sie auf Aussagenlogik aufbauen. Beispiele für nicht-klassische IR-Modelle sind Informationslogik, Situationstheorie und Interaktionsmodelle.

3. Alternatives IR-Modell – Diese nehmen Prinzipien des klassischen IR-Modells auf und erweitern sie, um funktionalere Modelle wie das Cluster-Modell, das Fuzzy-Set-Modell alternativer mengentheoretischer Modelle, das Latent Semantic Indexing (LSI)-Modell, das verallgemeinerte Vektorraummodell alternativer algebraischer Modelle zu erstellen , etc.

Lassen Sie uns die am häufigsten verwendeten ähnlichkeitsbasierten klassischen IR-Modelle genauer verstehen:

1. Boolesches Modell – Bei diesem Modell mussten Informationen in einen booleschen Ausdruck und boolesche Abfragen übersetzt werden. Letzteres wird verwendet, um die Informationen zu bestimmen, die erforderlich sind, um die richtige Übereinstimmung liefern zu können, wenn der boolesche Ausdruck als wahr befunden wird. Es verwendet die booleschen Operationen AND, OR, NOT, um eine Kombination mehrerer Begriffe basierend auf der Frage des Benutzers zu erstellen.

2. Vektorraummodell – Dieses Modell nimmt Dokumente und Abfragen, die als Vektoren gekennzeichnet sind, und ruft Dokumente ab, je nachdem, wie ähnlich sie sind. Dies kann zu zwei Arten von Vektoren führen, die dann verwendet werden, um Suchergebnisse zu ordnen

Binär in Boolean VSM.
Gewichtet in nicht-binärem VSM.

3. Wahrscheinlichkeitsverteilungsmodell – In diesem Modell werden die Dokumente als Verteilungen von Begriffen betrachtet und Abfragen werden basierend auf der Ähnlichkeit dieser Darstellungen abgeglichen. Dies wird durch die Verwendung von Entropie oder durch Berechnung des wahrscheinlichen Nutzens des Dokuments ermöglicht. Sie sind, wenn zwei Arten:

Ähnlichkeitsbasiertes Wahrscheinlichkeitsverteilungsmodell
Auf dem erwarteten Nutzen basierendes Wahrscheinlichkeitsverteilungsmodell

4. Wahrscheinlichkeitsmodelle – Das Wahrscheinlichkeitsmodell ist ziemlich einfach und verwendet die Wahrscheinlichkeitsrangfolge, um Ergebnisse anzuzeigen. Vereinfacht gesagt werden Dokumente nach der Wahrscheinlichkeit ihrer Relevanz für eine Suchanfrage gerankt.

Checkout: Data Science vs. Datenanalyse

Komponenten des Informationsabrufmodells

Hier sind die Voraussetzungen für ein IR-Modell:

Ein automatisiertes oder manuell betriebenes Indexierungssystem, das zum Indexieren und Durchsuchen von Techniken und Verfahren verwendet wird.
Eine Sammlung von Dokumenten in einem der folgenden Formate: Text, Bild oder Multimedia.
Eine Reihe von Abfragen, die über einen Menschen oder eine Maschine als Eingabe für ein System dienen.
Eine Bewertungsmetrik zum Messen oder Bewerten der Effektivität eines Systems (z. B. Präzision und Abruf). Zum Beispiel, um sicherzustellen, wie nützlich die Informationen sind, die dem Benutzer angezeigt werden.

Zu den verschiedenen Komponenten eines Informationsabrufmodells gehören:

Schritt 1

Erwerb

Das IR-System bezieht Dokumente und Multimedia-Informationen aus einer Vielzahl von Web-Ressourcen. Diese Daten werden von Webcrawlern zusammengestellt und an Datenbankspeichersysteme gesendet.

Schritt 2

Darstellung

Die Freitextbegriffe werden indexiert und das Vokabular sortiert, sowohl mit automatisierten als auch mit manuellen Verfahren. Beispielsweise enthält ein Dokument-Abstract eine Zusammenfassung, eine Meta-Beschreibung, eine Bibliographie und Angaben zu den Autoren oder Co-Autoren.

Schritt 3

Dateiorganisation

Die Dateiorganisation wird in einer von zwei Methoden ausgeführt, sequentiell oder invertiert. Die sequentielle Dateiorganisation umfasst Daten, die im Dokument enthalten sind. Die invertierte Datei umfasst eine Liste von Datensätzen, Begriff für Begriff.

Schritt 4

Anfrage

Beim Eingeben einer Abfrage wird ein IR-System initiiert. Benutzerabfragen können entweder formelle oder informelle Aussagen sein, die hervorheben, welche Informationen erforderlich sind. In IR-Systemen weist eine Abfrage nicht auf ein einzelnes Objekt im Datenbanksystem hin. Es könnte sich auf mehrere Objekte beziehen, die der Abfrage entsprechen. Ihr Relevanzgrad kann jedoch variieren.

Unterschied zwischen Informationsabruf und Datenabruf

Datenabrufsysteme rufen Daten direkt aus Datenbankverwaltungssystemen wie ODBMS ab, indem sie Schlüsselwörter in den von Benutzern bereitgestellten Abfragen identifizieren und sie mit den Dokumenten in der Datenbank abgleichen.

Während das Informationsabrufsystem in DBMS eine Reihe von Algorithmen oder Programmen ist, die das Speichern, Abrufen und Auswerten von Dokumenten- und Abfragedarstellungen beinhalten, insbesondere textbasiert, um Ergebnisse basierend auf Ähnlichkeit anzuzeigen.

S.Nr	Informationsrückgewinnung	Datenabruf
1	Ruft Informationen basierend auf der Ähnlichkeit zwischen der Abfrage und dem Dokument ab.	Ruft Daten basierend auf den Schlüsselwörtern in der vom Benutzer eingegebenen Abfrage ab.
2	Kleine Fehler werden toleriert und bleiben wahrscheinlich unbemerkt.	Es gibt keinen Platz für Fehler, da dies zu einem vollständigen Systemausfall führt.
3	Es ist mehrdeutig und hat keine definierte Struktur.	Es hat eine definierte Struktur in Bezug auf die Semantik.
4	Bietet dem Benutzer des Datenbanksystems keine Lösung.	Bietet Lösungen für den Benutzer des Datenbanksystems.
5	Das Informationsabfragesystem erzeugt ungefähre Ergebnisse	Das Datenabrufsystem liefert exakte Ergebnisse.
6	Die angezeigten Ergebnisse sind nach Relevanz sortiert	Angezeigte Ergebnisse werden nicht nach Relevanz sortiert.
7	Das IR-Modell ist naturgemäß probabilistisch.	Das Datenabrufmodell ist von Natur aus deterministisch.

Fazit

Damit sind wir am Ende des Artikels angelangt. Wir hoffen, Sie fanden die Informationen hilfreich. Wenn Sie nach mehr Wissen über Data Science-Konzepte suchen, sollten Sie sich Indiens 1. NASSCOM-zertifiziertes Executive PG-Programm in Data Science von IITB auf upGrad ansehen.

Was sind die Anwendungen des Information Retrieval Systems?

Das Information Retrieval System legt die Beziehung zwischen Datenobjekten und Abfragen fest. Diese Dokumente werden für die Suchanfragen der Benutzer priorisiert, und die besten Übereinstimmungen erhalten die höchste Priorität.
Das Information Retrieval System ist der treibende Mechanismus in vielen realen Anwendungen wie:
1. Digitale Bibliotheken verwenden dieses System, um die Bücher nach dem angeforderten Namen, Genre oder Autorennamen zu sortieren und zu finden.
2. Suchmaschinen wie die Google-Suche verwenden diesen Mechanismus, um genaue und schnellere Suchergebnisse bereitzustellen, indem sie die Dokumente abgleichen und priorisieren.
3. Andere Suchplattformen wie mobile Suche, Desktop-Dateisuche und Browsersuche laufen ebenfalls mit dieser Technik.
4. Anwendungen wie Musik-Streaming-Apps, Video-Streaming-Apps und Bildbibliotheken verwenden die Informationsabrufoperationen, um die Ergebnisse zu suchen.

Was ist der Unterschied zwischen Informationsabruf und Datenabruf?

Im Folgenden werden die Unterschiede zwischen Informationsabruf und Datenabruf veranschaulicht:
Information Retrieval - Information Retrieval befasst sich mit den Vorgängen wie Informationsabruf, Speicherung und Auswertung der Daten. Kleine Fehler werden vernachlässigt. Es ist ein Beispiel für ein probabilistisches Modell. Die endgültigen Ergebnisse sind nicht exakt und stellen eine Annäherung dar. Der Datenbankbenutzer erhält die Ergebnisse nicht.
Datenabruf – Das Abrufen der Daten aus der Datenbank wird als Datenabruf bezeichnet. Der Datenabruf umfasst das Identifizieren und Sammeln der Daten aus der Datenbank. Schon ein einziger Fehler kann das System zum Scheitern bringen. Es ist ein Beispiel für ein deterministisches Modell. Die Endergebnisse sind die exakten Ergebnisse. Der Datenbankbenutzer erhält alle Ergebnisse. Das Datenabrufsystem ist gut strukturiert.

Benutzerinteraktion mit dem IR-System definieren?

Im Informationsabrufsystem oder IR-System übersetzt der Benutzer zuerst die Informationen in eine Abfrage. Das IR-System enthält einen bestimmten Satz von Wörtern, die die Logik zum Umgang mit den Informationen definieren.
Früher wurden die Dokumente durch einige Schlüsselwörter oder eine Reihe von Indizes dargestellt. Aber es wurde modernisiert und die Dokumente werden mit allen Schlüsselwörtern angezeigt. Dies kann mit den Textoperationen erfolgen, bei denen der Artikel oder die Konnektoren entfernt/eliminiert werden. Diese Methode reduziert auch die Komplexität des Dokuments.