Objaśnienie systemu wyszukiwania informacji: typy, porównania i komponenty

Opublikowany: 2021-03-10

System wyszukiwania informacji (IR) to zestaw algorytmów, które ułatwiają dopasowanie wyświetlanych dokumentów do wyszukiwanych zapytań. Mówiąc prościej, służy do sortowania i oceniania dokumentów na podstawie zapytań użytkownika. Istnieje jednolitość w odniesieniu do zapytania i tekstu w dokumencie, aby umożliwić dostęp do dokumentu.

Pozwala to również na efektywne wykorzystanie funkcji dopasowania do formalnego uszeregowania dokumentu przy użyciu ich wartości statusu pobierania (RSV). Treść dokumentu jest reprezentowana przez zbiór deskryptorów, znanych jako terminy, które należą do słownictwa V. System IR pobiera również informacje zwrotne na temat użyteczności wyświetlanych wyników, śledząc zachowanie użytkownika.

Kiedy mówimy o wyszukiwarkach, mamy na myśli takie jak Google, Yahoo i Bing wśród ogólnych wyszukiwarek. Inne wyszukiwarki to DBLP i Google Scholar.

W tym artykule przyjrzymy się różnym typom modeli IR, zaangażowanym komponentom oraz technikom używanym w pobieraniu informacji, aby zrozumieć mechanizm działania wyszukiwarek wyświetlających wyniki.

Przeczytaj także: Wynagrodzenie analityka danych w Indiach

Spis treści

Rodzaje modeli wyszukiwania informacji

Wyszukiwanie informacji składa się z następujących czterech kluczowych elementów:

D - Reprezentacja Dokumentu.
Q – Reprezentacja zapytań.
F − Ramy do dopasowania i ustalenia relacji między D i Q.
R (q, di) − Funkcja rankingowa, która określa podobieństwo między zapytaniem a dokumentem w celu wyświetlenia odpowiednich informacji.

Istnieją trzy typy modeli wyszukiwania informacji (IR):

1. Klasyczny model IR — jest zaprojektowany na podstawie podstawowych pojęć matematycznych i jest najszerzej stosowanym modelem IR. Z łatwością można wdrożyć klasyczne modele wyszukiwania informacji. Jego przykładami są modele IR w przestrzeni wektorowej, logiczne i probabilistyczne. W systemie tym pobieranie informacji zależy od dokumentów zawierających zdefiniowany zestaw zapytań. Nie ma żadnego rankingu ani stopniowania. Różne klasyczne modele IR uwzględniają w swoich modelach reprezentację dokumentu, reprezentację zapytania i funkcję pobierania/dopasowywania.

2. Nieklasyczny model IR — różnią się od klasycznych modeli tym, że są zbudowane na logice zdań. Przykłady nieklasycznych modeli IR obejmują logikę informacyjną, teorię sytuacji i modele interakcji.

3. Alternatywny model IR — opierają się na zasadach klasycznego modelu IR i są ulepszane w celu stworzenia bardziej funkcjonalnych modeli, takich jak model skupień, alternatywny model mnogościowy model zbioru rozmytego, model utajonego indeksowania semantycznego (LSI), alternatywne modele algebraiczne, uogólniony model przestrzeni wektorowej itp.

Przyjrzyjmy się bardziej szczegółowo najbardziej rozpowszechnionym klasycznym modelom podczerwieni opartym na podobieństwach:

1. Model Boolean — Ten model wymagał przetłumaczenia informacji na wyrażenie Boolean i zapytania Boolean. Ta ostatnia służy do określenia informacji potrzebnych do zapewnienia prawidłowego dopasowania, gdy wyrażenie logiczne okaże się prawdziwe. Wykorzystuje operacje logiczne AND, OR, NOT, aby utworzyć kombinację wielu terminów na podstawie tego, o co pyta użytkownik.

2. Model przestrzeni wektorowej — ten model pobiera dokumenty i zapytania oznaczone jako wektory i pobiera dokumenty w zależności od ich podobieństwa. Może to skutkować dwoma typami wektorów, które są następnie używane do oceniania wyników wyszukiwania

Binarny w Boolean VSM.
Ważone w niebinarnym VSM.

3. Model rozkładu prawdopodobieństwa — w tym modelu dokumenty są traktowane jako rozkłady terminów, a zapytania są dopasowywane na podstawie podobieństwa tych reprezentacji. Jest to możliwe dzięki entropii lub obliczeniu prawdopodobnej użyteczności dokumentu. Są to dwa rodzaje:

Model rozkładu prawdopodobieństwa oparty na podobieństwie
Model rozkładu prawdopodobieństwa na podstawie oczekiwanej użyteczności

4. Modele probabilistyczne — Model probabilistyczny jest dość prosty i wykorzystuje ranking prawdopodobieństwa do wyświetlenia wyników. Mówiąc prościej, dokumenty są klasyfikowane na podstawie prawdopodobieństwa ich trafności dla wyszukiwanego zapytania.

Zamówienie: nauka o danych a analiza danych

Składniki modelu wyszukiwania informacji

Oto wymagania wstępne dla modelu IR:

Zautomatyzowany lub obsługiwany ręcznie system indeksowania używany do indeksowania i wyszukiwania technik i procedur.
Zbiór dokumentów w jednym z następujących formatów: tekst, obraz lub multimedia.
Zestaw zapytań, które służą jako dane wejściowe do systemu za pośrednictwem człowieka lub maszyny.
Miernik oceny służący do pomiaru lub oceny skuteczności systemu (na przykład precyzja i przypomnienie). Na przykład, aby upewnić się, jak przydatne są informacje wyświetlane użytkownikowi.

Różne elementy modelu wyszukiwania informacji obejmują:

Krok 1

Nabytek

System IR pozyskuje dokumenty i informacje multimedialne z różnych zasobów internetowych. Dane te są kompilowane przez roboty sieciowe i przesyłane do systemów pamięci masowej baz danych.

Krok 2

Reprezentacja

Terminy w dowolnym tekście są indeksowane, a słownictwo sortowane, zarówno przy użyciu procedur automatycznych, jak i ręcznych. Na przykład streszczenie dokumentu będzie zawierać streszczenie, metaopis, bibliografię i dane autorów lub współautorów.

Krok 3

Organizacja plików

Organizację plików przeprowadza się jedną z dwóch metod, sekwencyjną lub odwróconą. Sekwencyjna organizacja plików obejmuje dane zawarte w dokumencie. Plik odwrócony zawiera listę rekordów, termin po terminie.

Krok 4

Zapytanie

System IR jest inicjowany po wprowadzeniu zapytania. Zapytania użytkowników mogą być formalnymi lub nieformalnymi stwierdzeniami, podkreślającymi, jakie informacje są wymagane. W systemach IR zapytanie nie wskazuje na pojedynczy obiekt w systemie bazy danych. Może odnosić się do kilku obiektów, które pasują do zapytania. Jednak ich stopień istotności może się różnić.

Różnica między wyszukiwaniem informacji a wyszukiwaniem danych

Systemy Data Retrieval bezpośrednio pobierają dane z systemów zarządzania bazami danych, takich jak ODBMS, identyfikując słowa kluczowe w zapytaniach dostarczonych przez użytkowników i dopasowując je do dokumentów w bazie danych.

Podczas gdy system wyszukiwania informacji w DBMS to zestaw algorytmów lub programów, które obejmują przechowywanie, wyszukiwanie, ocenę reprezentacji dokumentów i zapytań, zwłaszcza tekstowych, w celu wyświetlania wyników w oparciu o podobieństwo.

S.No	Wyszukiwanie informacji	Odzyskiwanie danych
1	Pobiera informacje na podstawie podobieństwa między zapytaniem a dokumentem.	Pobiera dane na podstawie słów kluczowych w zapytaniu wprowadzonych przez użytkownika.
2	Małe błędy są tolerowane i prawdopodobnie pozostaną niezauważone.	Nie ma miejsca na błędy, ponieważ powoduje to całkowitą awarię systemu.
3	Jest niejednoznaczny i nie ma określonej struktury.	Ma określoną strukturę pod względem semantycznym.
4	Nie zapewnia rozwiązania użytkownikowi systemu bazodanowego.	Dostarcza rozwiązania użytkownikowi systemu bazodanowego.
5	System wyszukiwania informacji daje przybliżone wyniki	System pobierania danych zapewnia dokładne wyniki.
6	Wyświetlane wyniki są sortowane według trafności	Wyświetlane wyniki nie są sortowane według trafności.
7	Model IR jest z natury probabilistyczny.	Model pobierania danych jest z natury deterministyczny.

Wniosek

To prowadzi nas do końca artykułu. Mamy nadzieję, że informacje okazały się pomocne. Jeśli szukasz więcej wiedzy na temat koncepcji Data Science, powinieneś zapoznać się z pierwszym indyjskim certyfikowanym przez NASSCOM programem Executive PG in Data Science od IITB na upGrad.

Jakie są zastosowania systemu wyszukiwania informacji?

Information Retrieval System ustala relacje między obiektami danych a zapytaniami pobierającymi. Dokumenty te są traktowane priorytetowo według zapytań wyszukiwania użytkowników, a najlepsze dopasowania mają najwyższy priorytet.
System wyszukiwania informacji jest mechanizmem napędowym wielu rzeczywistych aplikacji, takich jak:
1. Biblioteki cyfrowe używają tego systemu do sortowania i wyszukiwania książek według żądanej nazwy, gatunku lub nazwiska autora.
2. Wyszukiwarki, takie jak wyszukiwarka Google, wykorzystują ten mechanizm do dostarczania dokładnych i szybszych wyników wyszukiwania, dopasowując dokumenty i ustalając ich priorytety.
3. Inne platformy wyszukiwania, takie jak wyszukiwanie mobilne, wyszukiwanie plików na komputerze i wyszukiwanie w przeglądarce, również działają w tej technice.
4. Aplikacje, takie jak aplikacje do strumieniowego przesyłania muzyki, aplikacje do strumieniowego przesyłania wideo i biblioteki obrazów, wykorzystują operacje pobierania informacji do wyszukiwania rankingu wyników.

Jaka jest różnica między wyszukiwaniem informacji a wyszukiwaniem danych?

Poniżej przedstawiono różnice między wyszukiwaniem informacji a wyszukiwaniem danych:
Pobieranie informacji — Pobieranie informacji zajmuje się operacjami takimi jak pobieranie informacji, przechowywanie i ocena danych. Małe błędy są pomijane. Jest to przykład modelu probabilistycznego. Ostateczne wyniki nie są dokładne i są przybliżone. Użytkownik bazy danych nie otrzymuje wyników.
Pobieranie danych — pobieranie danych z bazy danych nazywa się pobieraniem danych. Pobieranie danych obejmuje identyfikację i zbieranie danych z bazy danych. Nawet pojedynczy błąd może zawieść system. Jest to przykład modelu deterministycznego. Ostateczne wyniki są dokładnymi wynikami. Użytkownik bazy danych otrzymuje wszystkie wyniki. System wyszukiwania danych jest dobrze zorganizowany.

Zdefiniować interakcję użytkownika z systemem IR?

W systemie wyszukiwania informacji lub systemie IR użytkownik najpierw tłumaczy informacje na zapytanie. System IR zawiera pewien zestaw słów, które określają logikę postępowania z informacją.
Wcześniej dokumenty były reprezentowane przez niektóre słowa kluczowe lub zestaw indeksów. Ale został zmodernizowany i dokumenty są wyświetlane z całym zestawem słów kluczowych. Można to zrobić za pomocą operacji tekstowych, w których przedimek lub spójniki są usuwane/eliminowane. Ta metoda również zmniejsza złożoność dokumentu.