Sistemul de recuperare a informațiilor explicat: tipuri, comparații și componente

Publicat: 2021-03-10

Un sistem de regăsire a informațiilor (IR) este un set de algoritmi care facilitează relevanța documentelor afișate pentru interogările căutate. Cu cuvinte simple, funcționează pentru a sorta și clasifica documentele pe baza interogărilor unui utilizator. Există uniformitate în ceea ce privește interogarea și textul din document pentru a permite accesibilitatea documentului.

Acest lucru permite, de asemenea, ca o funcție de potrivire să fie utilizată eficient pentru a clasifica un document în mod oficial utilizând valoarea lor de stare de recuperare (RSV). Conținutul documentului este reprezentat de o colecție de descriptori, cunoscuți sub denumirea de termeni, care aparțin unui vocabular V. Un sistem IR extrage, de asemenea, feedback cu privire la utilizarea rezultatelor afișate prin urmărirea comportamentului utilizatorului.

Când vorbim de motoarele de căutare, ne referim la Google, Yahoo și Bing printre motoarele de căutare generale. Alte motoare de căutare includ DBLP și Google Scholar.

În acest articol, vom analiza diferitele tipuri de modele IR, componentele implicate și tehnicile utilizate în Recuperarea informațiilor pentru a înțelege mecanismul din spatele motoarele de căutare care afișează rezultate.

Citește și: Salariul Data Scientist în India

Cuprins

Tipuri de model de regăsire a informațiilor

O recuperare a informațiilor cuprinde următoarele patru elemente cheie:

D − Reprezentarea documentelor.
Q − Reprezentarea interogării.
F − Un cadru pentru a potrivi și a stabili o relație între D și Q.
R (q, di) − O funcție de clasare care determină asemănarea dintre interogare și document pentru a afișa informații relevante.

Există trei tipuri de modele de recuperare a informațiilor (IR):

1. Modelul IR clasic — Este conceput pe baza conceptelor matematice de bază și este cel mai utilizat model IR. Modelele clasice de recuperare a informațiilor pot fi implementate cu ușurință. Exemplele sale includ modele IR cu spațiu vectorial, boolean și probabilistic. În acest sistem, regăsirea informațiilor depinde de documentele care conțin setul definit de interogări. Nu există nicio clasare sau notare de niciun fel. Diferitele modele IR clasice iau în considerare în modelarea lor Reprezentarea documentului, Reprezentarea interogării și funcția Retrieval/Matching.

2. Model IR non-clasic — Ele diferă de modelele clasice prin faptul că sunt construite pe logica propozițională. Exemple de modele IR non-clasice includ logica informațiilor, teoria situației și modelele de interacțiune.

3. Model IR alternativ — Acestea preiau principiile modelului IR clasic și le îmbunătățesc pentru a crea modele mai funcționale, cum ar fi modelul Cluster, Modelele teoretice alternative Fuzzy Set, modelul de indexare semantică latentă (LSI), Modelele algebrice alternative Modelul spațial vectorial generalizat , etc.

Să înțelegem mai în detaliu cele mai adoptate modele IR clasice bazate pe similitudine:

1. Model boolean — Acest model necesita ca informațiile să fie traduse într-o expresie booleană și interogări booleene. Acesta din urmă este folosit pentru a determina informațiile necesare pentru a putea oferi potrivirea corectă atunci când expresia booleană este găsită a fi adevărată. Folosește operații booleene ȘI, SAU, NU pentru a crea o combinație de mai mulți termeni pe baza a ceea ce solicită utilizatorul.

2. Modelul spațial vectorial — Acest model preia documente și interogări notate ca vectori și preia documente în funcție de cât de asemănătoare sunt. Acest lucru poate duce la două tipuri de vectori care sunt apoi utilizați pentru a clasa rezultatele căutării

Binar în VSM boolean.
Ponderată în VSM non-binar.

3. Modelul de distribuție a probabilității — În acest model, documentele sunt considerate ca distribuții de termeni și interogări sunt potrivite pe baza similitudinii acestor reprezentări. Acest lucru este posibil folosind entropia sau calculând utilitatea probabilă a documentului. Sunt de două tipuri:

Modelul de distribuție a probabilității bazat pe similitudine
Modelul de distribuție a probabilității bazat pe utilitate așteptată

4. Modele probabilistice — Modelul probabilistic este destul de simplu și utilizează clasarea probabilității pentru a afișa rezultatele. Pentru a spune simplu, documentele sunt clasificate în funcție de probabilitatea relevanței lor pentru o interogare căutată.

Checkout: Data Science vs Data Analytics

Componentele modelului de regăsire a informațiilor

Iată cerințele preliminare pentru un model IR:

Un sistem de indexare automat sau manual utilizat pentru indexarea și căutarea tehnicilor și procedurilor.
O colecție de documente în oricare dintre următoarele formate: text, imagine sau multimedia.
Un set de interogări care servesc ca intrare într-un sistem, prin intermediul unui om sau al unei mașini.
O metrică de evaluare pentru a măsura sau evalua eficacitatea unui sistem (de exemplu, precizie și reamintire). De exemplu, pentru a asigura cât de utile sunt informațiile afișate utilizatorului.

Diferitele componente ale unui model de regăsire a informațiilor includ:

Pasul 1

Achiziţie

Sistemul IR sursă documente și informații multimedia dintr-o varietate de resurse web. Aceste date sunt compilate de crawlerele web și sunt trimise la sistemele de stocare a bazelor de date.

Pasul 2

Reprezentare

Termenii din text liber sunt indexați, iar vocabularul este sortat, ambele folosind proceduri automate sau manuale. De exemplu, un rezumat al documentului va conține un rezumat, meta-descriere, bibliografie și detalii ale autorilor sau ale coautorilor.

Pasul 3

Organizarea fișierelor

Organizarea fișierelor se realizează într-una din două metode, secvenţială sau inversată. Organizarea secvențială a fișierelor implică datele conținute în document. Fișierul inversat cuprinde o listă de înregistrări, termen cu termen.

Pasul 4

Interogare

Un sistem IR este inițiat la introducerea unei interogări. Interogările utilizatorilor pot fi declarații formale sau informale care evidențiază informațiile necesare. În sistemele IR, o interogare nu indică un singur obiect din sistemul de baze de date. S-ar putea referi la mai multe obiecte, oricare se potrivește interogării. Cu toate acestea, gradele lor de relevanță pot varia.

Diferența dintre regăsirea informațiilor și regăsirea datelor

Sistemele de recuperare a datelor preiau direct datele din sistemele de gestionare a bazelor de date precum ODBMS prin identificarea cuvintelor cheie în interogările furnizate de utilizatori și potrivirea acestora cu documentele din baza de date.

În timp ce sistemul de regăsire a informațiilor din DBMS este un set de algoritmi sau programe care implică stocarea, preluarea, evaluarea reprezentărilor documentelor și a interogărilor, în special bazate pe text, pentru a afișa rezultate bazate pe similaritate.

S.Nr	Găsirea informațiilor	Recuperare de date
1	Preia informații pe baza asemănării dintre interogare și document.	Preia datele pe baza cuvintelor cheie din interogarea introduse de utilizator.
2	Micile erori sunt tolerate și probabil vor trece neobservate.	Nu există loc pentru erori, deoarece aceasta duce la o defecțiune completă a sistemului.
3	Este ambiguu și nu are o structură definită.	Are o structură definită în ceea ce privește semantica.
4	Nu oferă o soluție utilizatorului sistemului de baze de date.	Oferă soluții utilizatorului sistemului de baze de date.
5	Sistemul de recuperare a informațiilor produce rezultate aproximative	Sistemul de recuperare a datelor produce rezultate exacte.
6	Rezultatele afișate sunt sortate după relevanță	Rezultatele afișate nu sunt sortate după relevanță.
7	Modelul IR este probabilist prin natura sa.	Modelul de recuperare a datelor este determinist prin natură.

Concluzie

Asta ne duce la finalul articolului. Sperăm că ați găsit informațiile utile. Dacă sunteți în căutarea mai multor cunoștințe despre conceptele științei datelor, ar trebui să consultați primul program executiv PG certificat NASSCOM din India de la IITB pe upGrad.

Care sunt aplicațiile sistemului de recuperare a informațiilor?

Sistemul de recuperare a informațiilor stabilește relația dintre obiectele de date și interogările de recuperare. Aceste documente au prioritate la interogările de căutare ale utilizatorilor și cele mai bune potriviri au cea mai mare prioritate.
Sistemul de recuperare a informațiilor este mecanismul de conducere în multe aplicații din viața reală, cum ar fi:
1. Bibliotecile digitale folosesc acest sistem pentru a sorta și a găsi cărțile în funcție de numele solicitat, genul sau numele autorului.
2. Motoarele de căutare precum căutarea Google utilizează acest mecanism pentru a oferi rezultate de căutare precise și mai rapide prin potrivirea și prioritizarea documentelor.
3. Alte platforme de căutare, cum ar fi căutarea pe mobil, căutarea fișierelor pe desktop și căutarea prin browser rulează, de asemenea, pe această tehnică.
4. Aplicații precum aplicațiile de streaming de muzică, aplicațiile de streaming video și bibliotecile de imagini utilizează operațiunile de regăsire a informațiilor pentru a căuta rezultatele.

Care este diferența dintre preluarea informațiilor și recuperarea datelor?

Următoarele ilustrează diferențele dintre regăsirea informațiilor și regăsirea datelor:
Recuperarea informațiilor - Recuperarea informațiilor se ocupă de operațiuni precum regăsirea informațiilor, stocarea și evaluarea datelor. Micile erori sunt neglijate. Este un exemplu de model probabilistic. Rezultatele finale nu sunt exacte și sunt aproximative. Utilizatorul bazei de date nu primește rezultatele.
Preluarea datelor - Preluarea datelor din baza de date se numește regăsire a datelor. Preluarea datelor include identificarea și colectarea datelor din baza de date. Chiar și o singură eroare poate eșua sistemul. Este un exemplu de model determinist. Rezultatele finale sunt rezultatele exacte. Utilizatorul bazei de date primește toate rezultatele. Sistemul de recuperare a datelor este bine structurat.

Definiți interacțiunea utilizatorului cu sistemul IR?

În sistemul de recuperare a informațiilor sau sistemul IR, utilizatorul traduce mai întâi informațiile într-o interogare. Sistemul IR conține un anumit set de cuvinte care definește logica de a trata informațiile.
Anterior, documentele erau reprezentate prin intermediul unor cuvinte cheie sau al unui set de indexuri. Dar a fost modernizat și documentele sunt afișate cu întregul set de cuvinte cheie. Acest lucru se poate face cu operațiunile text în care articolul sau conexiunile sunt eliminate/eliminate. Această metodă reduce și complexitatea documentului.