Spiegazione del sistema di recupero delle informazioni: tipi, confronto e componenti

Pubblicato: 2021-03-10

Un sistema di recupero delle informazioni (IR) è un insieme di algoritmi che facilitano la pertinenza dei documenti visualizzati rispetto alle query ricercate. In parole semplici, funziona per ordinare e classificare i documenti in base alle query di un utente. C'è uniformità rispetto alla query e al testo nel documento per consentire l'accessibilità del documento.

Ciò consente anche di utilizzare efficacemente una funzione di corrispondenza per classificare formalmente un documento utilizzando il loro valore di stato di recupero (RSV). I contenuti del documento sono rappresentati da una raccolta di descrittori, detti termini, che appartengono ad un vocabolario V. Un sistema IR estrae inoltre feedback sull'usabilità dei risultati visualizzati tracciando il comportamento dell'utente.

Quando parliamo di motori di ricerca, ci riferiamo a Google, Yahoo e Bing tra i motori di ricerca generali. Altri motori di ricerca includono DBLP e Google Scholar.

In questo articolo, esamineremo i diversi tipi di modelli IR, i componenti coinvolti e le tecniche utilizzate nel recupero delle informazioni per comprendere il meccanismo alla base dei motori di ricerca che visualizzano i risultati.

Leggi anche: Stipendio per data scientist in India

Sommario

Tipi di modello di recupero delle informazioni

Un recupero delle informazioni comprende i seguenti quattro elementi chiave:

  1. D − Rappresentazione del documento.
  2. Q - Rappresentazione della query.
  3. F − Un framework per abbinare e stabilire una relazione tra D e Q.
  4. R (q, di) - Una funzione di classificazione che determina la somiglianza tra la query e il documento per visualizzare le informazioni rilevanti.

Esistono tre tipi di modelli di recupero delle informazioni (IR):

1. Modello IR classico : è progettato su concetti matematici di base ed è il più utilizzato dei modelli IR. I modelli classici di recupero delle informazioni possono essere implementati con facilità. I suoi esempi includono modelli IR nello spazio vettoriale, booleani e probabilistici. In questo sistema, il recupero delle informazioni dipende dai documenti contenenti l'insieme definito di query. Non ci sono graduatorie o graduatorie di alcun tipo. I diversi modelli IR classici prendono in considerazione la rappresentazione del documento, la rappresentazione della query e la funzione di recupero/corrispondenza nella loro modellazione.

2. Modello IR non classico — Differiscono dai modelli classici in quanto sono costruiti sulla logica proposizionale. Esempi di modelli IR non classici includono la logica dell'informazione, la teoria della situazione e i modelli di interazione.

3. Modello IR alternativo : prendono i principi del modello IR classico e migliorano per creare modelli più funzionali come il modello Cluster, il modello Fuzzy Set di modelli alternativi di teoria degli insiemi, il modello LSI (Latent Semantic Indexing), i modelli algebrici alternativi Modello di spazio vettoriale generalizzato , eccetera.

Comprendiamo più in dettaglio i modelli IR classici basati sulla somiglianza più adottati:

1. Modello booleano : questo modello richiedeva che le informazioni venissero tradotte in un'espressione booleana e query booleane. Quest'ultimo viene utilizzato per determinare le informazioni necessarie per essere in grado di fornire la corrispondenza corretta quando l'espressione booleana viene trovata vera. Utilizza le operazioni booleane AND, OR, NOT per creare una combinazione di più termini in base a ciò che l'utente chiede.

2. Modello spaziale vettoriale : questo modello accetta documenti e query indicati come vettori e recupera i documenti a seconda di quanto siano simili. Ciò può comportare due tipi di vettori che vengono quindi utilizzati per classificare i risultati della ricerca

  • Binario in VSM booleano.
  • Ponderato in VSM non binario.

3. Modello di distribuzione delle probabilità — In questo modello, i documenti sono considerati come distribuzioni di termini e le query sono abbinate in base alla somiglianza di queste rappresentazioni. Ciò è reso possibile utilizzando l'entropia o calcolando la probabile utilità del documento. Sono se due tipi:

  • Modello di distribuzione delle probabilità basato sulla somiglianza
  • Modello di distribuzione delle probabilità basato sull'utilità attesa

4. Modelli probabilistici — Il modello probabilistico è piuttosto semplice e utilizza la classifica delle probabilità per visualizzare i risultati. In parole povere, i documenti vengono classificati in base alla probabilità della loro rilevanza per una query ricercata.

Checkout: scienza dei dati vs analisi dei dati

Componenti del modello di recupero delle informazioni

Ecco i prerequisiti per un modello IR:

  1. Un sistema di indicizzazione automatizzato o manuale utilizzato per indicizzare e cercare tecniche e procedure.
  2. Una raccolta di documenti in uno qualsiasi dei seguenti formati: testo, immagine o multimediale.
  3. Un insieme di query che fungono da input per un sistema, tramite un essere umano o una macchina.
  4. Una metrica di valutazione per misurare o valutare l'efficacia di un sistema (ad esempio, precisione e richiamo). Ad esempio, per garantire l'utilità delle informazioni visualizzate all'utente.

I vari componenti di un modello di recupero delle informazioni includono:

Passo 1

Acquisizione
Il sistema IR trae documenti e informazioni multimediali da una varietà di risorse web. Questi dati vengono compilati da web crawler e inviati a sistemi di archiviazione di database.

Passo 2

Rappresentazione
I termini a testo libero vengono indicizzati e il vocabolario ordinato, sia mediante procedure automatizzate che manuali. Ad esempio, un abstract del documento conterrà un riassunto, una meta descrizione, una bibliografia e i dettagli degli autori o dei coautori.

Passaggio 3

Organizzazione dei file
L'organizzazione dei file viene eseguita in uno dei due metodi, sequenziale o invertito. L'organizzazione sequenziale dei file coinvolge i dati contenuti nel documento. Il file invertito comprende un elenco di record, termine per termine.

Passaggio 4

Domanda
Un sistema IR viene avviato all'immissione di una query. Le query degli utenti possono essere dichiarazioni formali o informali che evidenziano quali informazioni sono richieste. Nei sistemi IR, una query non è indicativa di un singolo oggetto nel sistema di database. Potrebbe fare riferimento a diversi oggetti qualunque corrisponda alla query. Tuttavia, i loro gradi di rilevanza possono variare.

Differenza tra recupero delle informazioni e recupero dei dati

I sistemi di recupero dati recuperano direttamente i dati dai sistemi di gestione del database come ODBMS identificando le parole chiave nelle query fornite dagli utenti e confrontandole con i documenti nel database.

Considerando che il sistema di recupero delle informazioni in DBMS è un insieme di algoritmi o programmi che implicano la memorizzazione, il recupero, la valutazione di documenti e rappresentazioni di query, in particolare basate su testo, per visualizzare i risultati in base alla somiglianza.

S.n Recupero delle informazioni Recupero dei dati
1 Recupera le informazioni in base alla somiglianza tra la query e il documento. Recupera i dati in base alle parole chiave nella query immessa dall'utente.
2 I piccoli errori sono tollerati e probabilmente passeranno inosservati. Non c'è spazio per errori poiché si traduce in un errore completo del sistema.
3 È ambiguo e non ha una struttura definita. Ha una struttura definita rispetto alla semantica.
4 Non fornisce una soluzione all'utente del sistema di database. Fornisce soluzioni all'utente del sistema di database.
5 Il sistema di recupero delle informazioni produce risultati approssimativi Il sistema di recupero dati produce risultati esatti.
6 I risultati visualizzati sono ordinati per rilevanza I risultati visualizzati non sono ordinati per pertinenza.
7 Il modello IR è probabilistico per natura. Il modello Data Retrieval è deterministico per natura.

Conclusione

Questo ci porta alla fine dell'articolo. Ci auguriamo che le informazioni siano state utili. Se stai cercando maggiori conoscenze sui concetti di Data Science, dovresti dare un'occhiata al 1° programma Executive PG certificato NASSCOM dell'India in Data Science da IITB in poi.

Quali sono le applicazioni dell'Information Retrieval System?

Il sistema di recupero delle informazioni imposta la relazione tra gli oggetti dati e le query di recupero. Questi documenti hanno la priorità rispetto alle query di ricerca degli utenti e le migliori corrispondenze hanno la massima priorità.
Il sistema di recupero delle informazioni è il meccanismo trainante di molte applicazioni reali come:
1. Le biblioteche digitali utilizzano questo sistema per ordinare e trovare i libri in base al nome, al genere o al nome dell'autore richiesti.
2. I motori di ricerca come la ricerca di Google utilizzano questo meccanismo per fornire risultati di ricerca accurati e più rapidi abbinando e assegnando priorità ai documenti.
3. Anche altre piattaforme di ricerca come la ricerca mobile, la ricerca di file desktop e la ricerca del browser vengono eseguite con questa tecnica.
4. Applicazioni come app di streaming musicale, app di streaming video e librerie di immagini utilizzano le operazioni di recupero delle informazioni per classificare i risultati di ricerca.

Qual è la differenza tra il recupero delle informazioni e il recupero dei dati?

Di seguito vengono illustrate le differenze tra il recupero delle informazioni e il recupero dei dati:
Recupero delle informazioni - Il recupero delle informazioni si occupa di operazioni come il recupero delle informazioni, l'archiviazione e la valutazione dei dati. I piccoli errori vengono trascurati. È un esempio di modello probabilistico. I risultati finali non sono esatti e sono un'approssimazione. L'utente del database non ottiene i risultati.
Recupero dei dati: il recupero dei dati dal database è chiamato recupero dei dati. Il recupero dei dati include l'identificazione e la raccolta dei dati dal database. Anche un singolo errore può fallire il sistema. È un esempio di modello deterministico. I risultati finali sono i risultati esatti. L'utente del database ottiene tutti i risultati. Il sistema di recupero dati è ben strutturato.

Definire l'interazione dell'utente con il sistema IR?

Nel sistema di recupero delle informazioni o nel sistema IR, l'utente prima traduce le informazioni in una query. Il sistema IR contiene un certo insieme di parole che definisce la logica per gestire le informazioni.
In precedenza, i documenti erano rappresentati tramite alcune parole chiave o un insieme di indici. Ma è stato modernizzato e i documenti sono mostrati con l'intero set di parole chiave. Questo può essere fatto con le operazioni di testo in cui l'articolo oi connettivi vengono rimossi/eliminati. Questo metodo riduce anche la complessità del documento.