Système de recherche d'informations expliqué : types, comparaison et composants

Publié: 2021-03-10

Un système de recherche d'informations (IR) est un ensemble d'algorithmes qui facilitent la pertinence des documents affichés par rapport aux requêtes recherchées. En termes simples, cela fonctionne pour trier et classer les documents en fonction des requêtes d'un utilisateur. Il existe une uniformité en ce qui concerne la requête et le texte dans le document pour permettre l'accessibilité du document.

Cela permet également d'utiliser efficacement une fonction de correspondance pour classer formellement un document à l'aide de sa valeur d'état de récupération (RSV). Le contenu du document est représenté par une collection de descripteurs, appelés termes, qui appartiennent à un vocabulaire V. Un système IR extrait également des commentaires sur l'utilisabilité des résultats affichés en suivant le comportement de l'utilisateur.

Lorsque nous parlons de moteurs de recherche, nous entendons Google, Yahoo et Bing parmi les moteurs de recherche généraux. Les autres moteurs de recherche incluent DBLP et Google Scholar.

Dans cet article, nous examinerons les différents types de modèles IR, les composants impliqués et les techniques utilisées dans la recherche d'informations pour comprendre le mécanisme derrière les moteurs de recherche affichant les résultats.

Lisez aussi: Salaire de data scientist en Inde

Table des matières

Types de modèle de recherche d'informations

Une recherche d'informations comprend les quatre éléments clés suivants :

D − Représentation de documents.
Q - Représentation des requêtes.
F - Un cadre pour faire correspondre et établir une relation entre D et Q.
R (q, di) - Une fonction de classement qui détermine la similarité entre la requête et le document pour afficher les informations pertinentes.

Il existe trois types de modèles de recherche d'informations (RI) :

1. Modèle IR classique - Il est conçu sur des concepts mathématiques de base et est le modèle IR le plus largement utilisé. Les modèles classiques de recherche d'informations peuvent être mis en œuvre facilement. Ses exemples incluent les modèles IR vectoriels, booléens et probabilistes. Dans ce système, la récupération des informations dépend des documents contenant l'ensemble défini de requêtes. Il n'y a aucun classement ou classement d'aucune sorte. Les différents modèles de RI classiques prennent en compte la représentation de document, la représentation de requête et la fonction de récupération/correspondance dans leur modélisation.

2. Modèle IR non classique - Ils diffèrent des modèles classiques en ce qu'ils sont construits sur une logique propositionnelle. Des exemples de modèles IR non classiques incluent les modèles de logique d'information, de théorie de situation et d'interaction.

3. Modèle IR alternatif - Ceux-ci prennent les principes du modèle IR classique et les améliorent pour créer des modèles plus fonctionnels comme le modèle de cluster, le modèle d'ensemble flou de modèles théoriques alternatifs, le modèle d'indexation sémantique latente (LSI), les modèles algébriques alternatifs Modèle d'espace vectoriel généralisé , etc.

Comprenons plus en détail les modèles IR classiques basés sur la similarité les plus adoptés :

1. Modèle booléen — Ce modèle nécessitait que les informations soient traduites en une expression booléenne et des requêtes booléennes. Ce dernier est utilisé pour déterminer les informations nécessaires pour pouvoir fournir la bonne correspondance lorsque l'expression booléenne s'avère vraie. Il utilise les opérations booléennes AND, OR, NOT pour créer une combinaison de plusieurs termes en fonction de ce que l'utilisateur demande.

2. Modèle d'espace vectoriel - Ce modèle prend des documents et des requêtes désignés comme des vecteurs et récupère les documents en fonction de leur similarité. Cela peut entraîner deux types de vecteurs qui sont ensuite utilisés pour classer les résultats de recherche soit

Binaire dans VSM booléen.
Pondéré en VSM non binaire.

3. Modèle de distribution de probabilité — Dans ce modèle, les documents sont considérés comme des distributions de termes et les requêtes sont appariées en fonction de la similarité de ces représentations. Ceci est rendu possible en utilisant l'entropie ou en calculant l'utilité probable du document. Ils sont si de deux types :

Modèle de distribution de probabilité basé sur la similarité
Modèle de distribution de probabilité basé sur l'utilité attendue

4. Modèles probabilistes - Le modèle probabiliste est plutôt simple et prend le classement de probabilité pour afficher les résultats. Pour le dire simplement, les documents sont classés en fonction de la probabilité de leur pertinence par rapport à une requête recherchée.

Paiement : Data Science vs Data Analytics

Composants du modèle de recherche d'informations

Voici les prérequis pour un modèle IR :

Un système d'indexation automatisé ou manuel utilisé pour indexer et rechercher des techniques et des procédures.
Une collection de documents dans l'un des formats suivants : texte, image ou multimédia.
Un ensemble de requêtes qui servent d'entrée à un système, via un humain ou une machine.
Une métrique d'évaluation pour mesurer ou évaluer l'efficacité d'un système (par exemple, la précision et le rappel). Par exemple, pour garantir l'utilité des informations affichées pour l'utilisateur.

Les différents composants d'un modèle de recherche d'informations comprennent :

Étape 1

Acquisition

Le système IR extrait des documents et des informations multimédias à partir de diverses ressources Web. Ces données sont compilées par des robots d'exploration Web et sont envoyées à des systèmes de stockage de bases de données.

Étape 2

Représentation

Les termes en texte libre sont indexés et le vocabulaire est trié, à l'aide de procédures automatisées ou manuelles. Par exemple, un résumé de document contiendra un résumé, une méta description, une bibliographie et des détails sur les auteurs ou co-auteurs.

Étape 3

Organisation des fichiers

L'organisation des fichiers est effectuée selon l'une des deux méthodes, séquentielle ou inversée. L'organisation séquentielle des fichiers implique les données contenues dans le document. Le fichier Inversé est constitué d'une liste d'enregistrements, de manière terme par terme.

Étape 4

Mettre en doute

Un système IR est lancé lors de la saisie d'une requête. Les requêtes des utilisateurs peuvent être des déclarations formelles ou informelles mettant en évidence les informations requises. Dans les systèmes IR, une requête n'est pas indicative d'un seul objet dans le système de base de données. Il peut faire référence à plusieurs objets, selon la correspondance avec la requête. Cependant, leurs degrés de pertinence peuvent varier.

Différence entre la récupération d'informations et la récupération de données

Les systèmes de récupération de données récupèrent directement les données des systèmes de gestion de base de données comme ODBMS en identifiant les mots-clés dans les requêtes fournies par les utilisateurs et en les faisant correspondre aux documents de la base de données.

Alors que le système de recherche d'informations dans le SGBD est un ensemble d'algorithmes ou de programmes qui impliquent le stockage, la récupération, l'évaluation des représentations de documents et de requêtes, en particulier basées sur du texte, pour afficher des résultats basés sur la similitude.

S. Non	Récupération de l'information	Récupération de données
1	Récupère les informations en fonction de la similarité entre la requête et le document.	Récupère les données en fonction des mots-clés de la requête saisie par l'utilisateur.
2	Les petites erreurs sont tolérées et passeront probablement inaperçues.	Il n'y a pas de place pour les erreurs car cela entraîne une défaillance complète du système.
3	Il est ambigu et n'a pas de structure définie.	Il a une structure définie en ce qui concerne la sémantique.
4	Ne fournit pas de solution à l'utilisateur du système de base de données.	Fournit des solutions à l'utilisateur du système de base de données.
5	Le système de recherche d'informations produit des résultats approximatifs	Le système de recherche de données produit des résultats exacts.
6	Les résultats affichés sont triés par pertinence	Les résultats affichés ne sont pas triés par pertinence.
7	Le modèle IR est probabiliste par nature.	Le modèle de récupération de données est déterministe par nature.

Conclusion

Cela nous amène à la fin de l'article. Nous espérons que vous avez trouvé ces informations utiles. Si vous recherchez plus de connaissances sur les concepts de la science des données, vous devriez consulter le premier programme exécutif PG certifié NASSCOM en Inde de l' IITB sur upGrad.

Quelles sont les applications du système de recherche d'informations ?

Le système de recherche d'informations définit la relation entre les objets de données et les requêtes de recherche. Ces documents sont classés par ordre de priorité dans les requêtes de recherche des utilisateurs et les meilleures correspondances reçoivent la priorité la plus élevée.
Le système de recherche d'informations est le mécanisme moteur de nombreuses applications réelles telles que :
1. Les bibliothèques numériques utilisent ce système pour trier et trouver les livres selon le nom, le genre ou le nom de l'auteur demandé.
2. Les moteurs de recherche tels que la recherche Google utilisent ce mécanisme pour fournir des résultats de recherche précis et plus rapides en faisant correspondre et en hiérarchisant les documents.
3. D'autres plates-formes de recherche telles que la recherche mobile, la recherche de fichiers de bureau et la recherche de navigateur fonctionnent également avec cette technique.
4. Les applications telles que les applications de streaming musical, les applications de streaming vidéo et les bibliothèques d'images utilisent les opérations de récupération d'informations pour rechercher le classement des résultats.

Quelle est la différence entre la recherche d'informations et la recherche de données ?

Ce qui suit illustre les différences entre la récupération d'informations et la récupération de données :
Récupération d'informations - La récupération d'informations traite des opérations telles que la récupération d'informations, le stockage et l'évaluation des données. Les petites erreurs sont négligées. C'est un exemple de modèle probabiliste. Les résultats finaux ne sont pas exacts et sont une approximation. L'utilisateur de la base de données n'obtient pas les résultats.
Récupération de données - La récupération des données de la base de données est appelée récupération de données. La récupération de données comprend l'identification et la collecte des données à partir de la base de données. Même une seule erreur peut faire échouer le système. C'est un exemple de modèle déterministe. Les résultats finaux sont les résultats exacts. L'utilisateur de la base de données obtient tous les résultats. Le système de récupération des données est bien structuré.

Définir l'interaction de l'utilisateur avec le système IR ?

Dans le système de recherche d'informations ou système IR, l'utilisateur traduit d'abord les informations en une requête. Le système IR contient un certain ensemble de mots qui définit la logique pour traiter les informations.
Auparavant, les documents étaient représentés par des mots clés ou un ensemble d'index. Mais il a été modernisé et les documents sont affichés avec l'ensemble des mots clés. Cela peut être fait avec les opérations de texte où l'article ou les connecteurs sont supprimés/éliminés. Cette méthode réduit également la complexité du document.