Explicação do Sistema de Recuperação de Informações: Tipos, Comparação e Componentes

Publicados: 2021-03-10

Um sistema de recuperação de informações (IR) é um conjunto de algoritmos que facilitam a relevância dos documentos exibidos para as consultas pesquisadas. Em palavras simples, ele funciona para classificar e classificar documentos com base nas consultas de um usuário. Há uniformidade em relação à consulta e ao texto no documento para permitir a acessibilidade do documento.

Isso também permite que uma função de correspondência seja usada efetivamente para classificar um documento formalmente usando seu Valor de Status de Recuperação (RSV). O conteúdo do documento é representado por uma coleção de descritores, conhecidos como termos, que pertencem a um vocabulário V. Um sistema de RI também extrai feedback sobre a usabilidade dos resultados exibidos, rastreando o comportamento do usuário.

Quando falamos de mecanismos de pesquisa, queremos dizer Google, Yahoo e Bing entre os mecanismos de pesquisa gerais. Outros motores de busca incluem DBLP e Google Scholar.

Neste artigo, veremos os diferentes tipos de modelos de RI, os componentes envolvidos e as técnicas usadas na Recuperação de Informações para entender o mecanismo por trás dos mecanismos de pesquisa que exibem resultados.

Leia também: Salário de cientista de dados na Índia

Índice

Tipos de Modelo de Recuperação de Informações

Uma recuperação de informações compreende os quatro elementos principais a seguir:

  1. D – Representação Documental.
  2. Q − Representação da Consulta.
  3. F − Uma estrutura para combinar e estabelecer uma relação entre D e Q.
  4. R (q, di) − Uma função de classificação que determina a semelhança entre a consulta e o documento para exibir informações relevantes.

Existem três tipos de modelos de Recuperação de Informações (IR):

1. Modelo Clássico de IR — Ele é projetado com base em conceitos matemáticos básicos e é o mais amplamente utilizado dos modelos de IR. Modelos clássicos de recuperação de informações podem ser implementados com facilidade. Seus exemplos incluem modelos de espaço vetorial, booleanos e probabilísticos de IR. Neste sistema, a recuperação da informação depende de documentos que contenham o conjunto definido de consultas. Não há classificação ou classificação de qualquer tipo. Os diferentes modelos clássicos de IR levam em consideração a Representação do Documento, a Representação da Consulta e a função de Recuperação/Correspondência em sua modelagem.

2. Modelo de RI Não Clássico — Eles diferem dos modelos clássicos por serem construídos sobre lógica proposicional. Exemplos de modelos de RI não clássicos incluem modelos de lógica da informação, teoria da situação e interação.

3. Modelo IR alternativo — Estes usam princípios do modelo IR clássico e aprimoram para criar modelos mais funcionais, como o modelo Cluster, Modelos Alternativos de Teoria de Conjuntos, Modelo de Conjuntos Fuzzy, Modelo de Indexação Semântica Latente (LSI), Modelos Algébricos Alternativos, Modelo de Espaço Vetorial Generalizado , etc

Vamos entender os modelos clássicos de IR baseados em similaridade mais adotados em mais detalhes:

1. Modelo Booleano — Este modelo exigia que as informações fossem traduzidas em uma expressão booleana e consultas booleanas. O último é usado para determinar as informações necessárias para fornecer a correspondência correta quando a expressão booleana for verdadeira. Ele usa operações booleanas AND, OR, NOT para criar uma combinação de vários termos com base no que o usuário pergunta.

2. Modelo de espaço vetorial — Este modelo pega documentos e consultas denotados como vetores e recupera documentos dependendo de quão semelhantes eles são. Isso pode resultar em dois tipos de vetores que são usados ​​para classificar os resultados da pesquisa

  • Binário em VSM booleano.
  • Ponderado em VSM não binário.

3. Modelo de Distribuição de Probabilidades — Neste modelo, os documentos são considerados como distribuições de termos e as consultas são correspondidas com base na similaridade dessas representações. Isso é possível usando entropia ou calculando a utilidade provável do documento. São se dois tipos:

  • Modelo de distribuição de probabilidade baseado em similaridade
  • Modelo de distribuição de probabilidade baseado em utilidade esperada

4. Modelos Probabilísticos — O modelo probabilístico é bastante simples e usa a classificação de probabilidade para exibir os resultados. Simplificando, os documentos são classificados com base na probabilidade de sua relevância para uma consulta pesquisada.

Checkout: Data Science vs Data Analytics

Componentes do Modelo de Recuperação de Informações

Aqui estão os pré-requisitos para um modelo de RI:

  1. Um sistema de indexação automatizado ou operado manualmente usado para indexar e pesquisar técnicas e procedimentos.
  2. Uma coleção de documentos em qualquer um dos seguintes formatos: texto, imagem ou multimídia.
  3. Um conjunto de consultas que servem como entrada para um sistema, por meio de um humano ou máquina.
  4. Uma métrica de avaliação para medir ou avaliar a eficácia de um sistema (por exemplo, precisão e recuperação). Por exemplo, para garantir a utilidade das informações exibidas para o usuário.

Os vários componentes de um Modelo de Recuperação de Informações incluem:

Passo 1

Aquisição
O sistema de IR obtém documentos e informações multimídia de uma variedade de recursos da web. Esses dados são compilados por rastreadores da Web e enviados para sistemas de armazenamento de banco de dados.

Passo 2

Representação
Os termos de texto livre são indexados e o vocabulário é classificado, usando procedimentos automatizados ou manuais. Por exemplo, um resumo de documento conterá um resumo, meta descrição, bibliografia e detalhes dos autores ou coautores.

etapa 3

Organização de arquivos
A organização dos arquivos é realizada em um dos dois métodos, sequencial ou invertido. A organização sequencial do arquivo envolve os dados contidos no documento. O arquivo Invertido é composto por uma lista de registros, termo a termo.

Passo 4

Consulta
Um sistema IR é iniciado ao inserir uma consulta. As consultas do usuário podem ser declarações formais ou informais, destacando quais informações são necessárias. Em sistemas IR, uma consulta não é indicativa de um único objeto no sistema de banco de dados. Ele pode se referir a vários objetos que correspondam à consulta. No entanto, seus graus de relevância podem variar.

Diferença entre recuperação de informações e recuperação de dados

Os sistemas de recuperação de dados recuperam diretamente os dados de sistemas de gerenciamento de banco de dados, como ODBMS, identificando palavras-chave nas consultas fornecidas pelos usuários e combinando-as com os documentos no banco de dados.

Já o sistema de Recuperação de Informação em SGBD é um conjunto de algoritmos ou programas que envolvem armazenamento, recuperação, avaliação de documentos e representações de consultas, especialmente baseadas em texto, para exibir resultados baseados em similaridade.

S.No Recuperação de informação Recuperação de dados
1 Recupera informações com base na semelhança entre a consulta e o documento. Recupera dados com base nas palavras-chave na consulta inserida pelo usuário.
2 Pequenos erros são tolerados e provavelmente passarão despercebidos. Não há espaço para erros, pois isso resulta em falha completa do sistema.
3 É ambíguo e não tem uma estrutura definida. Tem uma estrutura definida no que diz respeito à semântica.
4 Não fornece uma solução para o usuário do sistema de banco de dados. Fornece soluções ao usuário do sistema de banco de dados.
5 O sistema de recuperação de informações produz resultados aproximados O sistema de recuperação de dados produz resultados exatos.
6 Os resultados exibidos são classificados por relevância Os resultados exibidos não são classificados por relevância.
7 O modelo IR é probabilístico por natureza. O modelo de recuperação de dados é determinístico por natureza.

Conclusão

Isso nos leva ao final do artigo. Esperamos que você tenha achado as informações úteis. Se você está procurando mais conhecimento sobre os conceitos de Data Science, você deve conferir o 1º Programa PG Executivo certificado pela NASSCOM da Índia em Data Science do IITB no upGrad.

Quais são as aplicações do Sistema de Recuperação de Informação?

O Sistema de Recuperação de Informações define o relacionamento entre objetos de dados e consultas de recuperação. Esses documentos são priorizados para as consultas de pesquisa do usuário e as melhores correspondências recebem a prioridade mais alta.
O Sistema de Recuperação de Informações é o mecanismo de condução de muitas aplicações da vida real, como:
1. As bibliotecas digitais utilizam este sistema para classificar e localizar os livros de acordo com o nome, gênero ou nome do autor solicitados.
2. Os mecanismos de pesquisa, como a pesquisa do Google, usam esse mecanismo para fornecer resultados de pesquisa precisos e mais rápidos, combinando e priorizando os documentos.
3. Outras plataformas de pesquisa, como pesquisa móvel, pesquisa de arquivos na área de trabalho e pesquisa no navegador, também são executadas nessa técnica.
4. Aplicativos como aplicativos de streaming de música, aplicativos de streaming de vídeo e bibliotecas de imagens usam as operações de recuperação de informações para classificar os resultados da pesquisa.

Qual é a diferença entre recuperação de informações e recuperação de dados?

O seguinte ilustra as diferenças entre a recuperação de informações e a recuperação de dados:
Recuperação de informações - A recuperação de informações lida com as operações como recuperação de informações, armazenamento e avaliação dos dados. Pequenos erros são negligenciados. É um exemplo de modelo probabilístico. Os resultados finais não são exatos e são uma aproximação. O usuário do banco de dados não obtém os resultados.
Recuperação de dados - Recuperar os dados do banco de dados é chamado de recuperação de dados. A recuperação de dados inclui identificar e coletar os dados do banco de dados. Mesmo um único erro pode falhar no sistema. É um exemplo de um modelo determinístico. Os resultados finais são os resultados exatos. O usuário do banco de dados obtém todos os resultados. O sistema de recuperação de dados é bem estruturado.

Definir a interação do usuário com o sistema de RI?

No sistema de recuperação de informações ou sistema IR, o usuário primeiro traduz as informações em uma consulta. O sistema IR contém um determinado conjunto de palavras que define a lógica para lidar com a informação.
Anteriormente, os documentos eram representados por meio de algumas palavras-chave ou um conjunto de índices. Mas foi modernizado e os documentos são mostrados com todo o conjunto de palavras-chave. Isso pode ser feito com as operações de texto onde o artigo ou conectivos são removidos/eliminados. Esse método também reduz a complexidade do documento.