Explicación del sistema de recuperación de información: tipos, comparación y componentes

Publicado: 2021-03-10

Un sistema de recuperación de información (IR) es un conjunto de algoritmos que facilitan la relevancia de los documentos mostrados para las consultas buscadas. En palabras simples, funciona para ordenar y clasificar documentos en función de las consultas de un usuario. Hay uniformidad con respecto a la consulta y el texto en el documento para permitir la accesibilidad del documento.

Esto también permite que una función de coincidencia se use de manera efectiva para clasificar un documento formalmente usando su valor de estado de recuperación (RSV). Los contenidos del documento están representados por una colección de descriptores, conocidos como términos, que pertenecen a un vocabulario V. Un sistema IR también extrae información sobre la usabilidad de los resultados mostrados mediante el seguimiento del comportamiento del usuario.

Cuando hablamos de motores de búsqueda, nos referimos a Google, Yahoo y Bing entre los motores de búsqueda generales. Otros motores de búsqueda incluyen DBLP y Google Scholar.

En este artículo, veremos los diferentes tipos de modelos IR, los componentes involucrados y las técnicas utilizadas en la recuperación de información para comprender el mecanismo detrás de los motores de búsqueda que muestran los resultados.

Lea también: Salario del científico de datos en India

Tabla de contenido

Tipos de modelo de recuperación de información

Una recuperación de información se compone de los siguientes cuatro elementos clave:

  1. D − Representación de documentos.
  2. Q - Representación de consultas.
  3. F − Un marco para emparejar y establecer una relación entre D y Q.
  4. R (q, di) − Una función de clasificación que determina la similitud entre la consulta y el documento para mostrar información relevante.

Hay tres tipos de modelos de recuperación de información (IR):

1. Modelo IR clásico : está diseñado sobre conceptos matemáticos básicos y es el modelo IR más utilizado. Los modelos clásicos de recuperación de información se pueden implementar con facilidad. Sus ejemplos incluyen modelos IR de espacio vectorial, booleanos y probabilísticos. En este sistema, la recuperación de información depende de los documentos que contienen el conjunto definido de consultas. No hay clasificación o calificación de ningún tipo. Los diferentes modelos clásicos de IR tienen en cuenta la representación de documentos, la representación de consultas y la función de recuperación/coincidencia en su modelado.

2. Modelo IR no clásico : se diferencian de los modelos clásicos en que se basan en la lógica proposicional. Los ejemplos de modelos IR no clásicos incluyen la lógica de la información, la teoría de la situación y los modelos de interacción.

3. Modelo IR alternativo : toman los principios del modelo IR clásico y los mejoran para crear modelos más funcionales como el modelo de clúster, el modelo de conjuntos teóricos alternativos, el modelo de conjuntos borrosos, el modelo de indexación semántica latente (LSI), el modelo de espacio vectorial generalizado de modelos algebraicos alternativos. , etc

Comprendamos con más detalle los modelos IR clásicos basados ​​en la similitud más adoptados:

1. Modelo booleano : este modelo requería que la información se tradujera en una expresión booleana y consultas booleanas. Este último se utiliza para determinar la información necesaria para poder proporcionar la coincidencia correcta cuando se determina que la expresión booleana es verdadera. Utiliza operaciones booleanas AND, OR, NOT para crear una combinación de varios términos en función de lo que pregunta el usuario.

2. Modelo de espacio vectorial : este modelo toma documentos y consultas indicados como vectores y recupera documentos según su similitud. Esto puede dar como resultado dos tipos de vectores que luego se utilizan para clasificar los resultados de búsqueda, ya sea

  • Binario en VSM booleano.
  • Ponderado en VSM no binario.

3. Modelo de distribución de probabilidad : en este modelo, los documentos se consideran distribuciones de términos y las consultas se comparan en función de la similitud de estas representaciones. Esto es posible utilizando la entropía o calculando la utilidad probable del documento. Son si dos tipos:

  • Modelo de distribución de probabilidad basado en similitud
  • Modelo de distribución de probabilidad basado en la utilidad esperada

4. Modelos probabilísticos: el modelo probabilístico es bastante simple y toma la clasificación de probabilidad para mostrar los resultados. En pocas palabras, los documentos se clasifican en función de la probabilidad de su relevancia para una consulta buscada.

Pago: ciencia de datos vs análisis de datos

Componentes del modelo de recuperación de información

Estos son los requisitos previos para un modelo IR:

  1. Un sistema de indexación automatizado o manual que se utiliza para indexar y buscar técnicas y procedimientos.
  2. Una colección de documentos en cualquiera de los siguientes formatos: texto, imagen o multimedia.
  3. Un conjunto de consultas que sirven como entrada a un sistema, a través de un humano o una máquina.
  4. Una métrica de evaluación para medir o evaluar la efectividad de un sistema (por ejemplo, precisión y recuperación). Por ejemplo, para garantizar la utilidad de la información que se muestra al usuario.

Los diversos componentes de un modelo de recuperación de información incluyen:

Paso 1

Adquisición
El sistema IR obtiene documentos e información multimedia de una variedad de recursos web. Estos datos son compilados por rastreadores web y se envían a sistemas de almacenamiento de bases de datos.

Paso 2

Representación
Los términos de texto libre se indexan y el vocabulario se ordena, tanto mediante procedimientos automáticos como manuales. Por ejemplo, un resumen de un documento contendrá un resumen, meta descripción, bibliografía y detalles de los autores o coautores.

Paso 3

Organización de archivos
La organización de archivos se lleva a cabo en uno de dos métodos, secuencial o invertido. La organización de archivos secuenciales implica datos contenidos en el documento. El archivo Invertido comprende una lista de registros, en forma de término por término.

Etapa 4

Consulta
Un sistema IR se inicia al ingresar una consulta. Las consultas de los usuarios pueden ser declaraciones formales o informales que destaquen qué información se requiere. En los sistemas IR, una consulta no es indicativa de un solo objeto en el sistema de base de datos. Podría referirse a varios objetos que coincidan con la consulta. Sin embargo, sus grados de relevancia pueden variar.

Diferencia entre recuperación de información y recuperación de datos

Los sistemas de recuperación de datos recuperan datos directamente de los sistemas de administración de bases de datos como ODBMS identificando palabras clave en las consultas proporcionadas por los usuarios y comparándolas con los documentos en la base de datos.

Mientras que el sistema de recuperación de información en DBMS es un conjunto de algoritmos o programas que implican el almacenamiento, la recuperación, la evaluación de representaciones de documentos y consultas, especialmente basadas en texto, para mostrar resultados en función de la similitud.

S.No Recuperación de información Recuperación de datos
1 Recupera información basada en la similitud entre la consulta y el documento. Recupera datos basados ​​en las palabras clave de la consulta ingresada por el usuario.
2 Se toleran pequeños errores y es probable que pasen desapercibidos. No hay lugar para errores ya que resulta en una falla completa del sistema.
3 Es ambiguo y no tiene una estructura definida. Tiene una estructura definida con respecto a la semántica.
4 No proporciona una solución al usuario del sistema de base de datos. Proporciona soluciones al usuario del sistema de base de datos.
5 El sistema de recuperación de información produce resultados aproximados El sistema de recuperación de datos produce resultados exactos.
6 Los resultados mostrados se ordenan por relevancia Los resultados mostrados no están ordenados por relevancia.
7 El modelo IR es probabilístico por naturaleza. El modelo de recuperación de datos es determinista por naturaleza.

Conclusión

Esto nos lleva al final del artículo. Esperamos que haya encontrado útil la información. Si está buscando más conocimientos sobre conceptos de ciencia de datos, debe consultar el primer programa de PG ejecutivo certificado por NASSCOM de la India en ciencia de datos de IITB en upGrad.

¿Cuáles son las aplicaciones del Sistema de Recuperación de Información?

El Sistema de Recuperación de Información establece la relación entre los objetos de datos y las consultas de recuperación. Estos documentos tienen prioridad para las consultas de búsqueda del usuario y las mejores coincidencias tienen la máxima prioridad.
El Sistema de recuperación de información es el mecanismo impulsor de muchas aplicaciones de la vida real, tales como:
1. Las bibliotecas digitales utilizan este sistema para ordenar y encontrar los libros según el nombre, el género o el nombre del autor solicitados.
2. Los motores de búsqueda como la búsqueda de Google utilizan este mecanismo para proporcionar resultados de búsqueda precisos y más rápidos al hacer coincidir y priorizar los documentos.
3. Otras plataformas de búsqueda, como la búsqueda móvil, la búsqueda de archivos de escritorio y la búsqueda del navegador, también funcionan con esta técnica.
4. Aplicaciones tales como aplicaciones de transmisión de música, aplicaciones de transmisión de video y bibliotecas de imágenes utilizan las operaciones de recuperación de información para clasificar los resultados de búsqueda.

¿Cuál es la diferencia entre recuperación de información y recuperación de datos?

A continuación se ilustran las diferencias entre la recuperación de información y la recuperación de datos:
Recuperación de información: la recuperación de información se ocupa de las operaciones como la recuperación de información, el almacenamiento y la evaluación de los datos. Se desprecian los pequeños errores. Es un ejemplo de un modelo probabilístico. Los resultados finales no son exactos y son una aproximación. El usuario de la base de datos no obtiene los resultados.
Recuperación de datos : la recuperación de datos de la base de datos se denomina recuperación de datos. La recuperación de datos incluye identificar y recopilar los datos de la base de datos. Incluso un solo error puede fallar en el sistema. Es un ejemplo de un modelo determinista. Los resultados finales son los resultados exactos. El usuario de la base de datos obtiene todos los resultados. El sistema de recuperación de datos está bien estructurado.

¿Define la interacción del usuario con el sistema IR?

En el Sistema de recuperación de información o sistema IR, el usuario primero traduce la información en una consulta. El sistema IR contiene un determinado conjunto de palabras que define la lógica para tratar la información.
Anteriormente, los documentos se representaban a través de algunas palabras clave o un conjunto de índices. Pero se ha modernizado y los documentos se muestran con todo el conjunto de palabras clave. Esto se puede hacer con las operaciones de texto donde se quitan/eliminan el artículo o los conectores. Este método también reduce la complejidad del documento.