信息检索系统解释:类型、比较和组件

已发表: 2021-03-10

信息检索 (IR) 系统是一组有助于显示文档与搜索查询的相关性的算法。 简而言之,它可以根据用户的查询对文档进行排序和排名。 文档中的查询和文本具有一致性,以实现文档可访问性。

这也允许有效地使用匹配函数来使用它们的检索状态值 (RSV) 对文档进行正式排名。 文档内容由属于词汇表 V 的称为术语的描述符集合表示。IR 系统还通过跟踪用户的行为来提取有关显示结果的可用性的反馈。

当我们谈到搜索引擎时,我们指的是一般搜索引擎中的 Google、Yahoo 和 Bing 之类的。 其他搜索引擎包括 DBLP 和 Google Scholar。

在本文中,我们将研究不同类型的 IR 模型、所涉及的组件以及信息检索中使用的技术,以了解搜索引擎显示结果背后的机制。

另请阅读:印度数据科学家的薪水

目录

信息检索模型的类型

信息检索包括以下四个关键要素:

  1. D - 文件表示。
  2. Q - 查询表示。
  3. F - 匹配和建立 D 和 Q 之间关系的框架。
  4. R (q, di) - 确定查询与文档之间的相似性以显示相关信息的排名函数。

信息检索 (IR) 模型分为三种类型:

1. 经典 IR 模型——它是根据基本数学概念设计的,是应用最广泛的 IR 模型。 经典信息检索模型可以轻松实现。 它的示例包括向量空间、布尔和概率 IR 模型。 在这个系统中,信息的检索依赖于包含定义的查询集的文档。 没有任何排名或等级。 不同的经典 IR 模型在其建模中考虑了文档表示、查询表示和检索/匹配功能。

2. 非经典 IR 模型——它们与经典模型的不同之处在于它们建立在命题逻辑之上。 非经典 IR 模型的示例包括信息逻辑、情境理论和交互模型。

3. 替代 IR 模型- 这些采用经典 IR 模型的原则并增强以创建更多功能模型,如集群模型、替代集理论模型模糊集模型、潜在语义索引 (LSI) 模型、替代代数模型广义向量空间模型, 等等。

让我们更详细地了解最常用的基于相似性的经典 IR 模型:

1. 布尔模型——该模型需要将信息转换为布尔表达式和布尔查询。 后者用于确定在发现布尔表达式为真时能够提供正确匹配所需的信息。 它使用布尔运算 AND、OR、NOT 根据用户的要求创建多个术语的组合。

2. 向量空间模型——该模型将文档和查询表示为向量,并根据它们的相似程度检索文档。 这可能会产生两种类型的向量,然后用于对搜索结果进行排名

  • 布尔 VSM 中的二进制。
  • 在非二进制 VSM 中加权。

3. 概率分布模型——在这个模型中,文档被认为是术语的分布,查询基于这些表示的相似性进行匹配。 这可以使用熵或通过计算文档的可能效用来实现。 它们是两种类型:

  • 基于相似性的概率分布模型
  • 基于期望效用的概率分布模型

4. 概率模型——概率模型相当简单,采用概率排序来显示结果。 简而言之,文档是根据它们与搜索查询的相关性的概率进行排名的。

结帐:数据科学与数据分析

信息检索模型的组成部分

以下是 IR 模型的先决条件:

  1. 一种自动或手动操作的索引系统,用于索引和搜索技术和程序。
  2. 以下任何一种格式的文档集合:文本、图像或多媒体。
  3. 通过人或机器作为系统输入的一组查询。
  4. 衡量或评估系统有效性的评估指标(例如,精确度和召回率)。 例如,确保向用户显示的信息有多么有用。

信息检索模型的各个组成部分包括:

第1步

获得
IR 系统从各种网络资源中获取文档和多媒体信息。 这些数据由网络爬虫编译并发送到数据库存储系统。

第2步

表示
使用自动或手动程序对自由文本术语进行索引,并对词汇表进行排序。 例如,文档摘要将包含摘要、元描述、参考书目以及作者或合著者的详细信息。

第 3 步

文件组织
文件组织以两种方法之一进行,顺序或倒置。 顺序文件组织涉及文档中包含的数据。 倒排文件以逐项方式包含记录列表。

第四步

询问
IR 系统在输入查询时启动。 用户查询可以是正式或非正式的陈述,强调需要哪些信息。 在 IR 系统中,查询并不表示数据库系统中的单个对象。 它可以引用与查询匹配的多个对象。 但是,它们的相关程度可能会有所不同。

信息检索和数据检索之间的区别

数据检索系统通过识别用户提供的查询中的关键字并将它们与数据库中的文档进行匹配,直接从数据库管理系统(如 ODBMS)中检索数据。

而 DBMS 中的信息检索系统是一组算法或程序,这些算法或程序涉及存储、检索、评估文档和查询表示,尤其是基于文本的,以基于相似性显示结果。

编号信息检索数据检索
1 根据查询和文档之间的相似性检索信息。 根据用户输入的查询中的关键字检索数据。
2 小错误是可以容忍的,并且很可能会被忽视。 没有错误的余地,因为它会导致完全的系统故障。
3 它是模棱两可的,没有定义的结构。 它具有关于语义的定义结构。
4 不向数据库系统的用户提供解决方案。 为数据库系统的用户提供解决方案。
5 信息检索系统产生近似结果数据检索系统产生准确的结果。
6 显示的结果按相关性排序显示的结果不按相关性排序。
7 IR 模型本质上是概率性的。 数据检索模型本质上是确定性的。

结论

这将我们带到了文章的结尾。 我们希望这些信息对您有所帮助。 如果您正在寻找有关数据科学概念的更多知识,您应该查看来自 IITB on upGrad的印度第一个 NASSCOM 认证的数据科学执行 PG 计划

信息检索系统有哪些应用?

信息检索系统设置数据对象和检索查询之间的关系。 这些文档优先于用户搜索查询,并且最佳匹配具有最高优先级。
信息检索系统是许多实际应用程序的驱动机制,例如:
1. 数字图书馆使用该系统根据请求的名称、类型或作者姓名对图书进行分类和查找。
2. 像谷歌搜索这样的搜索引擎使用这种机制通过匹配和优先排序文档来提供准确和更快的搜索结果。
3. 其他搜索平台,如移动搜索、桌面文件搜索和浏览器搜索也运行在此技术上。
4. 音乐流应用、视频流应用和图像库等应用程序使用信息检索操作对结果进行搜索排名。

信息检索和数据检索有什么区别?

下面说明信息检索和数据检索之间的区别:
信息检索- 信息检索处理信息检索、存储和数据评估等操作。 忽略小错误。 这是一个概率模型的例子。 最终结果并不准确,只是一个近似值。 数据库用户没有得到结果。
数据检索- 从数据库中检索数据称为数据检索。 数据检索包括从数据库中识别和收集数据。 即使是一个错误也可能导致系统失败。 这是确定性模型的一个例子。 最终结果是准确的结果。 数据库用户获得所有结果。 数据检索系统结构良好。

定义用户与 IR 系统的交互?

在信息检索系统或 IR 系统中,用户首先将信息翻译成查询。 IR 系统包含一组特定的词,这些词定义了处理信息的逻辑。
早些时候,文档是通过一些关键字或一组索引来表示的。 但它已经过现代化改造,文档以整套关键字显示。 这可以通过删除/消除文章或连接词的文本操作来完成。 这种方法也降低了文档的复杂性。