信息檢索系統解釋:類型、比較和組件

已發表: 2021-03-10

信息檢索 (IR) 系統是一組有助於顯示文檔與搜索查詢的相關性的算法。 簡而言之,它可以根據用戶的查詢對文檔進行排序和排名。 文檔中的查詢和文本具有一致性,以實現文檔可訪問性。

這也允許有效地使用匹配函數來使用它們的檢索狀態值 (RSV) 對文檔進行正式排名。 文檔內容由屬於詞彙表 V 的稱為術語的描述符集合表示。IR 系統還通過跟踪用戶的行為來提取有關顯示結果的可用性的反饋。

當我們談到搜索引擎時,我們指的是一般搜索引擎中的 Google、Yahoo 和 Bing 之類的。 其他搜索引擎包括 DBLP 和 Google Scholar。

在本文中,我們將研究不同類型的 IR 模型、所涉及的組件以及信息檢索中使用的技術,以了解搜索引擎顯示結果背後的機制。

另請閱讀:印度數據科學家的薪水

目錄

信息檢索模型的類型

信息檢索包括以下四個關鍵要素:

  1. D - 文件表示。
  2. Q - 查詢表示。
  3. F - 匹配和建立 D 和 Q 之間關係的框架。
  4. R (q, di) - 確定查詢與文檔之間的相似性以顯示相關信息的排名函數。

信息檢索 (IR) 模型分為三種類型:

1. 經典 IR 模型——它是根據基本數學概念設計的,是應用最廣泛的 IR 模型。 經典信息檢索模型可以輕鬆實現。 它的示例包括向量空間、布爾和概率 IR 模型。 在這個系統中,信息的檢索依賴於包含定義的查詢集的文檔。 沒有任何排名或等級。 不同的經典 IR 模型在其建模中考慮了文檔表示、查詢表示和檢索/匹配功能。

2. 非經典 IR 模型——它們與經典模型的不同之處在於它們建立在命題邏輯之上。 非經典 IR 模型的示例包括信息邏輯、情境理論和交互模型。

3. 替代 IR 模型- 這些採用經典 IR 模型的原則並增強以創建更多功能模型,如集群模型、替代集理論模型模糊集模型、潛在語義索引 (LSI) 模型、替代代數模型廣義向量空間模型, 等等。

讓我們更詳細地了解最常用的基於相似性的經典 IR 模型:

1. 布爾模型——該模型需要將信息轉換為布爾表達式和布爾查詢。 後者用於確定在發現布爾表達式為真時能夠提供正確匹配所需的信息。 它使用布爾運算 AND、OR、NOT 根據用戶的要求創建多個術語的組合。

2. 向量空間模型——該模型將文檔和查詢表示為向量,並根據它們的相似程度檢索文檔。 這可能會產生兩種類型的向量,然後用於對搜索結果進行排名

  • 布爾 VSM 中的二進制。
  • 在非二進制 VSM 中加權。

3. 概率分佈模型——在這個模型中,文檔被認為是術語的分佈,查詢基於這些表示的相似性進行匹配。 這可以使用熵或通過計算文檔的可能效用來實現。 它們是兩種類型:

  • 基於相似性的概率分佈模型
  • 基於期望效用的概率分佈模型

4. 概率模型——概率模型相當簡單,採用概率排序來顯示結果。 簡而言之,文檔是根據它們與搜索查詢的相關性的概率進行排名的。

結帳:數據科學與數據分析

信息檢索模型的組成部分

以下是 IR 模型的先決條件:

  1. 一種自動或手動操作的索引系統,用於索引和搜索技術和程序。
  2. 以下任何一種格式的文檔集合:文本、圖像或多媒體。
  3. 通過人或機器作為系統輸入的一組查詢。
  4. 衡量或評估系統有效性的評估指標(例如,精確度和召回率)。 例如,確保向用戶顯示的信息有多麼有用。

信息檢索模型的各個組成部分包括:

第1步

獲得
IR 系統從各種網絡資源中獲取文檔和多媒體信息。 這些數據由網絡爬蟲編譯並發送到數據庫存儲系統。

第2步

表示
使用自動或手動程序對自由文本術語進行索引,並對詞彙表進行排序。 例如,文檔摘要將包含摘要、元描述、參考書目以及作者或合著者的詳細信息。

第 3 步

文件組織
文件組織以兩種方法之一進行,順序或倒置。 順序文件組織涉及文檔中包含的數據。 倒排文件以逐項方式包含記錄列表。

第四步

詢問
IR 系統在輸入查詢時啟動。 用戶查詢可以是正式或非正式的陳述,強調需要哪些信息。 在 IR 系統中,查詢並不表示數據庫系統中的單個對象。 它可以引用與查詢匹配的多個對象。 但是,它們的相關程度可能會有所不同。

信息檢索和數據檢索之間的區別

數據檢索系統通過識別用戶提供的查詢中的關鍵字並將它們與數據庫中的文檔進行匹配,直接從數據庫管理系統(如 ODBMS)中檢索數據。

而 DBMS 中的信息檢索系統是一組算法或程序,這些算法或程序涉及存儲、檢索、評估文檔和查詢表示,尤其是基於文本的,以基於相似性顯示結果。

編號信息檢索數據檢索
1 根據查詢和文檔之間的相似性檢索信息。 根據用戶輸入的查詢中的關鍵字檢索數據。
2 小錯誤是可以容忍的,並且很可能會被忽視。 沒有錯誤的餘地,因為它會導致完全的系統故障。
3 它是模棱兩可的,沒有定義的結構。 它具有關於語義的定義結構。
4 不向數據庫系統的用戶提供解決方案。 為數據庫系統的用戶提供解決方案。
5 信息檢索系統產生近似結果數據檢索系統產生準確的結果。
6 顯示的結果按相關性排序顯示的結果不按相關性排序。
7 IR 模型本質上是概率性的。 數據檢索模型本質上是確定性的。

結論

這將我們帶到了文章的結尾。 我們希望這些信息對您有所幫助。 如果您正在尋找有關數據科學概念的更多知識,您應該查看來自 IITB on upGrad的印度第一個 NASSCOM 認證的數據科學執行 PG 計劃

信息檢索系統有哪些應用?

信息檢索系統設置數據對象和檢索查詢之間的關係。 這些文檔優先於用戶搜索查詢,並且最佳匹配具有最高優先級。
信息檢索系統是許多實際應用程序的驅動機制,例如:
1. 數字圖書館使用該系統根據請求的名稱、類型或作者姓名對圖書進行分類和查找。
2. 像谷歌搜索這樣的搜索引擎使用這種機制通過匹配和優先排序文檔來提供準確和更快的搜索結果。
3. 其他搜索平台,如移動搜索、桌面文件搜索和瀏覽器搜索也運行在此技術上。
4. 音樂流應用、視頻流應用和圖像庫等應用程序使用信息檢索操作對結果進行搜索排名。

信息檢索和數據檢索有什麼區別?

下面說明信息檢索和數據檢索之間的區別:
信息檢索- 信息檢索處理信息檢索、存儲和數據評估等操作。 忽略小錯誤。 這是一個概率模型的例子。 最終結果並不准確,只是一個近似值。 數據庫用戶沒有得到結果。
數據檢索- 從數據庫中檢索數據稱為數據檢索。 數據檢索包括從數據庫中識別和收集數據。 即使是一個錯誤也可能導致系統失敗。 這是確定性模型的一個例子。 最終結果是準確的結果。 數據庫用戶獲得所有結果。 數據檢索系統結構良好。

定義用戶與 IR 系統的交互?

在信息檢索系統或 IR 系統中,用戶首先將信息翻譯成查詢。 IR 系統包含一組特定的詞,這些詞定義了處理信息的邏輯。
早些時候,文檔是通過一些關鍵字或一組索引來表示的。 但它已經過現代化改造,文檔以整套關鍵字顯示。 這可以通過刪除/消除文章或連接詞的文本操作來完成。 這種方法也降低了文檔的複雜性。