説明された情報検索システム:タイプ、比較およびコンポーネント
公開: 2021-03-10情報検索(IR)システムは、表示されたドキュメントと検索されたクエリとの関連性を促進する一連のアルゴリズムです。 簡単に言えば、ユーザーのクエリに基づいてドキュメントを並べ替えてランク付けするために機能します。 ドキュメントのアクセシビリティを可能にするために、ドキュメント内のクエリとテキストに関して統一性があります。
これにより、マッチング機能を効果的に使用して、検索ステータス値(RSV)を使用してドキュメントを正式にランク付けすることもできます。 ドキュメントの内容は、語彙Vに属する用語と呼ばれる記述子のコレクションによって表されます。IRシステムは、ユーザーの行動を追跡することにより、表示された結果のユーザビリティに関するフィードバックも抽出します。
私たちが検索エンジンについて話すとき、私たちは一般的な検索エンジンの中でグーグル、ヤフー、そしてビングのようなものを意味します。 他の検索エンジンには、DBLPとGoogleScholarが含まれます。
この記事では、さまざまなタイプのIRモデル、関連するコンポーネント、および検索エンジンが結果を表示する背後にあるメカニズムを理解するために情報検索で使用される手法について説明します。
また読む:インドのデータサイエンティスト給与
目次
情報検索モデルの種類
情報検索は、次の4つの重要な要素で構成されています。
- D-ドキュメント表現。
- Q-クエリ表現。
- F −DとQの間の関係を一致させて確立するためのフレームワーク。
- R (q、di)-関連情報を表示するためにクエリとドキュメントの類似性を判断するランキング関数。
情報検索(IR)モデルには次の3つのタイプがあります。
1.古典的なIRモデル—基本的な数学的概念に基づいて設計されており、最も広く使用されているIRモデルです。 従来の情報検索モデルは簡単に実装できます。 その例には、ベクトル空間、ブールおよび確率的IRモデルが含まれます。 このシステムでは、情報の取得は、定義された一連のクエリを含むドキュメントに依存します。 いかなる種類のランキングや格付けもありません。 さまざまな従来のIRモデルは、モデリングでドキュメント表現、クエリ表現、および取得/マッチング機能を考慮に入れています。
2.非古典的IRモデル—命題論理に基づいて構築されているという点で、古典的モデルとは異なります。 非古典的なIRモデルの例には、情報論理、状況理論、および相互作用モデルが含まれます。
3.代替IRモデル—これらは古典的なIRモデルの原則を採用し、クラスターモデル、代替集合論モデルファジー集合モデル、潜在的セマンティックインデックス(LSI)モデル、代替代数モデル一般化ベクトル空間モデルなどのより機能的なモデルを作成するために拡張されます、など。
最も採用されている類似性ベースの古典的なIRモデルをさらに詳しく理解しましょう。
1.ブールモデル—このモデルでは、情報をブール式とブールクエリに変換する必要がありました。 後者は、ブール式が真であることが判明したときに正しい一致を提供できるようにするために必要な情報を決定するために使用されます。 ブール演算AND、OR、NOTを使用して、ユーザーの要求に基づいて複数の用語の組み合わせを作成します。
2.ベクトル空間モデル—このモデルは、ベクトルとして示されるドキュメントとクエリを取得し、それらがどの程度類似しているかに応じてドキュメントを取得します。 これにより、2種類のベクトルが生成され、検索結果のランク付けに使用されます。
- ブールVSMのバイナリ。
- 非バイナリVSMで重み付けされています。
3.確率分布モデル—このモデルでは、ドキュメントは用語の分布と見なされ、クエリはこれらの表現の類似性に基づいて照合されます。 これは、エントロピーを使用するか、ドキュメントの可能性のある効用を計算することによって可能になります。 それらは2つのタイプの場合です:
- 類似性ベースの確率分布モデル
- 期待効用ベースの確率分布モデル
4.確率モデル—確率モデルはかなり単純で、結果を表示するために確率ランキングを取ります。 簡単に言うと、ドキュメントは、検索されたクエリとの関連性の確率に基づいてランク付けされます。
チェックアウト:データサイエンスとデータ分析
情報検索モデルのコンポーネント
IRモデルの前提条件は次のとおりです。
- 技術と手順の索引付けと検索に使用される自動または手動操作の索引付けシステム。
- テキスト、画像、マルチメディアのいずれかの形式のドキュメントのコレクション。
- 人間または機械を介して、システムへの入力として機能する一連のクエリ。
- システムの有効性(適合率や再現率など)を測定または評価するための評価指標。 たとえば、ユーザーに表示される情報がどれほど有用であるかを確認するため。
情報検索モデルのさまざまなコンポーネントには、次のものがあります。
ステップ1
取得 |
IRシステムは、さまざまなWebリソースからドキュメントとマルチメディア情報を調達します。 このデータはWebクローラーによってコンパイルされ、データベースストレージシステムに送信されます。 |
ステップ2
表現 |
フリーテキストの用語は索引付けされ、語彙は自動または手動の両方の手順を使用してソートされます。 たとえば、ドキュメントの要約には、要約、メタ説明、参考文献、および著者または共著者の詳細が含まれます。 |
ステップ3
ファイル編成 |
ファイルの整理は、シーケンシャルまたはインバーテッドの2つの方法のいずれかで実行されます。 シーケンシャルファイル編成には、ドキュメントに含まれるデータが含まれます。 転置ファイルは、用語ごとのレコードのリストで構成されます。 |
ステップ4
クエリ |
クエリを入力すると、IRシステムが開始されます。 ユーザークエリは、必要な情報を強調する公式または非公式のステートメントのいずれかです。 IRシステムでは、クエリはデータベースシステム内の単一のオブジェクトを示すものではありません。 クエリに一致する複数のオブジェクトを参照できます。 ただし、それらの関連性の程度は異なる場合があります。 |
情報検索とデータ検索の違い
データ取得システムは、ユーザーが提供するクエリでキーワードを識別し、それらをデータベース内のドキュメントと照合することにより、ODBMSなどのデータベース管理システムからデータを直接取得します。
一方、DBMSの情報検索システムは、類似性に基づいて結果を表示するために、ドキュメントおよびクエリ表現の保存、取得、評価、特にテキストベースを含む一連のアルゴリズムまたはプログラムです。
S.No | 情報検索 | データ検索 |
1 | クエリとドキュメントの類似性に基づいて情報を取得します。 | ユーザーが入力したクエリのキーワードに基づいてデータを取得します。 |
2 | 小さなエラーは許容され、見過ごされる可能性があります。 | 完全なシステム障害が発生するため、エラーの余地はありません。 |
3 | あいまいで、構造が定義されていません。 | セマンティクスに関して定義された構造を持っています。 |
4 | データベースシステムのユーザーに解決策を提供しません。 | データベースシステムのユーザーにソリューションを提供します。 |
5 | 情報検索システムはおおよその結果を生成します | データ取得システムは正確な結果を生成します。 |
6 | 表示される結果は関連性でソートされます | 表示される結果は、関連性でソートされていません。 |
7 | IRモデルは本質的に確率論的です。 | データ取得モデルは本質的に決定論的です。 |
結論
これで記事は終わりです。 この情報がお役に立てば幸いです。 データサイエンスの概念に関する知識をさらに探している場合は、upGradのIITBからのデータサイエンスにおけるインド初のNASSCOM認定エグゼクティブPGプログラムを確認する必要があります。
情報検索システムは、データオブジェクトと検索クエリの間の関係を設定します。 これらのドキュメントはユーザー検索クエリに優先され、最も一致するものが最も優先されます。 以下に、情報検索とデータ検索の違いを示します。 情報検索システムまたはIRシステムでは、ユーザーは最初に情報をクエリに変換します。 IRシステムには、情報を処理するためのロジックを定義する特定の単語セットが含まれています。情報検索システムの用途は何ですか?
情報検索システムは、次のような多くの実際のアプリケーションの駆動メカニズムです。
1.デジタルライブラリは、このシステムを使用して、要求された名前、ジャンル、または著者名に従って本を並べ替えて検索します。
2. Google検索などの検索エンジンは、このメカニズムを使用して、ドキュメントを照合して優先順位を付けることにより、正確で高速な検索結果を提供します。
3.モバイル検索、デスクトップファイル検索、ブラウザ検索などの他の検索プラットフォームもこの手法で実行されます。
4.音楽ストリーミングアプリ、ビデオストリーミングアプリ、画像ライブラリなどのアプリケーションは、情報検索操作を使用して結果を検索ランク付けします。 情報検索とデータ検索の違いは何ですか?
情報検索-情報検索は、情報の取得、保存、データの評価などの操作を扱います。 小さなエラーは無視されます。 これは確率モデルの例です。 最終結果は正確ではなく、概算です。 データベースユーザーは結果を取得しません。
データ取得-データベースからデータを取得することをデータ取得と呼びます。 データの取得には、データベースからのデータの識別と収集が含まれます。 1つのエラーでも、システムに障害が発生する可能性があります。 これは決定論的モデルの例です。 最終結果は正確な結果です。 データベースユーザーはすべての結果を取得します。 データ検索システムはよく構成されています。 IRシステムとのユーザーインタラクションを定義しますか?
以前は、ドキュメントはいくつかのキーワードまたは一連のインデックスによって表されていました。 しかし、それは近代化されており、ドキュメントはキーワードのセット全体で表示されます。 これは、記事または接続詞が削除/削除されるテキスト操作で実行できます。 この方法により、ドキュメントの複雑さも軽減されます。