정보 검색 시스템 설명: 유형, 비교 및 구성 요소

게시 됨: 2021-03-10

정보 검색(IR) 시스템은 검색된 쿼리에 대해 표시된 문서의 관련성을 용이하게 하는 일련의 알고리즘입니다. 간단히 말해서 사용자의 쿼리를 기반으로 문서를 정렬하고 순위를 매기는 역할을 합니다. 문서 접근성을 가능하게 하기 위해 문서의 쿼리 및 텍스트에 대한 균일성이 있습니다.

이것은 또한 검색 상태 값(RSV)을 사용하여 공식적으로 문서의 순위를 지정하는 데 일치 기능을 효과적으로 사용할 수 있도록 합니다. 문서 내용은 어휘 V에 속하는 용어로 알려진 설명자의 모음으로 표시됩니다. IR 시스템은 또한 사용자의 행동을 추적하여 표시된 결과의 유용성에 대한 피드백을 추출합니다.

우리가 검색 엔진을 말할 때 우리는 일반적인 검색 엔진 중 Google, Yahoo, Bing과 같은 것을 의미합니다. 다른 검색 엔진에는 DBLP 및 Google Scholar가 있습니다.

이 기사에서는 검색 엔진이 결과를 표시하는 메커니즘을 이해하기 위해 정보 검색에 사용되는 다양한 유형의 IR 모델, 관련된 구성 요소 및 기술을 살펴보겠습니다.

또한 읽기: 인도의 데이터 과학자 급여

정보 검색 모델의 유형

정보 검색은 다음 네 가지 핵심 요소로 구성됩니다.

D - 문서 표현.
Q - 쿼리 표현.
F - D와 Q 간의 관계를 일치시키고 설정하기 위한 프레임워크.
R (q, di) - 관련 정보를 표시하기 위해 쿼리와 문서 간의 유사성을 결정하는 순위 함수입니다.

정보 검색(IR) 모델에는 세 가지 유형이 있습니다.

1. Classical IR Model — 기본 수학적 개념을 기반으로 설계되었으며 IR 모델 중 가장 널리 사용됩니다. 클래식 정보 검색 모델은 쉽게 구현할 수 있습니다. 그 예에는 벡터 공간, 부울 및 확률적 IR 모델이 포함됩니다. 이 시스템에서 정보 검색은 정의된 쿼리 집합을 포함하는 문서에 따라 다릅니다. 어떤 종류의 순위나 등급도 없습니다. 다양한 기존 IR 모델은 모델링에서 문서 표현, 쿼리 표현 및 검색/매칭 기능을 고려합니다.

2. 비고전적 IR 모델 - 명제 논리를 기반으로 한다는 점에서 고전적 모델과 다릅니다. 비고전적 정보검색 모델의 예로는 정보 논리, 상황 이론 및 상호 작용 모델이 있습니다.

3. 대체 IR 모델 — 이는 기존 IR 모델의 원칙을 취하고 클러스터 모델, Alternative Set-Theoretic Models Fuzzy Set 모델, LSI(Latent Semantic Indexing) 모델, Alternative Algebraic Models Generalized Vector Space Model과 같은 보다 기능적인 모델을 만들기 위해 향상되었습니다. , 등.

가장 많이 채택된 유사도 기반 클래식 IR 모델을 더 자세히 이해해 보겠습니다.

1. 부울 모델 — 이 모델은 정보를 부울 표현식과 부울 쿼리로 변환해야 했습니다. 후자는 부울 표현식이 참인 경우 올바른 일치를 제공하는 데 필요한 정보를 결정하는 데 사용됩니다. 부울 연산 AND, OR, NOT을 사용하여 사용자가 묻는 내용을 기반으로 여러 용어의 조합을 만듭니다.

2. 벡터 공간 모델 — 이 모델은 벡터로 표시된 문서와 쿼리를 가져와 문서가 얼마나 유사한지에 따라 검색합니다. 이로 인해 검색 결과의 순위를 지정하는 데 사용되는 두 가지 유형의 벡터가 생성될 수 있습니다.

부울 VSM의 바이너리.
논바이너리 VSM에서 가중치.

3. 확률 분포 모델 - 이 모델에서 문서는 용어의 분포로 간주되며 이러한 표현의 유사성을 기반으로 쿼리가 일치됩니다. 이것은 엔트로피를 사용하거나 문서의 가능한 효용을 계산함으로써 가능합니다. 두 가지 유형인 경우:

유사도 기반 확률 분포 모델
기대 효용 기반 확률 분포 모델

4. 확률 모델 — 확률 모델은 다소 단순하며 결과를 표시하기 위해 확률 순위를 사용합니다. 간단히 말해서 문서는 검색된 쿼리와의 관련성 확률에 따라 순위가 매겨집니다.

체크아웃: 데이터 과학 대 데이터 분석

정보 검색 모델의 구성 요소

IR 모델의 전제 조건은 다음과 같습니다.

기술 및 절차를 색인화하고 검색하는 데 사용되는 자동 또는 수동 작동 색인화 시스템입니다.
텍스트, 이미지 또는 멀티미디어 형식 중 하나의 문서 모음입니다.
사람이나 기계를 통해 시스템에 대한 입력 역할을 하는 쿼리 집합입니다.
시스템의 효율성(예: 정밀도 및 재현율)을 측정하거나 평가하기 위한 평가 메트릭입니다. 예를 들어, 사용자에게 표시되는 정보가 얼마나 유용한지 확인합니다.

정보 검색 모델의 다양한 구성 요소는 다음과 같습니다.

1 단계

인수

IR 시스템은 다양한 웹 리소스에서 문서 및 멀티미디어 정보를 제공합니다. 이 데이터는 웹 크롤러에 의해 컴파일되어 데이터베이스 스토리지 시스템으로 전송됩니다.

2 단계

대표

자동 또는 수동 절차를 사용하여 자유 텍스트 용어가 색인화되고 어휘가 정렬됩니다. 예를 들어, 문서 초록에는 요약, 메타 설명, 참고 문헌 및 저자 또는 공동 저자의 세부 정보가 포함됩니다.

3단계

파일 구성

파일 구성은 순차 또는 반전의 두 가지 방법 중 하나로 수행됩니다. 순차 파일 구성에는 문서에 포함된 데이터가 포함됩니다. 반전된 파일은 용어별 방식으로 레코드 목록으로 구성됩니다.

4단계

질문

검색어를 입력하면 IR 시스템이 시작됩니다. 사용자 쿼리는 필요한 정보를 강조하는 공식 또는 비공식 진술일 수 있습니다. IR 시스템에서 쿼리는 데이터베이스 시스템의 단일 개체를 나타내지 않습니다. 쿼리와 일치하는 여러 개체를 참조할 수 있습니다. 그러나 관련성 정도는 다를 수 있습니다.

정보 검색과 데이터 검색의 차이점 - 2020 - 다른 사람

데이터 검색 시스템은 사용자가 제공한 쿼리에서 키워드를 식별하고 데이터베이스의 문서와 일치시켜 ODBMS와 같은 데이터베이스 관리 시스템에서 데이터를 직접 검색합니다.

DBMS의 정보 검색 시스템은 유사성을 기반으로 결과를 표시하기 위해 문서 및 쿼리 표현, 특히 텍스트 기반의 저장, 검색, 평가를 포함하는 일련의 알고리즘 또는 프로그램입니다.

S.아니요	정보 검색	데이터 검색
1	쿼리와 문서 간의 유사성을 기반으로 정보를 검색합니다.	사용자가 입력한 쿼리의 키워드를 기반으로 데이터를 검색합니다.
2	작은 오류는 용인되며 눈에 띄지 않을 가능성이 높습니다.	완전한 시스템 장애가 발생하기 때문에 오류가 발생할 여지가 없습니다.
삼	모호하고 정의된 구조가 없습니다.	의미론과 관련하여 정의된 구조를 가지고 있습니다.
4	데이터베이스 시스템 사용자에게 솔루션을 제공하지 않습니다.	데이터베이스 시스템 사용자에게 솔루션을 제공합니다.
5	정보 검색 시스템은 대략적인 결과를 생성합니다.	데이터 검색 시스템은 정확한 결과를 생성합니다.
6	표시된 결과는 관련성을 기준으로 정렬됩니다.	표시된 결과는 관련성에 따라 정렬되지 않습니다.
7	IR 모델은 본질적으로 확률적입니다.	데이터 검색 모델은 본질적으로 결정적입니다.

결론

이것은 우리를 기사의 끝으로 이끕니다. 정보가 도움이 되셨기를 바랍니다. 데이터 과학 개념에 대한 더 많은 지식을 찾고 있다면 upGrad의 IITB에서 제공 하는 인도 최초의 NASSCOM 인증 데이터 과학 경영진 PG 프로그램을 확인해야 합니다.

정보 검색 시스템의 응용 프로그램은 무엇입니까?

정보 검색 시스템은 데이터 개체와 검색 쿼리 간의 관계를 설정합니다. 이러한 문서는 사용자 검색어에 우선 순위가 지정되며 가장 일치하는 항목에 가장 높은 우선 순위가 부여됩니다.
정보 검색 시스템은 다음과 같은 많은 실제 응용 프로그램의 구동 메커니즘입니다.
1. 전자도서관은 이 시스템을 사용하여 요청된 이름, 장르 또는 저자 이름에 따라 도서를 정렬하고 찾습니다.
2. Google 검색과 같은 검색 엔진은 이 메커니즘을 사용하여 문서를 일치시키고 우선 순위를 지정하여 정확하고 빠른 검색 결과를 제공합니다.
3. 모바일 검색, 데스크톱 파일 검색 및 브라우저 검색과 같은 다른 검색 플랫폼도 이 기술에서 실행됩니다.
4. 음악 스트리밍 앱, 비디오 스트리밍 앱 및 이미지 라이브러리와 같은 응용 프로그램은 정보 검색 작업을 사용하여 결과 순위를 검색합니다.

정보 검색과 데이터 검색의 차이점은 무엇입니까?

다음은 정보 검색과 데이터 검색의 차이점을 보여줍니다.
정보 검색 - 정보 검색은 정보 검색, 저장 및 데이터 평가와 같은 작업을 다룹니다. 작은 오류는 무시됩니다. 확률 모델의 한 예입니다. 최종 결과는 정확하지 않으며 근사치입니다. 데이터베이스 사용자는 결과를 얻지 못합니다.
데이터 검색 - 데이터베이스에서 데이터를 검색하는 것을 데이터 검색이라고 합니다. 데이터 검색에는 데이터베이스에서 데이터를 식별하고 수집하는 작업이 포함됩니다. 단 한 번의 오류로도 시스템이 실패할 수 있습니다. 결정론적 모델의 한 예입니다. 최종 결과는 정확한 결과입니다. 데이터베이스 사용자는 모든 결과를 얻습니다. 데이터 검색 시스템이 잘 구성되어 있습니다.

IR 시스템과의 사용자 상호 작용을 정의하시겠습니까?

정보 검색 시스템 또는 IR 시스템에서 사용자는 먼저 정보를 쿼리로 번역합니다. 정보검색 시스템에는 정보를 다루는 논리를 정의하는 특정 단어 세트가 포함되어 있습니다.
이전에는 문서가 일부 키워드 또는 인덱스 집합을 통해 표현되었습니다. 그러나 현대화되어 문서가 전체 키워드 세트와 함께 표시됩니다. 이것은 관사 또는 접속사가 제거/제거되는 텍스트 작업으로 수행할 수 있습니다. 이 방법은 문서의 복잡성도 줄여줍니다.

정보 검색 시스템 설명: 유형, 비교 및 ​​구성 요소