Bilgi Alma Sisteminin Açıklaması: Türler, Karşılaştırma ve Bileşenler

Yayınlanan: 2021-03-10

Bir bilgi alma (IR) sistemi, görüntülenen belgelerin aranan sorgularla ilişkisini kolaylaştıran bir dizi algoritmadır. Basit bir deyişle, bir kullanıcının sorgularına göre belgeleri sıralamak ve sıralamak için çalışır. Belge erişilebilirliğini sağlamak için belgedeki sorgu ve metin açısından tekdüzelik vardır.

Bu aynı zamanda, bir belgeyi, Alma Durumu Değerini (RSV) kullanarak resmi olarak sıralamak için bir eşleştirme işlevinin etkin bir şekilde kullanılmasına izin verir. Belge içerikleri, bir V sözlüğüne ait olan ve terimler olarak bilinen bir tanımlayıcılar koleksiyonu ile temsil edilir. Bir IR sistemi ayrıca, kullanıcının davranışını izleyerek görüntülenen sonuçların kullanılabilirliği hakkında geri bildirim alır.

Arama motorlarından bahsettiğimizde genel arama motorları arasında Google, Yahoo ve Bing beğenilerini kastediyoruz. Diğer arama motorları arasında DBLP ve Google Akademik bulunur.

Bu makalede, sonuçları görüntüleyen arama motorlarının arkasındaki mekanizmayı anlamak için farklı türlerdeki IR modellerine, ilgili bileşenlere ve Bilgi Erişiminde kullanılan tekniklere bakacağız.

Ayrıca Okuyun: Hindistan'da Veri Bilimcisi Maaşı

İçindekiler

Bilgi Alma Modeli Türleri

Bir bilgi alımı, aşağıdaki dört temel unsurdan oluşur:

  1. D - Belge Temsili.
  2. S - Sorgu Temsili.
  3. F − D ve Q arasında bir ilişki kurmak ve eşleştirmek için bir çerçeve.
  4. R (q, di) − İlgili bilgileri görüntülemek için sorgu ve belge arasındaki benzerliği belirleyen bir sıralama işlevi.

Üç tür Bilgi Alma (IR) modeli vardır:

1. Klasik IR Modeli — Temel matematiksel kavramlar üzerine tasarlanmıştır ve IR modellerinin en yaygın kullanılanıdır. Klasik Bilgi Erişim modelleri kolaylıkla uygulanabilir. Örnekleri arasında Vektör uzayı, Boolean ve Olasılıksal IR modelleri bulunur. Bu sistemde, bilgilerin alınması, tanımlanmış sorgu kümesini içeren belgelere bağlıdır. Herhangi bir sıralama veya derecelendirme yoktur. Farklı klasik IR modelleri, modellemelerinde Belge Gösterimi, Sorgu temsili ve Alma/Eşleştirme işlevini hesaba katar.

2. Klasik Olmayan IR Modeli — Klasik modellerden, önerme mantığı üzerine inşa edilmiş olmaları bakımından farklıdırlar. Klasik olmayan IR modellerine örnek olarak Bilgi Mantığı, Durum Teorisi ve Etkileşim modelleri dahildir.

3. Alternatif IR Modeli — Bunlar, klasik IR modelinin ilkelerini alır ve Küme modeli, Alternatif Küme-Teorik Modeller Bulanık Küme modeli, Gizli Semantik İndeksleme (LSI) modeli, Alternatif Cebirsel Modeller Genelleştirilmiş Vektör Uzay Modeli gibi daha işlevsel modeller oluşturmak için geliştirilir. , vb.

En çok benimsenen benzerlik tabanlı klasik IR modellerini daha ayrıntılı olarak anlayalım:

1. Boole Modeli — Bu model, bilgilerin bir Boole ifadesine ve Boole sorgularına dönüştürülmesini gerektiriyordu. İkincisi, Boolean ifadesinin doğru olduğu tespit edildiğinde doğru eşleşmeyi sağlayabilmek için gereken bilgileri belirlemek için kullanılır. Kullanıcının sorduğu şeye dayalı olarak birden çok terimin bir kombinasyonunu oluşturmak için VE, VEYA, DEĞİL Boole işlemlerini kullanır.

2. Vektör Uzay Modeli — Bu model, vektör olarak belirtilen belgeleri ve sorguları alır ve ne kadar benzer olduklarına bağlı olarak belgeleri alır. Bu, daha sonra arama sonuçlarını sıralamak için kullanılan iki tür vektörle sonuçlanabilir.

  • Boolean VSM'de İkili.
  • İkili olmayan VSM'de ağırlıklı.

3. Olasılık Dağılım Modeli — Bu modelde, belgeler terimlerin dağılımı olarak kabul edilir ve bu temsillerin benzerliğine dayalı olarak sorgular eşleştirilir. Bu, entropi kullanılarak veya belgenin olası faydasını hesaplayarak mümkün olur. Bunlar eğer iki tiptir:

  • Benzerliğe Dayalı Olasılık Dağılım Modeli
  • Beklenen faydaya dayalı Olasılık Dağılım Modeli

4. Olasılık Modelleri — Olasılık modeli oldukça basittir ve sonuçları görüntülemek için olasılık sıralamasını alır. Basitçe söylemek gerekirse, belgeler, aranan bir sorguyla alaka olasılıklarına göre sıralanır.

Ödeme: Veri Bilimi ve Veri Analitiği

Bilgi Erişim Modelinin Bileşenleri

Bir IR modeli için ön koşullar şunlardır:

  1. Teknikleri ve prosedürleri indekslemek ve aramak için kullanılan otomatik veya manuel olarak çalıştırılan bir indeksleme sistemi.
  2. Aşağıdaki biçimlerden herhangi birinde bulunan bir belge koleksiyonu: metin, resim veya multimedya.
  3. Bir insan veya makine aracılığıyla bir sisteme girdi görevi gören bir dizi sorgu.
  4. Bir sistemin etkinliğini ölçmek veya değerlendirmek için bir değerlendirme metriği (örneğin, kesinlik ve geri çağırma). Örneğin, kullanıcıya görüntülenen bilgilerin ne kadar yararlı olduğundan emin olmak için.

Bir Bilgi Erişim Modelinin çeşitli bileşenleri şunları içerir:

Aşama 1

Kazanma
IR sistemi, çeşitli web kaynaklarından belgeler ve multimedya bilgileri sağlar. Bu veriler web tarayıcıları tarafından derlenir ve veritabanı depolama sistemlerine gönderilir.

Adım 2

temsil
Serbest metin terimleri indekslenir ve hem otomatik hem de manuel prosedürler kullanılarak kelime dağarcığı sıralanır. Örneğin, bir belge özeti bir özet, meta açıklama, kaynakça ve yazarların veya ortak yazarların ayrıntılarını içerecektir.

Aşama 3

Dosya Organizasyonu
Dosya organizasyonu, sıralı veya ters olmak üzere iki yöntemden biriyle gerçekleştirilir. Sıralı dosya organizasyonu, belgede yer alan verileri içerir. Tersine çevrilmiş dosya, terim terim olarak bir kayıt listesi içerir.

4. Adım

Sorgu
Bir sorgu girildiğinde bir IR sistemi başlatılır. Kullanıcı sorguları, hangi bilgilerin gerekli olduğunu vurgulayan resmi veya gayri resmi ifadeler olabilir. IR sistemlerinde, bir sorgu, veritabanı sistemindeki tek bir nesnenin göstergesi değildir. Sorguyla eşleşen birkaç nesneye atıfta bulunabilir. Bununla birlikte, ilgililik dereceleri değişebilir.

Bilgi Alma ve Veri Alma Arasındaki Fark

Veri Alma sistemleri, kullanıcılar tarafından sağlanan sorgulardaki anahtar kelimeleri belirleyerek ve bunları veritabanındaki belgelerle eşleştirerek ODBMS gibi veritabanı yönetim sistemlerinden doğrudan veri alır.

Oysa DBMS'deki Bilgi Alma sistemi, benzerliğe dayalı sonuçları görüntülemek için, özellikle metin tabanlı, belge ve sorgu temsillerinin depolanmasını, alınmasını, değerlendirilmesini içeren bir dizi algoritma veya programdır.

S.Hayır Bilgi alma Veri Alma
1 Sorgu ve belge arasındaki benzerliğe dayalı olarak bilgi alır. Kullanıcı tarafından girilen sorgudaki anahtar sözcüklere dayalı verileri alır.
2 Küçük hatalar tolere edilir ve muhtemelen fark edilmeyecektir. Komple sistem arızası ile sonuçlandığından hataya yer yoktur.
3 Belirsizdir ve tanımlanmış bir yapısı yoktur. Semantik olarak tanımlanmış bir yapıya sahiptir.
4 Veritabanı sisteminin kullanıcısına bir çözüm sağlamaz. Veritabanı sisteminin kullanıcısına çözümler sunar.
5 Bilgi Alma sistemi yaklaşık sonuçlar verir Veri Alma sistemi kesin sonuçlar üretir.
6 Görüntülenen sonuçlar alaka düzeyine göre sıralanır Görüntülenen sonuçlar alaka düzeyine göre sıralanmaz.
7 IR modeli doğası gereği olasılıklıdır. Veri Alma modeli doğası gereği belirleyicidir.

Çözüm

Bu da bizi makalenin sonuna getiriyor. Bilgileri yararlı bulduğunuzu umuyoruz. Veri Bilimi kavramları hakkında daha fazla bilgi arıyorsanız , IITB on upGrad'dan Hindistan'ın 1. NASSCOM sertifikalı Veri Bilimi Yönetici PG Programına göz atmalısınız.

Bilgi Erişim Sisteminin uygulamaları nelerdir?

Bilgi Alma Sistemi, veri nesneleri ve alma sorguları arasındaki ilişkiyi ayarlar. Bu belgeler, kullanıcı arama sorgularına göre önceliklendirilir ve en iyi eşleşmelere en yüksek öncelik verilir.
Bilgi Erişim Sistemi, aşağıdakiler gibi birçok gerçek hayat uygulamasındaki tahrik mekanizmasıdır:
1. Dijital kütüphaneler, kitapları istenen ad, tür veya yazar adına göre sıralamak ve bulmak için bu sistemi kullanır.
2. Google arama gibi arama motorları, dokümanları eşleştirerek ve önceliklendirerek doğru ve daha hızlı arama sonuçları sağlamak için bu mekanizmayı kullanır.
3. Mobil arama, masaüstü dosya arama ve tarayıcı arama gibi diğer arama platformları da bu teknikte çalışır.
4. Müzik akışı uygulamaları, video akışı uygulamaları ve görüntü kitaplıkları gibi uygulamalar, sonuçları sıralamak için Bilgi Alma işlemlerini kullanır.

Bilgi alımı ile veri alımı arasındaki fark nedir?

Aşağıda, bilgi alımı ile veri alımı arasındaki farklar gösterilmektedir:
Bilgi Alma - Bilgi alma, bilgi alma, depolama ve verilerin değerlendirilmesi gibi işlemlerle ilgilenir. Küçük hatalar ihmal edilir. Olasılıksal bir modelin bir örneğidir. Nihai sonuçlar kesin değildir ve yaklaşık değerlerdir. Veritabanı kullanıcısı sonuçları almıyor.
Veri Alma - Veri tabanından veri almaya veri alma denir. Veri alımı, veri tabanından verilerin tanımlanmasını ve toplanmasını içerir. Tek bir hata bile sistemi bozabilir. Deterministik modele bir örnektir. Nihai sonuçlar kesin sonuçlardır. Veritabanı kullanıcısı tüm sonuçları alır. Veri alma sistemi iyi yapılandırılmıştır.

IR sistemi ile kullanıcı etkileşimi tanımlansın mı?

Bilgi alma sisteminde veya IR sisteminde, kullanıcı önce bilgiyi bir sorguya çevirir. IR sistemi, bilgilerle ilgilenmek için mantığı tanımlayan belirli bir kelime kümesi içerir.
Daha önce, belgeler bazı anahtar kelimeler veya bir dizi dizin aracılığıyla temsil ediliyordu. Ancak modernize edilmiş ve belgeler tüm anahtar kelimelerle gösterilmiştir. Bu, makale veya bağlaçların kaldırıldığı/ortadan kaldırıldığı metin işlemleri ile yapılabilir. Bu yöntem, belgenin karmaşıklığını da azaltır.