Sistem Pencarian Informasi Dijelaskan: Jenis, Perbandingan & Komponen

Diterbitkan: 2021-03-10

Sistem temu kembali informasi (IR) adalah seperangkat algoritme yang memfasilitasi relevansi dokumen yang ditampilkan dengan kueri yang dicari. Dengan kata sederhana, ini berfungsi untuk mengurutkan dan memberi peringkat dokumen berdasarkan kueri pengguna. Ada keseragaman sehubungan dengan kueri dan teks dalam dokumen untuk mengaktifkan aksesibilitas dokumen.

Ini juga memungkinkan fungsi pencocokan untuk digunakan secara efektif untuk menentukan peringkat dokumen secara formal menggunakan Retrieval Status Value (RSV). Isi dokumen diwakili oleh kumpulan deskriptor, yang dikenal sebagai istilah, yang termasuk dalam kosakata V. Sistem IR juga mengekstrak umpan balik tentang kegunaan hasil yang ditampilkan dengan melacak perilaku pengguna.

Ketika kita berbicara tentang mesin pencari, yang kita maksud adalah seperti Google, Yahoo, dan Bing di antara mesin pencari umum. Mesin pencari lainnya termasuk DBLP dan Google Cendekia.

Pada artikel ini, kita akan melihat berbagai jenis model IR, komponen yang terlibat, dan teknik yang digunakan dalam Pengambilan Informasi untuk memahami mekanisme di balik mesin pencari yang menampilkan hasil.

Baca Juga: Gaji Data Scientist di India

Daftar isi

Jenis Model Pengambilan Informasi

Sebuah pencarian informasi terdiri dari empat elemen kunci berikut:

D Representasi Dokumen.
Q Representasi Kueri.
F Kerangka kerja untuk mencocokkan dan membangun hubungan antara D dan Q.
R (q, di) Fungsi peringkat yang menentukan kesamaan antara kueri dan dokumen untuk menampilkan informasi yang relevan.

Ada tiga jenis model Information Retrieval (IR):

1. Model IR Klasik — Model ini dirancang berdasarkan konsep matematika dasar dan merupakan model IR yang paling banyak digunakan. Model Pencarian Informasi Klasik dapat diimplementasikan dengan mudah. Contohnya termasuk model IR Vector-space, Boolean dan Probabilistic. Dalam sistem ini, pengambilan informasi tergantung pada dokumen yang berisi kumpulan kueri yang ditentukan. Tidak ada rangking atau grading dalam bentuk apapun. Model IR klasik yang berbeda mempertimbangkan Representasi Dokumen, representasi Kueri, dan fungsi Pengambilan/Pencocokan dalam pemodelannya.

2. Model IR Non-Klasik — Mereka berbeda dari model klasik karena dibangun di atas logika proposisional. Contoh model IR non-klasik termasuk Logika Informasi, Teori Situasi, dan model Interaksi.

3. Model IR Alternatif — Ini mengambil prinsip-prinsip model IR klasik dan ditingkatkan untuk membuat model yang lebih fungsional seperti model Cluster, Model Set-Teoretis Alternatif Model Fuzzy Set, model Latent Semantic Indexing (LSI), Model Aljabar Alternatif Model Ruang Vektor Umum , dll.

Mari kita pahami lebih lanjut model IR klasik berbasis kesamaan yang paling banyak diadopsi:

1. Model Boolean — Model ini membutuhkan informasi untuk diterjemahkan ke dalam ekspresi Boolean dan kueri Boolean. Yang terakhir digunakan untuk menentukan informasi yang dibutuhkan untuk dapat memberikan kecocokan yang tepat ketika ekspresi Boolean ditemukan benar. Ini menggunakan operasi Boolean AND, OR, NOT untuk membuat kombinasi beberapa istilah berdasarkan apa yang diminta pengguna.

2. Model Ruang Vektor — Model ini mengambil dokumen dan kueri yang dilambangkan sebagai vektor dan mengambil dokumen tergantung pada seberapa miripnya. Ini dapat menghasilkan dua jenis vektor yang kemudian digunakan untuk menentukan peringkat hasil pencarian baik

Biner dalam VSM Boolean.
Tertimbang dalam VSM Non-biner.

3. Model Distribusi Probabilitas — Dalam model ini, dokumen dianggap sebagai distribusi istilah dan kueri dicocokkan berdasarkan kesamaan representasi ini. Ini dimungkinkan dengan menggunakan entropi atau dengan menghitung kemungkinan utilitas dokumen. Mereka adalah jika dua jenis:

Model Distribusi Probabilitas Berbasis Kemiripan
Model Distribusi Probabilitas berbasis utilitas yang diharapkan

4. Model Probabilistik — Model probabilistik agak sederhana dan mengambil peringkat probabilitas untuk menampilkan hasil. Sederhananya, dokumen diberi peringkat berdasarkan kemungkinan relevansinya dengan kueri yang dicari.

Checkout: Ilmu Data vs Analisis Data

Komponen Model Pencarian Informasi

Berikut adalah prasyarat untuk model IR:

Sistem pengindeksan otomatis atau yang dioperasikan secara manual yang digunakan untuk mengindeks dan mencari teknik dan prosedur.
Kumpulan dokumen dalam salah satu format berikut: teks, gambar, atau multimedia.
Sekumpulan kueri yang berfungsi sebagai input ke sistem, melalui manusia atau mesin.
Metrik evaluasi untuk mengukur atau mengevaluasi efektivitas sistem (misalnya, presisi dan ingatan). Misalnya, untuk memastikan seberapa berguna informasi yang ditampilkan kepada pengguna.

Berbagai komponen Model Pengambilan Informasi meliputi:

Langkah 1

Akuisisi

Sistem IR sumber dokumen dan informasi multimedia dari berbagai sumber daya web. Data ini dikompilasi oleh perayap web dan dikirim ke sistem penyimpanan basis data.

Langkah 2

Perwakilan

Istilah teks bebas diindeks, dan kosakata diurutkan, baik menggunakan prosedur otomatis atau manual. Misalnya, abstrak dokumen akan berisi ringkasan, deskripsi meta, daftar pustaka, dan detail penulis atau rekan penulis.

Langkah 3

Organisasi File

Organisasi file dilakukan dalam salah satu dari dua metode, berurutan atau terbalik. Organisasi file berurutan melibatkan data yang terkandung dalam dokumen. File Terbalik terdiri dari daftar catatan, dalam istilah demi istilah.

Langkah 4

Pertanyaan

Sistem IR dimulai saat memasukkan kueri. Permintaan pengguna dapat berupa pernyataan formal atau informal yang menyoroti informasi apa yang diperlukan. Dalam sistem IR, kueri tidak menunjukkan objek tunggal dalam sistem basis data. Itu bisa merujuk ke beberapa objek mana saja yang cocok dengan kueri. Namun, tingkat relevansinya dapat bervariasi.

Perbedaan Antara Pengambilan Informasi dan Pengambilan Data

Sistem Pengambilan Data secara langsung mengambil data dari sistem manajemen basis data seperti ODBMS dengan mengidentifikasi kata kunci dalam kueri yang disediakan oleh pengguna dan mencocokkannya dengan dokumen dalam basis data.

Sedangkan sistem Information Retrieval dalam DBMS adalah sekumpulan algoritma atau program yang melibatkan penyimpanan, pengambilan, evaluasi representasi dokumen dan query, terutama berbasis teks, untuk menampilkan hasil berdasarkan kesamaan.

S.Tidak	Pengambilan Informasi	Penerimaan data
1	Mengambil informasi berdasarkan kesamaan antara kueri dan dokumen.	Mengambil data berdasarkan kata kunci dalam kueri yang dimasukkan oleh pengguna.
2	Kesalahan kecil ditoleransi dan kemungkinan tidak akan diperhatikan.	Tidak ada ruang untuk kesalahan karena mengakibatkan kegagalan sistem yang lengkap.
3	Ini ambigu dan tidak memiliki struktur yang ditentukan.	Ini memiliki struktur yang ditentukan sehubungan dengan semantik.
4	Tidak memberikan solusi kepada pengguna sistem database.	Memberikan solusi kepada pengguna sistem database.
5	Sistem Pengambilan Informasi menghasilkan hasil perkiraan	Sistem Pengambilan Data menghasilkan hasil yang tepat.
6	Hasil yang ditampilkan diurutkan berdasarkan relevansi	Hasil yang ditampilkan tidak diurutkan berdasarkan relevansi.
7	Model IR bersifat probabilistik.	Model Pengambilan Data bersifat deterministik.

Kesimpulan

Ini membawa kita ke akhir artikel. Kami harap informasinya bermanfaat bagi Anda. Jika Anda mencari lebih banyak pengetahuan tentang konsep Ilmu Data, Anda harus memeriksa Program PG Eksekutif bersertifikasi NASSCOM India pertama dalam Ilmu Data dari IITB di upGrad.

Apa saja aplikasi dari Information Retrieval System?

Sistem Pengambilan Informasi menetapkan hubungan antara objek data dan kueri pengambilan. Dokumen-dokumen ini diprioritaskan untuk permintaan pencarian pengguna dan kecocokan terbaik diberikan prioritas tertinggi.
Sistem Pengambilan Informasi adalah mekanisme penggerak dalam banyak aplikasi kehidupan nyata seperti:
1. Perpustakaan digital menggunakan sistem ini untuk menyortir dan mencari buku sesuai dengan nama, genre, atau nama pengarang yang diminta.
2. Mesin pencari seperti pencarian Google menggunakan mekanisme ini untuk memberikan hasil pencarian yang akurat dan lebih cepat dengan mencocokkan dan memprioritaskan dokumen.
3. Platform pencarian lain seperti pencarian seluler, pencarian file desktop, dan pencarian browser juga berjalan pada teknik ini.
4. Aplikasi seperti aplikasi streaming musik, aplikasi streaming video, dan perpustakaan gambar menggunakan operasi Pengambilan Informasi untuk mencari peringkat hasil.

Apa perbedaan antara pencarian informasi dan pencarian data?

Berikut ini ilustrasi perbedaan antara temu kembali informasi dan temu kembali data:
Pengambilan Informasi - Pengambilan informasi berkaitan dengan operasi seperti pengambilan informasi, penyimpanan, dan evaluasi data. Kesalahan kecil diabaikan. Ini adalah contoh model probabilistik. Hasil akhir tidak tepat dan merupakan perkiraan. Pengguna database tidak mendapatkan hasil.
Pengambilan Data - Mengambil data dari database disebut pengambilan data. Pengambilan data meliputi mengidentifikasi dan mengumpulkan data dari database. Bahkan satu kesalahan saja bisa membuat sistem gagal. Ini adalah contoh dari model deterministik. Hasil akhir adalah hasil yang tepat. Pengguna database mendapatkan semua hasil. Sistem pengambilan data sudah terstruktur dengan baik.

Tentukan interaksi pengguna dengan sistem IR?

Dalam sistem temu kembali informasi atau sistem IR, pengguna terlebih dahulu menerjemahkan informasi ke dalam kueri. Sistem IR berisi serangkaian kata tertentu yang mendefinisikan logika untuk menangani informasi.
Sebelumnya, dokumen direpresentasikan melalui beberapa kata kunci atau sekumpulan indeks. Tetapi telah dimodernisasi dan dokumen ditampilkan dengan seluruh rangkaian kata kunci. Ini dapat dilakukan dengan operasi teks di mana artikel atau penghubung dihilangkan/dihilangkan. Metode ini juga mengurangi kerumitan dokumen.