Pelajari Klasifikasi Bayesian dalam Data Mining [2022]

Diterbitkan: 2021-03-10

Jika Anda telah mempelajari data mining selama beberapa waktu, Anda pasti pernah mendengar istilah 'klasifikasi Bayesian'. Apakah Anda bertanya-tanya apa artinya dan seberapa penting itu sebagai sebuah konsep dalam data mining?

Artikel ini akan menjawab pertanyaan-pertanyaan ini saat Anda akan menjelajahi klasifikasi Bayesian dalam data mining. Mari kita mulai:

Daftar isi

Apa itu Klasifikasi Bayesian?

Selama penambangan data, Anda akan menemukan hubungan antara variabel kelas dan set atribut menjadi non-deterministik. Ini berarti kita tidak dapat mengasumsikan label kelas dari catatan pengujian dengan kepastian mutlak bahkan jika kumpulan atributnya sama dengan contoh pelatihan.

Itu bisa terjadi karena adanya faktor-faktor yang mempengaruhi tertentu atau data yang bising. Misalkan Anda ingin memprediksi apakah seseorang berisiko terkena penyakit jantung menurut kebiasaan makannya. Sementara kebiasaan makan seseorang merupakan faktor besar dalam menentukan apakah mereka akan menderita masalah jantung atau tidak, mungkin ada alasan lain untuk terjadinya hal yang sama seperti genetika atau infeksi.

Jadi, analisis Anda dalam menentukan apakah orang tersebut akan berisiko terkena penyakit jantung berdasarkan kebiasaan makannya saja akan salah dan dapat menyebabkan banyak masalah muncul.

Kemudian muncul pertanyaan, “Bagaimana cara mengatasi masalah ini pada data mining?” Jawabannya adalah klasifikasi Bayesian.

Anda dapat menggunakan klasifikasi Bayesian dalam penambangan data untuk mengatasi masalah ini dan memprediksi terjadinya peristiwa apa pun. Pengklasifikasi Bayesian terdiri dari pengklasifikasi statistik menggunakan pemahaman probabilitas Bayesian.

Untuk memahami cara kerja klasifikasi Bayesian dalam penambangan data, Anda harus mulai dengan teorema Bayes.

Teorema Bayes

Penghargaan untuk teorema Bayes diberikan kepada Thomas Bayes yang menggunakan probabilitas bersyarat untuk membuat algoritme yang menggunakan bukti untuk menghitung batasan pada parameter yang tidak diketahui. Dia adalah orang pertama yang menemukan solusi ini.

Secara matematis, teorema Bayes terlihat seperti ini:

P(A/B) = P(B/A)P(A) P(B)

Di sini, A dan B mewakili kejadian dan P(B) tidak bisa sama dengan nol.

P(B) 0

P(B/A) adalah probabilitas bersyarat yang menjelaskan terjadinya peristiwa B jika A benar. Demikian pula, P(A/B) adalah probabilitas bersyarat yang menjelaskan terjadinya peristiwa A ketika B benar.

P(B) dan P(A) adalah probabilitas mengamati B dan A secara independen dan mereka disebut probabilitas marjinal.

Interpretasi Bayesian

Dalam interpretasi Bayesian, probabilitas menghitung tingkat kepercayaan. Menurut teorema Bayes, tingkat kepercayaan pada hipotesis sebelum mempertimbangkan bukti terkait dengan tingkat kepercayaan pada hipotesis setelah mempertimbangkan hal yang sama.

Misalkan Anda memiliki koin. Jika Anda melempar koin sekali, Anda akan mendapatkan kepala atau ekor dan kemungkinan kedua kemunculannya adalah 50%. Namun, jika Anda membalik koin beberapa kali dan mengamati hasilnya, tingkat kepercayaan mungkin meningkat, menurun, atau tetap stabil berdasarkan hasilnya.

Jika Anda memiliki proposisi A dan bukti B maka:

P(A) adalah tingkat kepercayaan utama pada A. P(A/B) adalah tingkat kepercayaan posterior setelah memperhitungkan B. Hasil bagi P(B/A)/P(B) menunjukkan dukungan yang ditawarkan B untuk A .

Anda dapat menurunkan teorema Bayes dari probabilitas bersyarat:

P(A/B) = P(A B) P(B) , jika P(B) 0

P(B/A) = P(B A) P(A) , jika P(A) 0

Di sini P(A B) adalah peluang gabungan antara A dan B benar karena:

P (B A) = P (A B)

ATAU, P(A B) = P( A B )P(B) = P( B A )P(A)

ATAU, P( A B ) = P( B A )P(A) P(B) , JIKA P(B) 0

Jaringan Bayesian

Kami menggunakan jaringan Bayesian (juga dikenal sebagai jaringan Belief) untuk menunjukkan ketidakpastian melalui DAG (Directed Acyclic Graphs). Grafik Acyclic Berarah menunjukkan Jaringan Bayesian seperti grafik statistik lainnya. Ini berisi sekelompok node dan link di mana link menunjukkan hubungan antara node masing-masing.

Setiap node dalam grafik Acyclic Berarah mewakili variabel acak. Variabel dapat berupa nilai kontinu atau diskrit dan mungkin sesuai dengan atribut aktual yang diberikan pada data.

Jaringan Bayesian memungkinkan independensi kondisional kelas didefinisikan di antara subset variabel. Ini memberi Anda model grafis dari hubungan di mana Anda akan melakukan implementasi.

Selain DAG, jaringan Bayesian juga memiliki seperangkat tabel probabilitas bersyarat.

Kesimpulan

Sekarang Anda pasti sudah familiar dengan dasar-dasar klasifikasi Bayesian dalam data mining. Memahami teorema di balik penerapan implementasi data mining sangat penting untuk membuat kemajuan.

Apa pendapat Anda tentang klasifikasi Bayesian dalam penambangan data? Sudahkah Anda mencoba menerapkannya? Bagikan jawaban Anda di komentar. Kami akan senang mendengar dari Anda.

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Diploma PG IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1- on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa itu klasifikasi dan regresi dalam pembelajaran mesin?

Klasifikasi dan regresi adalah jenis algoritma pembelajaran terawasi yang digunakan dalam pembelajaran mesin. Tetapi ada perbedaan spesifik yang berbeda antara algoritma ini. Algoritma regresi dalam pembelajaran mesin digunakan untuk memperkirakan nilai kontinu suatu variabel berdasarkan variabel input tertentu. Algoritma ini digunakan untuk menghitung variabel kontinu seperti tinggi, pendapatan, berat badan, skor, cuaca, dll. Artinya, hanya dapat digunakan untuk menghitung nilai diskrit format integer. Algoritma klasifikasi digunakan untuk menghitung nilai variabel diskrit. Menariknya, teknik klasifikasi dapat menangani variabel diskrit dan nilai riil, tetapi mereka harus diklasifikasikan ke dalam kategori yang diklasifikasikan atau diberi label yang berbeda.

Apakah penambangan data dan pembelajaran mesin sama?

Apa manfaat penambangan data?

Data mining secara efektif menawarkan cara untuk menyelesaikan masalah yang berkaitan dengan data atau informasi di dunia yang berpusat pada data ini. Ini membantu bisnis mengumpulkan informasi yang berguna dan dapat diandalkan. Akibatnya, perusahaan dapat mendasarkan keputusan mereka atau memodifikasi operasi yang pada akhirnya mendorong lebih banyak keuntungan. Penambangan data memainkan peran penting dalam membantu perusahaan membuat keputusan yang tepat, mendeteksi dan mengurangi risiko, serta meminimalkan insiden penipuan. Ilmuwan data dapat dengan cepat menjelajahi volume besar data harian menggunakan teknik penambangan data yang hemat biaya dan efisien.