Panduan Pemula untuk Inferensi Bayesian: Panduan Lengkap

Diterbitkan: 2021-11-26

Aplikasi pembelajaran mesin telah meningkat dengan penerapan yang luas dalam penelitian, media sosial, periklanan, dll. Namun, sebagian besar aplikasi berurusan dengan prediksi yang melibatkan sejumlah besar data. Statistik sering digunakan untuk kuantifikasi pengukuran nilai-nilai ketidakpastian. Jika kita memiliki kejadian yang berbeda, maka tiga pendekatan dapat menentukan peluang kejadian tersebut.
Ketiga metode tersebut adalah:

  • Klasik
  • Bayesian
  • Sering

Mari kita perhatikan contoh sebuah dadu yang dilempar untuk mencari peluang munculnya wajah “empat”. Ini akan membantu dalam pemahaman tentang tiga jenis metode penentuan probabilitas. Misalkan Anda mempertimbangkan metode klasik estimasi probabilitas. Dalam kasus itu, akan diyakini bahwa akan ada total enam hasil, dan probabilitas dari setiap hasil yang terjadi akan sama. Dalam asumsi seperti itu, probabilitas bahwa hasilnya akan menjadi empat adalah 1/6. Metode klasik biasanya bekerja dengan baik ketika hasil memiliki kemungkinan hasil yang sama. Tetapi ketika hasilnya menjadi lebih subjektif, metode ini tidak dapat digunakan.

Jika kita mempertimbangkan metode Frequentist, diperlukan bahwa ada urutan tak terbatas dari suatu peristiwa yang bersifat hipotetis. Ini kemudian membutuhkan pencarian frekuensi yang relevan dalam urutan hipotetis tak terbatas. Mengingat contoh dadu di atas, jika dadu dilempar berkali-kali, hasilnya, yaitu 1/6, kita bisa mendapatkan hasil empat. Oleh karena itu, probabilitas bahwa hasilnya adalah empat dalam dadu bersisi enam adalah 1/6 sesuai dengan definisi metode frequentist.

Sekarang menuju pendekatan Bayesian, ini memberi Anda beberapa keuntungan. Sesuai perspektif metode ini, Anda dapat memasukkan keyakinan pribadi dalam proses pengambilan keputusan. Artinya akan mempertimbangkan hal-hal seperti informasi yang diketahui mengenai masalah tersebut. Fakta bahwa individu yang berbeda dapat memiliki keyakinan yang berbeda juga dipertimbangkan dalam pendekatan ini. Misalnya, jika seseorang menyebutkan bahwa kemungkinan hujan akan menjadi 90% besok, untuk beberapa orang lain, kemungkinan hujan mungkin 60%. Oleh karena itu, metode pendekatan Bayesian bersifat subjektif. Namun, hasilnya lebih intuitif dibandingkan dengan metode Frequentist.

Daftar isi

Inferensi Bayesian

Inferensi Bayesian banyak digunakan untuk masalah Inferensi statistik. Dalam kasus ini, selalu ada kuantitas (data) yang tidak diketahui yang perlu diestimasi. Dan kemudian, dari data tersebut, jumlah yang diinginkan akan diperkirakan. Besaran yang tidak diketahui disebut . Ada asumsi bahwa adalah besaran acak, dan ada beberapa tebakan awal untuk nilai . Jenis distribusi ini disebut sebagai distribusi sebelumnya. Pembaruan nilai biasanya dilakukan melalui aturan Bayes. Oleh karena itu, pendekatan tersebut disebut sebagai pendekatan Bayesian.

Teorema Bayes

Penerapan Inferensi Bayesian tergantung pada pemahaman Teorema Bayes.

Pertimbangkan ada dua himpunan hasil, seperti Himpunan A dan himpunan B. Himpunan ini juga disebut kejadian. Mari kita nyatakan peluang kejadian A sebagai P(A) dan kejadian B sebagai P(B). Ini adalah probabilitas peristiwa secara individual. Namun, probabilitas gabungan dapat didefinisikan melalui istilah P(A, B). Probabilitas bersyarat dapat diperluas sebagai:

P(A,B) = P(A|B)P(B),

Ini berarti bahwa sementara B diberikan, probabilitas bersyarat A dan B menghasilkan probabilitas gabungan dari dua peristiwa.

P(A,B) = P(B|A)P(A)

Pada kedua persamaan di atas, ruas kiri persamaan adalah sama, sehingga ruas kanan persamaan harus sama.

P(A|B)P(B) = P(B|A)P(A)

P(A|B) = P(B|A)P(A)/P(B)

Persamaan ini dikenal sebagai teorema Bayes.

Dalam bidang ilmu data, Teorema Bayes dapat ditulis sebagai:

P(hipotesis|data) = P(data|hipotesis) P(hipotesis)/p(data)

Penyebut, yang merupakan bukti, memastikan bahwa distribusi posterior di sisi kiri persamaan adalah kepadatan probabilitas yang valid. Ini juga disebut konstanta normalisasi.

Ada tiga komponen dalam persamaan teorema Bayes.

  • Sebelumnya
  • Kemungkinan
  • Belakang

Distribusi sebelumnya

Salah satu faktor kunci dalam metode Inferensi Bayesian adalah distribusi Prior. Melalui ini, Anda dapat memasukkan keyakinan pribadi ke dalam proses pengambilan keputusan. Juga, Anda dapat memasukkan penilaian berdasarkan individu yang berbeda ke dalam penelitian. Ini dilakukan melalui ekspresi matematika. Parameter yang tidak diketahui, diwakili oleh , digunakan untuk mengekspresikan keyakinan seseorang. Untuk mengekspresikan keyakinan ini, digunakan fungsi distribusi, yang merupakan distribusi sebelumnya. Oleh karena itu, sebelum menjalankan eksperimen apa pun, distribusi dipilih.

Panduan Pemula untuk Inferensi Bayesian

1. Memilih sebelumnya

Distribusi kumulatif biasanya didefinisikan untuk parameter . Peristiwa-peristiwa dengan nilai probabilitas sebelumnya sebagai nol akan memiliki nilai probabilitas posterior sebagai nol. Dan untuk kejadian-kejadian yang memiliki nilai probabilitas sebelumnya, satu akan memiliki nilai probabilitas posterior sebagai satu. Oleh karena itu, kerangka pendekatan Bayesian yang baik tidak akan mendefinisikan beberapa perkiraan titik untuk peristiwa-peristiwa yang sudah terjadi, atau tidak ada informasi tentang kejadiannya. Ada teknik tertentu untuk memilih prior. Salah satu teknik yang banyak digunakan untuk memilih prior adalah melalui penggunaan fungsi distribusi. Keluarga dari semua fungsi digunakan. Fungsi-fungsi ini harus fleksibel dan akan mampu mewakili keyakinan individu.

2. Kemungkinan

Mari kita pertimbangkan sebagai parameter yang tidak diketahui yang akan diestimasi. Kewajaran sebuah koin dapat dinyatakan melalui , dengan mempertimbangkan contoh Inferensi Bayesian . Koin sedang dibalik tanpa batas untuk memeriksa keadilannya. Jadi, setiap kali membalik, akan ada kepala atau ekor. Nilai-nilai yang ditetapkan untuk peristiwa adalah 0 dan 1. Ini juga disebut sebagai percobaan Bernoulli. Semua hasil dianggap independen. Hal ini dapat diungkapkan melalui persamaan yang mendefinisikan konsep kemungkinan. Kemungkinan adalah fungsi kepadatan yang merupakan fungsi dari . Untuk memaksimalkan kemungkinan, nilai harus menghasilkan nilai kemungkinan terbesar. Metode estimasi juga dikenal sebagai estimasi kemungkinan Maksimum.

3. Distribusi posterior

Hasil dari teorema Bayes dikenal sebagai distribusi posterior. Ini adalah probabilitas yang diperbarui dari setiap peristiwa yang terjadi setelah mempertimbangkan informasi baru.

4. Mekanisme Inferensi Bayesian

Seperti yang telah kita lihat di atas, metode Inferensi Bayesian memperlakukan konsep probabilitas sebagai beberapa tingkat kepercayaan. Keyakinan ini terkait dengan fakta bahwa peristiwa tersebut mungkin terjadi di bawah bukti tersebut. Oleh karena itu, parameter theta “θ” dianggap sebagai variabel acak.

5. Aplikasi Inferensi Bayesian dalam risiko keuangan

Ada banyak algoritma di mana Inferensi Bayesian dapat diterapkan. Beberapa algoritma adalah jaringan saraf, hutan acak, regresi, dll. Metode ini juga menemukan popularitas di sektor keuangan. Dapat digunakan untuk pemodelan risiko operasional beberapa bank. Data bank yang menunjukkan kerugian operasional menunjukkan beberapa peristiwa yang hilang. Peristiwa yang hilang ini memiliki frekuensi yang rendah tetapi memiliki tingkat keparahan yang tinggi. Oleh karena itu, dalam kasus seperti itu, Inferensi Bayesian terbukti sangat berguna. Hal ini karena, dalam metode ini, banyak data juga tidak diperlukan untuk analisis.

Metode analisis statistik lainnya, seperti metode frequentist, juga diterapkan sebelumnya untuk pemodelan risiko operasional. Namun ada masalah dalam mengestimasi parameter ketidakpastian. Oleh karena itu, Inferensi Bayesian telah dianggap sebagai metode yang paling efektif. Hal ini karena pendapat pakar dan data dapat digunakan untuk menurunkan distribusi posterior. Dalam jenis tugas ini, data kerugian internal bank dipecah menjadi beberapa fragmen yang lebih kecil, dan kemudian frekuensi masing-masing fragmen diperkirakan melalui penilaian ahli. Ini kemudian dipasang ke dalam distribusi probabilitas.

Bergabunglah dengan Kursus Pembelajaran Mesin online dari Universitas top dunia – Magister, Program Pascasarjana Eksekutif, dan Program Sertifikat Tingkat Lanjut di ML & AI untuk mempercepat karier Anda.

Kesimpulan

Dalam statistik dan pembelajaran mesin, dua pendekatan utama yang dapat diterapkan adalah metode Frequentist dan Bayesian Inference. Kami telah membahas metode Inferensi Bayesian dalam artikel, di mana probabilitas dihitung sebagai keyakinan subjektif. Seiring dengan data, keyakinan pribadi orang-orang juga dimasukkan saat memperkirakan probabilitas. Ini membuat model jauh lebih diterima secara luas dalam banyak studi estimasi. Oleh karena itu, teknik Inferensi Bayesian menentukan metode atau cara untuk menerapkan keyakinan Anda pada pengamatan data. Selain itu, dalam banyak jenis aplikasi dengan banyak data yang bising, teknik Inferensi Bayesian dapat digunakan. Oleh karena itu, pangkat yang terletak pada aturan Bayes dapat dikaitkan dengan besaran yang dapat dihitung dengan besaran yang dapat digunakan untuk menjawab pertanyaan yang bersifat arbitrer.

Tingkatkan Karir Anda dalam Pembelajaran Mesin dan Kecerdasan Buatan

Daftar Sekarang untuk EPGP dalam Pembelajaran Mesin & AI