Apa itu Hipotesis dalam Pembelajaran Mesin? Bagaimana Membentuk Hipotesis?

Diterbitkan: 2021-03-12

Pengujian Hipotesis adalah subjek yang luas yang berlaku untuk banyak bidang. Ketika kita mempelajari statistik, Pengujian Hipotesis di sana melibatkan data dari beberapa populasi dan pengujiannya adalah untuk melihat seberapa signifikan pengaruhnya terhadap populasi.

Ini melibatkan penghitungan nilai-p dan membandingkannya dengan nilai kritis atau alfa. Ketika datang ke Machine Learning, Pengujian Hipotesis berkaitan dengan menemukan fungsi yang paling mendekati fitur independen ke target. Dengan kata lain, memetakan input ke output.

Pada akhir tutorial ini, Anda akan mengetahui hal berikut:

Apa itu Hipotesis dalam Statistik vs Pembelajaran Mesin
Apa itu ruang Hipotesis?
Proses Pembentukan Hipotesis

Daftar isi

Hipotesis dalam Statistik

Hipotesis adalah asumsi suatu hasil yang dapat difalsifikasi, artinya dapat dibuktikan salah dengan beberapa bukti. Suatu hipotesis dapat ditolak atau gagal ditolak. Kami tidak pernah menerima hipotesis apa pun dalam statistik karena ini semua tentang probabilitas dan kami tidak pernah 100% yakin. Sebelum memulai percobaan, kami mendefinisikan dua hipotesis:

1. Hipotesis Null: menyatakan tidak ada pengaruh yang signifikan

2. Hipotesis Alternatif: menyatakan ada pengaruh yang signifikan

Dalam statistik, kami membandingkan nilai-P (yang dihitung menggunakan berbagai jenis uji statistik) dengan nilai kritis atau alfa. Semakin besar nilai P, semakin tinggi kemungkinannya, yang pada gilirannya menandakan bahwa efeknya tidak signifikan dan kami menyimpulkan bahwa kami gagal menolak hipotesis nol .

Dengan kata lain, efeknya sangat mungkin terjadi secara kebetulan dan tidak ada signifikansi statistiknya. Sebaliknya, jika kita mendapatkan nilai P yang sangat kecil, berarti kemungkinannya kecil. Itu berarti kemungkinan suatu peristiwa terjadi secara kebetulan sangat rendah.

Bergabunglah dengan Kursus ML dan AI online dari Universitas top dunia – Magister, Program Pascasarjana Eksekutif, dan Program Sertifikat Tingkat Lanjut di ML & AI untuk mempercepat karier Anda.

Tingkat Signifikansi

Tingkat Signifikansi diatur sebelum memulai eksperimen. Ini menentukan seberapa besar toleransi kesalahan dan pada tingkat mana efeknya dapat dianggap signifikan. Nilai umum untuk tingkat signifikansi adalah 95% yang juga berarti bahwa ada kemungkinan 5% kita tertipu oleh tes dan membuat kesalahan. Dengan kata lain, nilai kritis adalah 0,05 yang bertindak sebagai ambang batas. Demikian pula, jika tingkat signifikansi ditetapkan sebesar 99%, itu berarti nilai kritis 0,01%.

Nilai-P

Uji statistik dilakukan pada populasi dan sampel untuk mengetahui nilai P yang kemudian dibandingkan dengan nilai kritisnya. Jika nilai P ternyata lebih kecil dari nilai kritisnya, maka kita dapat menyimpulkan bahwa pengaruhnya signifikan dan karenanya menolak Hipotesis Null (yang mengatakan tidak ada pengaruh yang signifikan). Jika P-Value keluar lebih dari nilai kritis, kita dapat menyimpulkan bahwa tidak ada pengaruh yang signifikan dan karenanya gagal untuk menolak Hipotesis Null.

Sekarang, karena kami tidak pernah bisa 100% yakin, selalu ada kemungkinan pengujian kami benar tetapi hasilnya menyesatkan. Artinya baik kita menolak null padahal sebenarnya tidak salah. Ini juga bisa berarti bahwa kita tidak menolak nol padahal sebenarnya itu salah. Ini adalah kesalahan tipe 1 dan tipe 2 dari Pengujian Hipotesis.

Contoh

Pertimbangkan Anda bekerja untuk produsen vaksin dan tim Anda mengembangkan vaksin untuk Covid-19. Untuk membuktikan keampuhan vaksin ini, perlu dibuktikan secara statistik bahwa vaksin ini efektif pada manusia. Oleh karena itu, kami mengambil dua kelompok orang dengan ukuran dan sifat yang sama. Kami memberikan vaksin kepada kelompok A dan kami memberikan plasebo untuk kelompok B. Kami melakukan analisis untuk melihat berapa banyak orang di kelompok A yang terinfeksi dan berapa banyak di kelompok B yang terinfeksi.

Kami menguji ini beberapa kali untuk melihat apakah grup A mengembangkan kekebalan yang signifikan terhadap Covid-19 atau tidak. Kami menghitung nilai-P untuk semua pengujian ini dan menyimpulkan bahwa nilai-P selalu lebih kecil dari nilai kritis. Oleh karena itu, kita dapat dengan aman menolak hipotesis nol dan menyimpulkan bahwa memang ada pengaruh yang signifikan.

Baca: Penjelasan Model Machine Learning

Hipotesis dalam Pembelajaran Mesin

Hipotesis dalam Pembelajaran Mesin digunakan ketika dalam Pembelajaran Mesin Terbimbing, kita perlu menemukan fungsi yang paling baik memetakan input ke output. Ini juga bisa disebut aproksimasi fungsi karena kita melakukan aproksimasi fungsi target yang paling baik memetakan fitur ke target.

1. Hipotesis(h): Hipotesis dapat berupa model tunggal yang memetakan fitur ke target, namun dapat berupa hasil/metrik. Suatu hipotesis ditandai dengan “ h ”.

2. Ruang Hipotesis(H): Ruang hipotesis adalah rangkaian lengkap model dan kemungkinan parameternya yang dapat digunakan untuk memodelkan data. Ditandai dengan “ H ”. Dengan kata lain, Hipotesis adalah himpunan bagian dari Ruang Hipotesis.

Proses Pembentukan Hipotesis

Intinya, kami memiliki data pelatihan (fitur independen dan target) dan fungsi target yang memetakan fitur ke target. Ini kemudian dijalankan pada berbagai jenis algoritma menggunakan berbagai jenis konfigurasi ruang hyperparameter mereka untuk memeriksa konfigurasi mana yang menghasilkan hasil terbaik. Data latih digunakan untuk merumuskan dan menemukan hipotesis terbaik dari ruang hipotesis. Data uji digunakan untuk memvalidasi atau memverifikasi hasil yang dihasilkan oleh hipotesis.

Pertimbangkan contoh di mana kami memiliki kumpulan data 10.000 instance dengan 10 fitur dan satu target. Targetnya adalah biner, yang berarti masalah klasifikasi biner. Sekarang, katakanlah, kami memodelkan data ini menggunakan Regresi Logistik dan mendapatkan akurasi 78%. Kita dapat menggambar garis regresi yang memisahkan kedua kelas tersebut. Ini adalah Hipotesis (h). Kemudian kami menguji hipotesis ini pada data uji dan mendapatkan skor 74%.

Sekarang, sekali lagi asumsikan kita cocok dengan model RandomForests pada data yang sama dan mendapatkan skor akurasi 85%. Ini adalah peningkatan yang baik dari Regresi Logistik. Sekarang kami memutuskan untuk menyetel hyperparameters RandomForests untuk mendapatkan skor yang lebih baik pada data yang sama. Kami melakukan pencarian grid dan menjalankan beberapa model RandomForest pada data dan memeriksa kinerjanya. Pada langkah ini, kami pada dasarnya mencari Ruang Hipotesis (H) untuk menemukan fungsi yang lebih baik. Setelah menyelesaikan pencarian grid, kami mendapatkan skor terbaik 89% dan kami mengakhiri pencarian.

Sekarang kami juga mencoba lebih banyak model seperti XGBoost, Support Vector Machine, dan teorema Naive Bayes untuk menguji kinerjanya pada data yang sama. Kami kemudian memilih model berkinerja terbaik dan mengujinya pada data uji untuk memvalidasi kinerjanya dan mendapatkan skor 87%.

Lihat: Proyek & Topik Pembelajaran Mesin

Sebelum kamu pergi

Hipotesis adalah aspek penting dari Pembelajaran Mesin dan Ilmu Data. Itu ada di semua domain analitik dan merupakan faktor penentu apakah perubahan harus diperkenalkan atau tidak. Baik itu farmasi, perangkat lunak, penjualan, dll. Hipotesis mencakup kumpulan data pelatihan lengkap untuk memeriksa kinerja model dari ruang Hipotesis.

Suatu hipotesis harus dapat difalsifikasi, yang berarti bahwa hipotesis itu harus dapat diuji dan dibuktikan salah jika hasilnya bertentangan. Proses pencarian konfigurasi terbaik dari model memakan waktu ketika banyak konfigurasi yang berbeda perlu diverifikasi. Ada cara untuk mempercepat proses ini juga dengan menggunakan teknik seperti Pencarian Acak pada hyperparameter.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat Program PG Eksekutif IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT -B Status Alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Mengapa kita harus melakukan proyek sumber terbuka?

Ada banyak alasan untuk melakukan proyek sumber terbuka. Anda belajar hal-hal baru, Anda membantu orang lain, Anda berjejaring dengan orang lain, Anda menciptakan reputasi dan banyak lagi. Open source itu menyenangkan, dan pada akhirnya Anda akan mendapatkan sesuatu kembali. Salah satu alasan terpenting adalah bahwa ia membangun portofolio pekerjaan hebat yang dapat Anda presentasikan kepada perusahaan dan dipekerjakan. Proyek sumber terbuka adalah cara yang bagus untuk mempelajari hal-hal baru. Anda dapat meningkatkan pengetahuan Anda tentang pengembangan perangkat lunak atau Anda dapat mempelajari keterampilan baru. Tidak ada cara yang lebih baik untuk belajar selain mengajar.

Bisakah saya berkontribusi untuk open source sebagai pemula?

Ya. Proyek sumber terbuka tidak membeda-bedakan. Komunitas open-source terdiri dari orang-orang yang suka menulis kode. Selalu ada tempat untuk pemula. Anda akan belajar banyak dan juga memiliki kesempatan untuk berpartisipasi dalam berbagai proyek sumber terbuka. Anda akan mempelajari apa yang berhasil dan apa yang tidak dan Anda juga akan memiliki kesempatan untuk membuat kode Anda digunakan oleh komunitas pengembang yang besar. Ada daftar proyek sumber terbuka yang selalu mencari kontributor baru.

Bagaimana cara kerja proyek GitHub?

GitHub menawarkan pengembang cara untuk mengelola proyek dan berkolaborasi satu sama lain. Ini juga berfungsi sebagai semacam resume untuk pengembang, dengan kontributor proyek, dokumentasi, dan rilis yang terdaftar. Kontribusi pada proyek menunjukkan kepada calon pemberi kerja bahwa Anda memiliki keterampilan dan motivasi untuk bekerja dalam tim. Proyek seringkali lebih dari sekadar kode, jadi GitHub memiliki cara agar Anda dapat menyusun proyek Anda seperti Anda membuat struktur situs web. Anda dapat mengelola situs web Anda dengan cabang. Cabang seperti eksperimen atau salinan situs web Anda. Saat Anda ingin bereksperimen dengan fitur baru atau memperbaiki sesuatu, Anda membuat cabang dan bereksperimen di sana. Jika percobaan berhasil, Anda dapat menggabungkan kembali cabang ke situs web asli.