Statistik untuk Pembelajaran Mesin: Semua yang Perlu Anda Ketahui

Diterbitkan: 2021-03-12

Statistik dan Probabilitas membentuk inti dari Pembelajaran Mesin dan Ilmu Data. Analisis statistik yang digabungkan dengan kekuatan komputasi dan pengoptimalan inilah yang membuat Machine Learning mampu mencapai apa yang dicapainya saat ini. Dari dasar-dasar probabilitas hingga statistik deskriptif dan inferensial, topik-topik ini menjadi dasar Machine Learning.

Pada akhir tutorial ini, Anda akan mengetahui hal berikut:

Dasar-dasar Probabilitas
Distribusi Probabilitas
Distribusi normal
Ukuran Tendensi Sentral
Teorema Limit Pusat
Deviasi Standar & Kesalahan Standar
Kemiringan & Kurtosis

Daftar isi

Dasar-dasar Probabilitas

Acara Independen dan Dependen

Mari kita perhatikan 2 kejadian, kejadian A dan kejadian B. Jika peluang kejadian A tidak bergantung pada kejadian B, maka A dan B adalah kejadian bebas. Misalnya, jika Anda memiliki 2 koin yang adil, maka kemungkinan mendapatkan kepala pada kedua koin tersebut adalah 0,5 untuk keduanya. Oleh karena itu peristiwa-peristiwa itu independen.

Sekarang perhatikan sebuah kotak berisi 5 bola — 2 hitam dan 3 merah. Peluang terambilnya bola hitam pertama adalah 2/5. Sekarang peluang terambilnya bola hitam lagi dari 4 bola yang tersisa adalah 1/4. Dalam hal ini, dua kejadian bergantung karena peluang terambilnya bola hitam untuk kedua kalinya bergantung pada bola apa yang diambil pada pengambilan pertama.

Probabilitas Marginal

Ini adalah probabilitas suatu peristiwa terlepas dari hasil variabel acak lainnya, misalnya P(A) atau P(B).

Probabilitas Gabungan

Probabilitas dua kejadian berbeda yang terjadi pada waktu yang sama, yaitu, dua (atau lebih) kejadian bersamaan, misalnya P(A dan B) atau P(A, B).

Probabilitas Bersyarat

Ini adalah probabilitas dari satu (atau lebih) peristiwa, mengingat terjadinya peristiwa lain atau dengan kata lain, itu adalah probabilitas suatu peristiwa A terjadi ketika peristiwa sekunder B benar. misalnya P(A diberikan B) atau P(A | B).

Bergabunglah dengan Kursus ML online dari Universitas top dunia – Magister, Program Pascasarjana Eksekutif, dan Program Sertifikat Tingkat Lanjut di ML & AI untuk mempercepat karier Anda.

Distribusi Probabilitas

Distribusi Probabilitas menggambarkan distribusi titik data dalam ruang sampel. Ini membantu kita melihat kemungkinan pengambilan sampel titik data tertentu ketika diambil sampelnya secara acak dari populasi. Misalnya, jika suatu populasi terdiri dari nilai siswa dari suatu sekolah, maka distribusi probabilitas akan memiliki Nilai pada sumbu X dan jumlah siswa dengan nilai tersebut pada sumbu Y. Ini juga disebut Histogram . Histogram adalah jenis Distribusi Probabilitas Diskrit . Jenis utama dari Distribusi Diskrit adalah Distribusi Binomial, Distribusi Poisson dan Distribusi Seragam.

Di sisi lain, Distribusi Probabilitas Kontinu dibuat untuk data yang memiliki nilai kontinu. Dengan kata lain, ketika itu dapat memiliki serangkaian nilai tak terbatas seperti tinggi, kecepatan, suhu, dll. Distribusi Probabilitas Berkelanjutan memiliki kegunaan yang luar biasa dalam Ilmu Data dan analisis statistik untuk memeriksa kepentingan fitur, distribusi data, uji statistik, dll.

Baca juga matematika di balik pembelajaran mesin

Distribusi normal

Distribusi kontinu yang paling terkenal adalah Distribusi Normal, yang juga dikenal sebagai distribusi Gaussian atau "Kurva Bell".

Pertimbangkan distribusi normal ketinggian orang. Sebagian besar ketinggian berkerumun di bagian tengah yang lebih tinggi dan secara bertahap berkurang ke arah ekstrem kiri dan kanan yang menunjukkan kemungkinan lebih rendah untuk mendapatkan nilai itu secara acak.

Kurva ini berpusat pada rata-ratanya dan bisa tinggi dan ramping atau bisa pendek dan menyebar. Yang ramping menunjukkan bahwa ada lebih sedikit jumlah nilai berbeda yang dapat kita sampel. Dan kurva yang lebih menyebar menunjukkan bahwa ada rentang nilai yang lebih besar. Spread ini ditentukan oleh Standar Deviasinya .

Semakin besar Standar Deviasi, semakin banyak pula penyebaran data Anda. Standar Deviasi hanyalah turunan matematis dari properti lain yang disebut Varians, yang menentukan seberapa banyak data 'bervariasi'. Dan varians adalah semua tentang data, Varians adalah informasi. Tidak ada Varians, tidak ada informasi. Distribusi Normal memiliki peran penting dalam statistik – Teorema Batas Pusat.

Ukuran Tendensi Sentral

Ukuran Tendensi Sentral adalah cara kita dapat meringkas kumpulan data dengan mengambil satu nilai. Ada 3 Ukuran Kecenderungan terutama:

1. Mean: Mean hanyalah mean aritmatika atau rata-rata dari nilai dalam data/fitur. Jumlah semua nilai dibagi dengan jumlah nilai memberi kita mean. Rata-rata biasanya merupakan cara paling umum untuk mengukur pusat data apa pun, tetapi dapat menyesatkan dalam beberapa kasus. Misalnya, ketika ada banyak outlier, mean akan mulai bergeser ke arah outlier dan menjadi ukuran yang buruk dari pusat data Anda.

2. Median : Median adalah titik data yang terletak tepat di tengah ketika data diurutkan dalam urutan naik atau turun. Bila jumlah titik data ganjil, maka median mudah dipilih sebagai titik paling tengah. Bila jumlah titik data genap, maka median dihitung sebagai mean dari 2 titik pusat data terbanyak.

3. Mode: Mode adalah titik data yang paling sering ada dalam kumpulan data. Mode tetap paling kuat untuk outlier karena masih akan tetap pada titik yang paling sering.

Teorema Limit Pusat

Teorema limit pusat dalam statistik menyatakan bahwa, dengan ukuran sampel yang cukup besar, distribusi sampling akan mendekati distribusi normal terlepas dari distribusi variabel tersebut. Biarkan saya membawa esensi dari pernyataan di atas dengan kata-kata sederhana.

Data mungkin dari distribusi apapun. Itu bisa sempurna atau miring normal, bisa eksponensial atau (hampir) distribusi apa pun yang mungkin Anda pikirkan. Namun, jika Anda berulang kali mengambil sampel dari populasi dan terus memplot histogram meannya, Anda akhirnya akan menemukan bahwa distribusi baru dari semua mean ini menyerupai Distribusi Normal!

Intinya, tidak peduli apa distribusi data Anda, distribusi sarana mereka akan selalu normal.

Tapi berapa banyak sampel yang dibutuhkan untuk mempertahankan CLT benar? Aturan praktis mengatakan bahwa itu harus> 30. Jadi, jika Anda mengambil 30 atau lebih sampel dari distribusi apa pun, artinya akan terdistribusi secara normal terlepas dari jenis distribusi yang mendasarinya.

Deviasi Standar & Kesalahan Standar

Standar Deviasi dan Standar Error sering dikacaukan satu sama lain. Standar Deviasi, seperti yang Anda ketahui, menggambarkan atau mengkuantifikasi variasi data di kedua sisi distribusi – lebih rendah dari rata-rata dan lebih besar dari rata-rata. Jika titik data Anda tersebar di rentang nilai yang besar, standar deviasi akan tinggi.

Sekarang, seperti yang telah kita bahas di atas, dengan Teorema Limit Pusat, jika kita memplot rata-rata semua sampel dari suatu populasi, distribusi rata-rata tersebut akan kembali menjadi distribusi normal. Jadi itu akan memiliki standar deviasi sendiri, kan?

Simpangan baku rata-rata semua sampel dari suatu populasi disebut Kesalahan Standar. Nilai Kesalahan Standar biasanya akan lebih kecil dari Standar Deviasi saat Anda menghitung standar deviasi rata-rata, dan nilai rata-rata akan lebih sedikit menyebar daripada titik data individual karena agregasi.

Anda bahkan dapat menghitung standar deviasi median, modus atau bahkan standar deviasi standar deviasi!

Sebelum kamu pergi

Konsep statistik membentuk inti sebenarnya dari Ilmu Data dan ML. Untuk dapat membuat deduksi yang valid dan memahami data yang ada secara efektif, Anda harus memiliki pemahaman yang kuat tentang konsep statistik dan probabilitas yang dibahas dalam tutorial ini.

upGrad menyediakan Program PG Eksekutif dalam Pembelajaran Mesin & AI dan Magister Sains dalam Pembelajaran Mesin & AI yang dapat memandu Anda dalam membangun karier. Kursus-kursus ini akan menjelaskan perlunya Pembelajaran Mesin dan langkah-langkah lebih lanjut untuk mengumpulkan pengetahuan dalam domain ini yang mencakup beragam konsep mulai dari Gradient Descent hingga Machine Learning.

Apakah pengetahuan tentang statistik wajib untuk berhasil dalam pembelajaran mesin?

Statistik adalah bidang yang sangat luas. Dalam pembelajaran mesin, statistik pada dasarnya membantu dalam memahami data secara mendalam. Beberapa konsep statistik seperti probabilitas, interpretasi data, dll diperlukan dalam beberapa algoritma pembelajaran mesin. Namun, Anda tidak harus menjadi ahli dalam semua topik statistik untuk berhasil dalam pembelajaran mesin. Dengan mengetahui hanya konsep dasar, Anda akan dapat melakukan secara efisien.

Apakah mengetahui beberapa pengkodean sebelumnya akan membantu dalam pembelajaran mesin?

Pengkodean adalah jantung dari pembelajaran mesin, dan programmer yang memahami cara membuat kode dengan baik akan memiliki pemahaman mendalam tentang bagaimana algoritme berfungsi dan, dengan demikian, akan dapat memantau dan mengoptimalkan algoritme tersebut secara lebih efektif. Anda tidak perlu menjadi ahli dalam bahasa pemrograman apa pun, meskipun pengetahuan sebelumnya akan bermanfaat. Jika Anda seorang pemula, Python adalah pilihan yang baik karena mudah dipelajari dan memiliki sintaks yang ramah pengguna.

Bagaimana kita menggunakan kalkulus dalam kehidupan sehari-hari?

Prakiraan cuaca didasarkan pada sejumlah variabel, seperti kecepatan angin, kadar air, dan suhu, yang hanya dapat dihitung menggunakan kalkulus. Penggunaan kalkulus juga dapat dilihat dalam teknik penerbangan dalam berbagai cara. Kalkulus juga digunakan oleh industri kendaraan untuk meningkatkan dan memastikan keamanan kendaraan yang baik. Ini juga digunakan oleh perusahaan kartu kredit untuk tujuan pembayaran.