Pengantar Regresi Multivarian dalam Pembelajaran Mesin: Panduan Lengkap
Diterbitkan: 2021-09-15Bukan rahasia lagi bahwa teknologi saat ini didorong oleh data. Data mungkin hanya berupa kumpulan angka tetapi dapat diproses secara bermakna untuk mengekstrak produktivitas dan sumber daya agar bisnis tetap kompetitif dan berkelanjutan dalam jangka panjang. Seperti yang terjadi, analisis data adalah jawaban untuk mendapatkan estimasi yang akurat dari informasi mentah.
Analisis Data adalah teknik yang melibatkan ide-ide statistik dan logis untuk meneliti, memproses, dan mengubah data menjadi bentuk yang dapat digunakan. Solusi yang diambil oleh analisis data digunakan dalam bisnis untuk membuat keputusan penting. Ilmu data bersama dengan analisis data digunakan untuk memprediksi hasil di masa depan dengan akurasi tinggi. Ini adalah proses menggunakan teknik ilmiah, dan algoritma untuk mendapatkan informasi yang layak dari kumpulan data.
Masalah umum yang dihadapi oleh profesional data adalah cara untuk menentukan apakah ada hubungan statistik antara variabel respons (dilambangkan dengan Y) dan variabel penjelas (dilambangkan dengan Xi).
Jawaban atas kekhawatiran ini adalah analisis regresi. Mari kita pahami ini secara lebih rinci.
Daftar isi
Apa itu Analisis Regresi?
Analisis regresi adalah salah satu metode populer dalam analisis data yang mengikuti algoritma pembelajaran mesin yang dikendalikan atau diawasi. Ini adalah teknik yang efektif untuk mengidentifikasi dan membangun hubungan antara variabel dalam data.
Analisis regresi melibatkan pemilahan variabel yang layak menggunakan strategi matematika untuk menarik kesimpulan yang sangat akurat tentang variabel yang diurutkan tersebut.
Apa itu Regresi Multivariat?
Multivariat adalah algoritme Pembelajaran Mesin yang dikontrol atau diawasi yang menganalisis banyak variabel data. Merupakan kelanjutan dari regresi berganda yang melibatkan satu variabel terikat dan banyak variabel bebas. Outputnya diprediksi berdasarkan jumlah variabel independen.
Regresi multivariat menggambarkan formula yang menjelaskan respons simultan dari faktor-faktor yang ada dalam variabel terhadap perubahan yang lain. Mereka digunakan untuk mempelajari data di berbagai bidang. Misalnya, regresi multivariat real estat digunakan untuk memprediksi harga rumah berdasarkan beberapa faktor seperti lokasi, jumlah kamar, dan fasilitas yang tersedia.
Fungsi Biaya dalam Regresi Multivariat
Fungsi biaya mengalokasikan biaya untuk sampel ketika hasil model menyimpang dari data yang diamati. Persamaan fungsi biaya adalah total kuadrat selisih antara nilai prediksi dan nilai sebenarnya dibagi dua kali panjang kumpulan data.
Berikut ini contohnya :
hasil :
Sumber
Bagaimana cara menggunakan Analisis Regresi Multivariat?
Proses yang terlibat dalam analisis regresi multivariat meliputi pemilihan fitur, rekayasa fitur, normalisasi fitur, fungsi kehilangan seleksi, analisis hipotesis, dan membuat model regresi.
- Pemilihan fitur: Ini adalah langkah terpenting dalam regresi multivariat. Juga dikenal sebagai pemilihan variabel, proses ini melibatkan pemilihan variabel yang layak untuk membangun model yang efisien.
- Normalisasi Fitur: Ini melibatkan penskalaan fitur untuk mempertahankan distribusi yang efisien dan rasio data. Ini membantu dalam analisis data yang lebih baik. Nilai semua fitur dapat diubah sesuai dengan kebutuhan.
- Memilih Fungsi kerugian dan hipotesis : Fungsi kerugian digunakan untuk memprediksi kesalahan. Fungsi kerugian ikut bermain ketika prediksi hipotesis berubah dari angka sebenarnya. Di sini, hipotesis mewakili nilai yang diprediksi dari fitur atau variabel.
- Memperbaiki parameter hipotesis : Parameter hipotesis ditetapkan atau diatur sedemikian rupa sehingga meminimalkan fungsi kerugian dan meningkatkan prediksi yang lebih baik.
- Mengurangi fungsi kerugian : Fungsi kerugian diminimalkan dengan menghasilkan algoritma khusus untuk meminimalkan kerugian pada dataset yang pada gilirannya memfasilitasi perubahan parameter hipotesis. Penurunan gradien adalah algoritma yang paling umum digunakan untuk meminimalkan kerugian. Algoritme juga dapat digunakan untuk tindakan lain setelah minimisasi kerugian selesai.
- Menganalisis fungsi hipotesis : Fungsi hipotesis perlu dianalisis karena sangat penting untuk memprediksi nilai. Setelah fungsi dianalisis, kemudian diuji pada data uji.
Sekarang mari kita lihat dua cara regresi multivariat dapat digunakan.
1. Regresi Linier Multivariat
Regresi linier multivariat menyerupai regresi linier sederhana kecuali bahwa dalam regresi linier multivariat, beberapa variabel independen berkontribusi pada variabel dependen sehingga koefisien berganda digunakan dalam perhitungan.
- Ini digunakan untuk mendapatkan hubungan matematis di antara beberapa variabel acak. Ini menjelaskan berapa banyak variabel independen yang terkait dengan satu variabel dependen.
- Rincian dari beberapa variabel independen digunakan untuk membuat prediksi yang akurat tentang pengaruhnya terhadap variabel hasil.
- Model regresi linier multivariat menghasilkan hubungan dalam bentuk linier (bentuk garis lurus) dengan pendekatan terbaik dari setiap titik data.
- Persamaan model regresi linier multivariat adalah:
yi=β0+β1xi1+β2xi2+…+pxip+
dimana untuk i=n pengamatan:
Sumber
Kapan regresi linier dapat digunakan?
Model regresi linier hanya dapat digunakan jika terdapat dua variabel kontinu, yang satu bergantung dan yang lainnya bebas.
Variabel bebas digunakan sebagai parameter untuk menentukan nilai atau hasil dari variabel terikat.
2. Regresi Logistik Multivariat
Regresi logistik adalah algoritma yang digunakan untuk memprediksi hasil biner berdasarkan beberapa variabel independen. Hasil biner memiliki dua kemungkinan, baik skenario terjadi ( diwakili oleh 1) atau tidak terjadi ( dilambangkan dengan 0).
Regresi logistik digunakan saat mengerjakan data biner, data di mana hasilnya (atau variabel dependen) bersifat dikotomis.
Di mana regresi logistik dapat digunakan?
Regresi logistik terutama digunakan untuk menangani masalah klasifikasi. Misalnya, untuk memastikan apakah sebuah email adalah spam atau bukan dan apakah transaksi tertentu berbahaya atau tidak. Dalam analisis data, digunakan untuk membuat keputusan yang diperhitungkan untuk meminimalkan kerugian dan meningkatkan keuntungan.
Regresi logistik multivariat digunakan ketika ada satu variabel dependen dan beberapa hasil. Ini berbeda dari regresi logistik dengan memiliki lebih dari dua kemungkinan hasil.
X1 sampai Xp adalah variabel bebas yang berbeda.
b0 hingga bp adalah koefisien regresi
Model regresi logistik berganda juga dapat ditulis dalam bentuk yang berbeda. Dalam formulir di bawah ini, hasilnya adalah log yang diharapkan dari peluang bahwa hasilnya ada,
Model regresi logistik berganda juga dapat ditulis dalam bentuk yang berbeda. Dalam formulir di bawah ini, hasilnya adalah log yang diharapkan dari peluang bahwa hasilnya ada.
Ruas kanan persamaan di atas menyerupai persamaan regresi linier tetapi cara mencari koefisien regresinya berbeda.
Asumsi dalam Model Regresi Multivariat
- Variabel terikat dan variabel bebas memiliki hubungan linier.
- Variabel independen tidak memiliki korelasi yang kuat di antara mereka sendiri.
- Pengamatan yi dipilih secara acak dan individual dari populasi.
Asumsi dalam Model Regresi Logistik Multivariat
- Variabel terikat adalah nominal atau ordinal. Variabel nominal memiliki dua atau lebih kategori tanpa organisasi yang berarti. Variabel ordinal juga dapat memiliki dua atau lebih kategori, tetapi mereka memiliki struktur dan dapat diberi peringkat.
- Bisa ada variabel bebas tunggal atau ganda yang bisa ordinal, kontinu, atau nominal. Variabel kontinu adalah variabel yang dapat memiliki nilai tak terbatas dalam rentang tertentu.
- Variabel dependen saling eksklusif dan lengkap.
- Variabel independen tidak memiliki korelasi yang kuat di antara mereka sendiri.
Keuntungan Regresi Multivariat
- Regresi multivariat membantu kita mempelajari hubungan di antara banyak variabel dalam kumpulan data.
- Korelasi antara variabel dependen dan independen membantu dalam memprediksi hasil.
- Ini adalah salah satu algoritma paling nyaman dan populer yang digunakan dalam pembelajaran mesin.
Kekurangan Regresi Multivariat
- Kompleksitas teknik multivariat membutuhkan perhitungan matematis yang kompleks.
- Tidak mudah untuk menginterpretasikan output dari model regresi multivariat karena terdapat inkonsistensi pada output loss dan error.
- Model regresi multivariat tidak dapat diterapkan pada kumpulan data yang lebih kecil; mereka dirancang untuk menghasilkan keluaran yang akurat dalam hal kumpulan data yang lebih besar.
Jika Anda ingin mempelajari lebih lanjut tentang regresi multivariat dan mata pelajaran ilmu data kompleks lainnya, upGrad memiliki solusi untuk Anda. Kursus Master of Science dalam Ilmu Data selama 18 bulan kami dari Liverpool John Moores University mencakup 500+ jam belajar yang ketat, 25 sesi pelatihan (diadakan dengan basis 1:8), dan 20+ sesi langsung. upGrad juga menawarkan bantuan pengajaran 1:1 dan dukungan bimbingan karir 360° bagi siswa untuk mengubah karir mereka. Pelajar dapat memanfaatkan pembelajaran peer-to-peer di platform global dengan lebih dari 40.000 pelajar berbayar, dan mengerjakan proyek kolaboratif di enam spesialisasi fungsional untuk memaksimalkan pengalaman belajar mereka.
Model regresi multivariabel adalah algoritma pembelajaran mesin yang dirancang untuk menentukan hubungan statistik antara satu variabel terikat dan beberapa variabel bebas. Model regresi multivariat banyak digunakan dalam studi penelitian untuk analisis data yang lebih efisien. Mereka biasanya diterapkan di mana ada beberapa variabel atau fitur independen yang ada. Dua metode analisis multivariat utama adalah analisis faktor umum dan analisis komponen utama.Apa itu model regresi multivariat?
Apa gunanya regresi multivariat?
Manakah dua metode analisis multivariat yang paling umum?