Bagaimana Melakukan Analisis Regresi Berganda?
Diterbitkan: 2021-11-23Dalam analisis statistik, model regresi sebagian besar digunakan bila diperlukan untuk mengembangkan hubungan antara variabel yang dipertimbangkan. Hubungan dibangun dengan memasang garis di antara semua variabel. Untuk memahami perilaku variabel dependen, digunakan model regresi. Mereka membiarkan pengguna tahu bagaimana variabel dependen berubah dengan perubahan variabel independen.
Regresi linier berganda adalah salah satu teknik yang membantu kita memperkirakan hubungan antara variabel-variabel tersebut, yaitu variabel dependen dan variabel independen. Artikel ini akan fokus pada teknik regresi linier berganda dan bagaimana hal itu dilakukan.
Daftar isi
Regresi Linier Berganda
Regresi linier berganda adalah bentuk teknik statistik yang digunakan untuk memprediksi hasil dari setiap variabel respons. Salah satu tujuan dari teknik ini adalah untuk membangun hubungan linier antara variabel bebas dan variabel terikat. Analisis regresi linier berganda merupakan salah satu bentuk analisis multivariat yang melibatkan lebih dari satu bentuk pengamatan.
Sebagian besar teknik dapat dilakukan jika Anda ingin mengetahui hal-hal berikut:
- Untuk memahami seberapa kuat hubungan antar variabel. Juga, jika Anda ingin memahami hubungan antara variabel independen dan variabel dependen, maka dalam kasus tersebut, kita dapat menggunakan teknik regresi linier berganda.
- Teknik tersebut dapat digunakan untuk memprediksi nilai variabel dependen yang bersesuaian dengan variabel independen.
Asumsi yang Dipertimbangkan dalam Regresi Linier Berganda
Asumsi tertentu dipertimbangkan dalam teknik regresi linier berganda. Berikut adalah beberapa asumsi yang terdaftar untuk MLR:
1. Homogenitas varians
Hal ini juga dikenal sebagai homoskedastisitas. Ini berarti bahwa saat memprediksi hasil, tidak ada perubahan signifikan dalam kesalahan yang terkait dengan prediksi hasil melalui nilai-nilai variabel independen. Metode ini mengasumsikan bahwa jumlah kesalahan adalah sama di seluruh model MLR. Analis harus memplot residual yang distandarisasi terhadap nilai prediksi. Ini membantu dalam menentukan apakah ada distribusi poin yang adil di seluruh variabel independen. Sebuah scatterplot dapat digunakan untuk memplot data.
2. Independensi pengamatan
Pengamatan yang dipertimbangkan dalam Regresi Linier Berganda dikumpulkan melalui teknik statistik yang valid. Ini berarti bahwa tidak ada hubungan tersembunyi atau yang sudah ada antara variabel yang dikumpulkan. Terkadang dalam teknik ini terdapat skenario dimana beberapa variabel berkorelasi dengan variabel lainnya. Oleh karena itu, sebelum mengembangkan model regresi, selalu penting untuk memeriksa variabel-variabel yang berkorelasi ini. Menghapus salah satu variabel dari pengembangan model selalu lebih baik untuk variabel yang menunjukkan korelasi tinggi.
3. Tidak ada hubungan antar variabel bebas
Dengan cara lain, dapat disebutkan bahwa tidak boleh ada multikolinearitas dalam data. Jika terdapat multikolinearitas, analis akan kesulitan mengidentifikasi variabel yang berkontribusi terhadap varians variabel dependen. Oleh karena itu, salah satu metode yang dianggap paling baik untuk menguji asumsi tersebut adalah metode variasi faktor inflasi.
4. Normalitas:
Artinya dataset mengikuti distribusi normal.
5. Linearitas
Saat mencari hubungan antara variabel, garis lurus dicoba untuk dipasang di antara variabel. Diasumsikan secara luas bahwa ada hubungan linier antara variabel independen dan variabel dependen. Salah satu cara untuk memeriksa hubungan linier adalah melalui pembuatan scatterplot dan kemudian memvisualisasikan scatterplot tersebut. Ini memungkinkan pengguna untuk mengamati linearitas yang ada dalam pengamatan. Jika seandainya tidak ada hubungan linier, maka analis harus mengulang analisisnya. Perangkat lunak statistik seperti SPSS dapat digunakan untuk melakukan MLR.
Representasi Matematika dari Regresi Linier Berganda
Gambaran matematis model Regresi Linier Berganda ditunjukkan pada persamaan di bawah ini:
Dalam persamaan di atas,
- Y mewakili variabel output,
- X mewakili variabel input,
- mewakili koefisien yang terkait dengan setiap suku.
- B0 adalah nilai y-intercept yang berarti nilai Y ketika semua prediktor lainnya tidak ada.
Kadang-kadang persamaan MLR terdiri dari istilah kesalahan yang diwakili dengan istilah "e" di akhir istilah dalam persamaan.
Saat menemukan garis yang paling cocok, persamaan MLR digunakan untuk menghitung hal-hal berikut:
- Perhitungan koefisien regresi yang menghasilkan error sekecil apapun pada persamaan MLR.
- Untuk model keseluruhan, persamaan menghitung nilai t-statistik.
- P-nilai model.
Kuadrat Terkecil Biasa
Metode Regresi Linier Berganda disebut juga dengan Ordinary Least Squares (OLS). Hal ini karena metode MLR berusaha mencari jumlah kuadrat terkecil. Oleh karena itu, dikenal juga sebagai metode OLS. Bahasa pemrograman python dapat digunakan untuk mengimplementasikan metode ini. Dua metode yang dapat menerapkan metode OLS di python adalah:
1. SciKit Belajar
Ini adalah paket yang tersedia dalam bahasa pemrograman python. Modul regresi linier akan diimpor dari paket Scikit Learn. Model tersebut kemudian dilengkapi dengan data. Ini adalah metode yang mudah dan dapat digunakan secara luas.
2. Model Statistik
Salah satu metode lain yang digunakan dalam bahasa pemrograman python adalah paket Statsmodels. Paket ini dapat membantu dalam mengimplementasikan teknik OLS.
Contoh Regresi Linier Berganda
Beberapa contoh untuk MLR tercantum di bawah ini:
- Model Regresi Linier Berganda dapat digunakan untuk prediksi hasil panen. Hal ini karena, dalam MLR, terdapat hubungan antara variabel dependen dan variabel independen. Dalam jenis penelitian tersebut, faktor tambahan seperti faktor iklim, curah hujan, tingkat pemupukan, dan suhu dapat dipertimbangkan.
- Jika harus ada hubungan antara jumlah jam belajar yang dilakukan dan IPK kelas, maka metode MLR dapat digunakan. Dalam kasus tersebut, IPK akan menjadi variabel dependen sedangkan variabel lainnya, seperti jam belajar, akan menjadi variabel penjelas.
- Teknik MLR dapat digunakan untuk menentukan gaji eksekutif di suatu perusahaan berdasarkan pengalaman dan usia eksekutif. Dalam kasus seperti itu, gaji akan menjadi variabel terikat, sedangkan usia dan pengalaman akan menjadi variabel bebas.
Alur kerja MLR
Data harus disiapkan dan dianalisis sebelum masuk ke model regresi. Data sebagian besar dianalisis untuk mengetahui adanya kesalahan, outlier, nilai yang hilang, dll. Berikut adalah beberapa langkah yang tercantum untuk menunjukkan kepada Anda bagaimana menerapkan atau menerapkan teknik regresi linier berganda.
1. Memilih variabel
MLR membutuhkan kumpulan data yang berisi nilai-nilai prediktor yang paling banyak berhubungan dengan variabel respon. Ini berarti bahwa informasi maksimum harus diekstraksi dari jumlah minimum variabel. Pemilihan variabel dapat dilakukan dari proses berikut.
- Prosedur otomatis dapat dipilih untuk mencari variabel. Alat dapat digunakan bersama dengan paket pemrograman R dan Python untuk memutuskan variabel terbaik untuk studi MLR.
- Regresi yang memungkinkan dapat dipilih untuk memeriksa keberadaan subbagian dari variabel independen apa pun.
- Nilai R2 dapat dipertimbangkan untuk menganalisis variabel terbaik. Variabel-variabel dengan nilai R2 yang lebih besar dianggap paling cocok dalam model. Nilai R2 dapat keluar dari dua angka, 0 dan 1. Nilai 0 menandakan bahwa tidak ada variabel independen yang dapat memprediksi hasil dari variabel dependen. Nilai 1 menandakan prediksi oleh variabel independen dan tanpa kesalahan.
- Ada juga istilah lain yang merupakan prediksi jumlah kuadrat (PRESSp). Jika model MLR memiliki PRESSp yang lebih kecil, maka model tersebut dianggap memiliki kekuatan prediksi yang lebih baik.
2. Penyempurnaan model
Model MLR dapat ditingkatkan melalui pemeriksaan kriteria berikut:
- Nilai Global F-test. Ini digunakan untuk menguji signifikansi memprediksi hasil dari variabel dependen oleh variabel independen.
- Adjusted R2 untuk memeriksa variasi sampel lengkap setelah parameter dan ukuran sampel disesuaikan. Nilai istilah yang lebih besar menunjukkan bahwa variabel lebih cocok dengan data.
- Root mean squaredeviasi atau RMSE digunakan untuk memperkirakan standar deviasi untuk kesalahan acak.
- Model MLR dianggap memberikan prediksi yang akurat jika nilai Coefficient of Variation adalah 10% atau kurang dari itu.
3. Menguji asumsi model
Asumsi-asumsi yang dipertimbangkan diuji dalam model regresi linier. Asumsi-asumsi ini harus dipenuhi.
4. Mengatasi masalah yang terkait dengan model
Dalam kasus di mana beberapa asumsi yang dipertimbangkan dalam model dilanggar, maka langkah-langkah harus diambil untuk meminimalkan masalah tersebut.
5. Validasi model
Ini adalah langkah terakhir dalam pembuatan model MLR dan dianggap penting. Setelah model generasi, model perlu divalidasi. Setelah divalidasi, dapat digunakan untuk analisis Regresi Linier Berganda .
Kesimpulan
Regresi Linier Berganda adalah salah satu teknik yang paling banyak digunakan dalam setiap studi penelitian untuk membangun korelasi antara variabel. Ini juga dianggap sebagai algoritma penting dalam dunia pembelajaran mesin. Namun, jika Anda baru mengenal analisis regresi, selalu lebih baik untuk mendapatkan gambaran tentang model regresi dan regresi linier sederhana.
Dapatkan Kursus Pembelajaran Mesin dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.