Regresi Linier Dijelaskan dengan Contoh
Diterbitkan: 2021-10-13Regresi linier adalah salah satu algoritma yang paling umum untuk membangun hubungan antara variabel dataset. Model matematika adalah alat yang diperlukan untuk ilmuwan data dalam melakukan analisis prediktif. Blog ini akan memberi Anda konsep dasar dan juga membahas contoh regresi linier.
Daftar isi
Apa itu Model Regresi?
Sebuah model regresi menggambarkan hubungan antara variabel dataset dengan memasang garis ke data yang diamati. Ini adalah analisis matematis yang memilah variabel mana yang paling berpengaruh dan penting. Ini juga menentukan seberapa yakin kita tentang faktor-faktor yang terlibat. Kedua macam variabel tersebut adalah:
- Dependent: Faktor yang Anda coba prediksi atau pahami.
- Independen: Faktor-faktor yang Anda duga berdampak pada variabel dependen.
Model regresi digunakan ketika variabel dependen adalah kuantitatif. Ini mungkin biner dalam kasus regresi logistik. Namun dalam blog ini, kita akan lebih fokus pada model regresi linier dimana kedua variabel bersifat kuantitatif.
Misalkan Anda memiliki data penjualan bulanan dan rata-rata curah hujan bulanan selama tiga tahun terakhir. Katakanlah Anda memplot informasi ini pada grafik. Sumbu y mewakili jumlah penjualan (variabel dependen), dan sumbu x menggambarkan curah hujan total. Setiap titik pada grafik akan menunjukkan berapa banyak hujan selama bulan tertentu dan angka penjualan yang sesuai.
Jika Anda melihat sekilas pada data, Anda mungkin melihat sebuah pola. Anggaplah penjualan lebih tinggi pada hari-hari hujan lebih banyak. Tetapi akan sulit untuk memperkirakan berapa banyak yang biasanya Anda jual saat hujan turun dalam jumlah tertentu, katakanlah 3 atau 4 inci. Anda bisa mendapatkan beberapa tingkat kepastian jika Anda menarik garis melalui tengah semua titik data pada grafik.
Saat ini, Excel dan perangkat lunak statistik seperti SPSS, R, atau STATA dapat membantu Anda menggambar garis yang paling sesuai dengan data yang ada. Selain itu, Anda juga dapat menampilkan rumus yang menjelaskan kemiringan garis.

Perhatikan rumus ini untuk contoh di atas: Y = 200 + 3X. Ini memberitahu Anda bahwa Anda menjual 200 unit saat tidak hujan sama sekali (yaitu, ketika X=0). Dengan asumsi bahwa variabel tetap sama saat kita maju, setiap inci tambahan hujan akan menghasilkan penjualan rata-rata tiga unit lagi. Anda akan menjual 203 unit jika hujan 1 inci, 206 unit jika hujan 2 inci, 209 inci jika hujan 3 inci, dan seterusnya.
Biasanya, rumus garis regresi juga menyertakan istilah kesalahan (Y = 200 + 3 X + istilah kesalahan). Ini memperhitungkan kenyataan bahwa prediktor independen mungkin tidak selalu menjadi prediktor sempurna dari variabel dependen. Dan garis hanya memberi Anda perkiraan berdasarkan data yang tersedia. Semakin besar istilah kesalahan, semakin tidak pasti garis regresi Anda.
Dasar-dasar Regresi Linier
Model regresi linier sederhana menggunakan garis lurus untuk memperkirakan hubungan antara dua variabel kuantitatif. Jika Anda memiliki lebih dari satu variabel independen, Anda akan menggunakan regresi linier berganda sebagai gantinya.
Analisis regresi linier sederhana berkaitan dengan dua hal. Pertama, ini memberi tahu Anda kekuatan hubungan antara faktor dependen dan independen dari data historis. Kedua, ini memberi Anda nilai variabel dependen pada nilai tertentu dari variabel independen.
Perhatikan contoh regresi linier ini. Seorang peneliti sosial yang tertarik untuk mengetahui bagaimana pendapatan individu mempengaruhi tingkat kebahagiaan mereka melakukan analisis regresi sederhana untuk melihat apakah hubungan linier terjadi. Peneliti mengambil nilai kuantitatif dari variabel terikat (kebahagiaan) dan variabel bebas (penghasilan) dengan mensurvei orang-orang di lokasi geografis tertentu.
Misalnya, data berisi angka pendapatan dan tingkat kebahagiaan (berperingkat dalam skala 1 sampai 10) dari 500 orang dari negara bagian Maharashtra, India. Peneliti kemudian akan memplot titik-titik data dan mencocokkan garis regresi untuk mengetahui seberapa besar pendapatan responden mempengaruhi kesejahteraan mereka.
Analisis regresi linier didasarkan pada beberapa asumsi tentang data. Ada:
- Linearitas hubungan antara variabel dependen dan independen, yaitu garis yang paling sesuai adalah lurus, tidak melengkung.)
- Homogenitas varians, yang berarti ukuran kesalahan dalam prediksi, tidak berubah secara signifikan di berbagai nilai variabel independen.
- Independensi pengamatan dalam kumpulan data, mengacu pada tidak ada hubungan tersembunyi.
- Normalitas distribusi data untuk variabel terikat. Anda dapat memeriksa hal yang sama menggunakan fungsi hist() di R.
Matematika Dibalik Regresi Linier
y = c + ax adalah persamaan standar di mana y adalah output (yang ingin kita perkirakan), x adalah variabel input (yang kita ketahui), a adalah kemiringan garis, dan c adalah konstanta.

Di sini, output bervariasi secara linier berdasarkan input. Kemiringan menentukan seberapa besar x mempengaruhi nilai y. Konstanta adalah nilai y ketika x adalah nihil.
Mari kita pahami ini melalui contoh regresi linier lainnya. Bayangkan Anda bekerja di sebuah perusahaan mobil dan ingin mempelajari pasar kendaraan penumpang India. Katakanlah PDB nasional mempengaruhi penjualan kendaraan penumpang. Untuk merencanakan bisnis dengan lebih baik, Anda mungkin ingin mengetahui persamaan linier jumlah kendaraan yang dijual di negara tersebut terkait dengan PDB
Untuk ini, Anda memerlukan data sampel untuk penjualan kendaraan penumpang berdasarkan tahun dan angka PDB untuk setiap tahun. Anda mungkin menemukan bahwa PDB tahun berjalan mempengaruhi penjualan untuk tahun depan: Tahun mana pun PDB lebih rendah, penjualan kendaraan lebih rendah di tahun berikutnya.
Untuk menyiapkan data ini untuk analitik Machine Learning, Anda perlu melakukan lebih banyak pekerjaan.
- Silakan mulai dengan persamaan y = c + ax, di mana y adalah jumlah kendaraan yang terjual dalam setahun dan x adalah PDB tahun sebelumnya.
- Untuk mengetahui c dan an pada soal di atas, Anda bisa membuat model menggunakan Python.
Lihat tutorial ini untuk memahami metode langkah demi langkah
Jika Anda melakukan regresi linier sederhana di R, menafsirkan dan melaporkan hasil menjadi lebih mudah.
Untuk contoh regresi linier yang sama, mari kita ubah persamaannya menjadi y=B0 + B1x + e. Sekali lagi, y adalah variabel dependen, dan x adalah variabel independen atau diketahui. B0 adalah konstanta atau intersep, B1 adalah kemiringan koefisien regresi, dan e adalah kesalahan estimasi.

Perangkat lunak statistik seperti R dapat menemukan garis yang paling cocok melalui data dan mencari B1 yang meminimalkan kesalahan total model.
Ikuti langkah-langkah ini untuk memulai:
- Muat dataset penjualan kendaraan penumpang ke dalam lingkungan R.
- Jalankan perintah untuk menghasilkan model linier yang menggambarkan hubungan antara penjualan kendaraan penumpang dan PDB.
- sales.gdp.lm <- lm(gdp ~ penjualan, data = penjualan.data)
- Gunakan fungsi summary() untuk melihat parameter model linier yang paling penting dalam bentuk tabel.
- ringkasan(penjualan.gdp.lm)
Catatan: Output akan berisi hasil seperti panggilan, Residual, dan Koefisien. Tabel 'Panggilan' menyatakan rumus yang digunakan. 'Residual' merinci nilai Median, Kuartil, minimum, dan maksimum untuk menunjukkan seberapa cocok model dengan data sebenarnya. Baris pertama tabel 'Koefisien' memperkirakan perpotongan y, dan baris kedua memberikan koefisien regresi. Kolom tabel ini memiliki label seperti Estimasi, Std. Error, nilai t, dan nilai p.
Pelajari Kursus Pembelajaran Mesin dari Universitas top dunia. Dapatkan Master, PGP Eksekutif, atau Program Sertifikat Tingkat Lanjut untuk mempercepat karier Anda.
- Masukkan nilai (Intercept) ke dalam persamaan regresi untuk memprediksi nilai penjualan di seluruh rentang angka PDB.
- Selidiki kolom (Perkiraan) untuk mengetahui efeknya. Koefisien regresi akan memberi tahu Anda seberapa besar perubahan penjualan dengan perubahan PDB.
- Cari tahu variasi dalam perkiraan Anda tentang hubungan antara penjualan dan PDB dari label (Kesalahan Std.).
- Lihatlah statistik uji di bawah (nilai-t) untuk mengetahui apakah hasil terjadi secara kebetulan. Semakin besar nilai t, semakin kecil kemungkinannya.
- Telusuri kolom Pr(>|t|) atau nilai-p untuk melihat perkiraan pengaruh PDB terhadap penjualan jika hipotesis nol benar.
- Sajikan hasil Anda dengan perkiraan efek, kesalahan standar, dan nilai-p, dengan jelas mengkomunikasikan apa arti koefisien regresi.
- Sertakan grafik dengan laporan. Regresi linier sederhana dapat ditampilkan sebagai diagram plot dengan garis dan fungsi regresi.
- Hitung kesalahan dengan mengukur jarak dari nilai y yang diamati dan diprediksi, mengkuadratkan jarak pada setiap nilai x, dan menghitung rata-ratanya.
Kesimpulan
Dengan contoh regresi linier di atas, kami telah memberi Anda gambaran umum tentang menghasilkan model regresi linier sederhana, menemukan koefisien regresi, dan menghitung kesalahan perkiraan. Kami juga menyentuh relevansi Python dan R untuk analisis dan statistik data prediktif. Pengetahuan praktis tentang alat tersebut sangat penting untuk mengejar karir dalam ilmu data dan pembelajaran mesin hari ini.
Jika Anda ingin mengasah keterampilan pemrograman Anda, lihat Program Sertifikat Tingkat Lanjut dalam Pembelajaran Mesin oleh IIT Madras dan upGrad. Kursus online juga mencakup studi kasus, proyek, dan sesi bimbingan ahli untuk membawa orientasi industri ke dalam proses pelatihan.
