Semua tentang Regresi Linier menggunakan Scikit

Diterbitkan: 2022-09-08

Dalam praktiknya, ada dua algoritme pembelajaran mesin terawasi utama: 1. Klasifikasi dan 2. Regresi — Klasifikasi digunakan untuk memprediksi keluaran diskrit, sedangkan regresi digunakan untuk memprediksi keluaran nilai kontinu.

Dalam aljabar, linearitas menunjukkan hubungan lurus atau linier antara beberapa variabel. Sebuah representasi literal dari hubungan ini akan menjadi garis lurus.

Mendaftar untuk Kursus Pembelajaran Mesin dari Universitas top dunia. Dapatkan Master, PGP Eksekutif, atau Program Sertifikat Tingkat Lanjut untuk mempercepat karier Anda.

Regresi linier adalah algoritma pembelajaran mesin yang dijalankan di bawah pengawasan. Ini adalah proses mencari dan memetakan garis yang cocok untuk semua titik data yang tersedia pada plot tersebut. Ini adalah model regresi yang membantu memperkirakan nilai antara satu variabel dependen dan satu variabel independen, semuanya dengan bantuan garis lurus.

Model regresi linier membantu membangun hubungan linier antara variabel independen ini, yang memiliki biaya terendah, berdasarkan variabel dependen yang diberikan.

Dalam matematika, kita memiliki tiga cara yang digunakan untuk menggambarkan model regresi linier. Mereka adalah sebagai berikut (y menjadi variabel dependen):

  • y = intersep + (kemiringan x) + kesalahan
  • y = konstanta + (koefisienx) + kesalahan
  • y = a + bx + e

Daftar isi

Mengapa regresi linier penting?

Model regresi linier relatif lebih sederhana dan lebih ramah pengguna. Mereka membuat proses interpretasi data/rumus matematika yang mampu menghasilkan prediksi relatif lebih sederhana. Regresi linier dapat berperan dalam berbagai bidang (misalnya, akademisi atau studi bisnis).

Model regresi linier adalah satu-satunya metode yang terbukti secara ilmiah untuk memprediksi masa depan secara akurat. Ini digunakan dalam berbagai ilmu dari lingkungan, perilaku, sosial, dll.

Sifat-sifat model ini sangat dipahami dengan baik dan karenanya, mudah dilatih karena merupakan prosedur statistik yang sudah lama ada. Ini juga memfasilitasi transformasi kumpulan data mentah yang berlebihan menjadi informasi yang dapat ditindaklanjuti.

Asumsi kunci dari regresi linier yang efektif

  • Jumlah kasus yang valid, mean, dan standar deviasi harus dipertimbangkan untuk setiap variabel.
  • Untuk setiap model : Koefisien regresi, matriks korelasi, korelasi bagian dan parsial, kesalahan standar estimasi, tabel analisis varians, nilai prediksi, dan residu harus dipertimbangkan.
  • Plot : Scatterplots, histogram, plot parsial, dan plot probabilitas normal dipertimbangkan.
  • Data : Harus dipastikan bahwa variabel terikat dan variabel bebas bersifat kuantitatif. Variabel kategori tidak perlu dikode ulang ke variabel biner atau dummy atau jenis variabel kontras lainnya.
  • Asumsi lain : Untuk setiap nilai variabel independen yang diberikan, kita membutuhkan distribusi normal dari variabel dependen. Varians dari distribusi variabel dependen yang diberikan juga harus dijaga konstan untuk setiap nilai variabel independen. Hubungan antara setiap variabel bebas terikat harus linier. Plus, semua pengamatan harus independen.

Berikut adalah contoh regresi linier sederhana yang ada :

Kumpulan data dalam contoh berisi informasi mengenai situasi cuaca global setiap hari untuk periode tertentu. Daftar informasi terperinci ini mencakup faktor-faktor seperti curah hujan, hujan salju, suhu, kecepatan angin, badai petir, atau kemungkinan kondisi cuaca lainnya.

Masalah ini bertujuan untuk menggunakan model regresi linier sederhana untuk memprediksi suhu maksimum dengan mengambil suhu minimum sebagai input.

Pertama, semua perpustakaan perlu diimpor.

impor panda sebagai pd

impor numpy sebagai np

impor matplotlib.pyplot sebagai plt

impor seaborn sebagai seabornInstance

dari sklearn.model_selection impor train_test_split

dari sklearn.linear_model impor LinearRegression

dari metrik impor sklearn

%matplotlib sebaris

Untuk mengimpor kumpulan data berikut menggunakan pandas, perintah berikut perlu diterapkan:

kumpulan data = pd.read_csv('/Users/nageshsinghchauhan/Documents/projects/ML/ML_BLOG_LInearRegression/Weather.csv')

Untuk memeriksa jumlah baris dan kolom yang ada dalam kumpulan data untuk menjelajahi data, perintah berikut perlu diterapkan:

dataset.shape

Output yang diterima harus (119040, 31), yang berarti data berisi 119040 baris dan 31 kolom.

Untuk melihat detail statistik dari dataset, perintah berikut dapat digunakan:

menggambarkan():

kumpulan data.deskripsikan()

Berikut adalah contoh lain yang bertujuan untuk menunjukkan bagaimana seseorang dapat mengambil dan menggunakan berbagai pustaka Python yang akan digunakan untuk menerapkan regresi linier ke kumpulan data yang diberikan:

1. Mengimpor semua perpustakaan yang diperlukan

impor numpy sebagai np

impor panda sebagai pd

impor seaborn sebagai sns

impor matplotlib.pyplot sebagai plt

dari sklearn import preprocessing, svm

dari sklearn.model_selection impor train_test_split

dari sklearn.linear_model impor LinearRegression

2. Membaca kumpulan data

cd C:\Users\Dev\Desktop\Kaggle\Salinity

# Mengubah lokasi pembacaan file ke lokasi kumpulan data

df = pd.read_csv('botol.csv')

df_binary = df[['Salnty', 'T_degC']]

# Mengambil hanya dua atribut yang dipilih dari dataset

df_binary.columns = ['Sal', 'Temp']

# Mengganti nama kolom untuk penulisan kode yang lebih mudah

df_binary.head()

# Menampilkan hanya baris pertama bersama dengan nama kolom

2. Menjelajahi sebaran data

sns.lmplot(x =”Sal”, y =”Temp”, data = df_binary, order = 2, ci = None)

# Merencanakan sebaran data

3. Pembersihan data

# Menghilangkan NaN atau nomor input yang hilang

df_binary.fillna(metode ='mengisi', inplace = Benar)

4. Melatih model

X = np.array(df_binary['Sal']).reshape(-1, 1)

y = np.array(df_binary['Temp']).reshape(-1, 1)

# Memisahkan data menjadi variabel independen dan dependen

# Mengubah setiap kerangka data menjadi array numpy

# karena setiap kerangka data hanya berisi satu kolom

df_binary.dropna(di tempat = Benar)

# Menjatuhkan baris apa pun dengan nilai Nan

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0,25)

# Memisahkan data menjadi data pelatihan dan pengujian

reg = Regresi Linier()

regr.fit(X_train, y_train)

print(regr.score(X_test, y_test))

5. Menjelajahi hasilnya

y_pred = reg.predict(X_test)

plt.scatter(X_test, y_test, warna ='b')

plt.plot(X_test, y_pred, warna ='k')

plt.tampilkan()

# Penyebaran data dari nilai yang diprediksi

6. Bekerja dengan kumpulan data yang lebih kecil

df_binary500 = df_binary[:][:500]

# Memilih 500 baris data pertama

sns.lmplot(x =”Sal”, y =”Temp”, data = df_binary500,

pesanan = 2, ci = Tidak ada)

Blog Pembelajaran Mesin dan Kecerdasan Buatan Populer

IoT: Sejarah, Sekarang & Masa Depan Tutorial Pembelajaran Mesin: Belajar ML Apa itu Algoritma? Sederhana & Mudah
Gaji Insinyur Robotika di India : Semua Peran Sehari dalam Kehidupan Seorang Insinyur Pembelajaran Mesin: Apa yang mereka lakukan? Apa itu IoT (Internet of Things)
Permutasi vs Kombinasi: Perbedaan antara Permutasi dan Kombinasi 7 Tren Teratas dalam Kecerdasan Buatan & Pembelajaran Mesin Pembelajaran Mesin dengan R: Semua yang Perlu Anda Ketahui

Jika Anda tertarik untuk mempelajari pembelajaran mesin yang lengkap, kami sarankan untuk bergabung dengan Master of Science dalam Pembelajaran Mesin & AI upGrad . Program 20 bulan ditawarkan bekerja sama dengan IIIT Bangalore dan Liverpool John Moores University. Ini dirancang untuk membantu Anda membangun kompetensi dalam bahasa pemrograman, alat, dan pustaka yang relevan dengan industri seperti Python, Keras, Tensor Flow, MySql, Flask, Kubernetes, dll.

Program ini dapat membantu Anda menguasai konsep ilmu data tingkat lanjut melalui pengalaman langsung dan pengembangan keterampilan. Plus, Anda mendapatkan keuntungan upGrad dengan akses ke 360° career advisor, kumpulan jaringan dengan 40.000+ pelajar berbayar, dan banyak peluang berkolaborasi!

Pesan kursi Anda hari ini!

Untuk apa regresi linier digunakan?

Analisis semacam ini umumnya digunakan untuk memprediksi nilai suatu variabel berdasarkan variabel lain yang diketahui. Variabel yang digunakan untuk mencari nilai yang lain disebut variabel dependen dan variabel independen.

Bagaimana cara menginstal scikit belajar?

Pada awalnya, Scikit belajar versi regresi linier yang disediakan oleh sistem operasi yang bersangkutan atau distribusi Python perlu diinstal. Ini adalah yang tercepat untuk orang yang memiliki opsi ini. Kemudian versi yang dirilis secara resmi dan terbaru yang diperbarui perlu diinstal.

Bagaimana cara kerja scikit belajar?

Scikit belajar regresi linier memberikan berbagai algoritma yang diawasi dan tidak diawasi melalui antarmuka python, yang selalu konsisten. Ini dilisensikan di bawah lisensi BSD yang diizinkan. Ini didistribusikan di bawah berbagai operator Linux. Penggunaan algoritma ini secara luas didorong dalam bisnis dan pendidikan.