Regresi Logistik untuk Pembelajaran Mesin: Panduan Lengkap
Diterbitkan: 2021-10-04Model Machine Learning memerlukan algoritme agar berfungsi. Bergantung pada kumpulan kondisi, model ML tertentu dapat berperforma terbaik menggunakan satu atau algoritme lainnya. Akibatnya, para insinyur dan penggemar Machine Learning harus menyadari berbagai jenis algoritme yang dapat digunakan dalam konteks yang berbeda – untuk mengetahui mana yang akan digunakan ketika saatnya tiba. Tidak pernah ada solusi satu ukuran untuk semua dalam Pembelajaran Mesin, dan mengutak-atik dengan algoritme yang berbeda dapat memberikan hasil yang diinginkan.
Misalnya, Anda pasti sudah tahu tentang Regresi Linier. Namun, algoritma ini tidak dapat diterapkan pada variabel dependen kategoris. Di sinilah Regresi Logistik berguna.
Dalam Pembelajaran Mesin, Regresi Logistik adalah metode pembelajaran terawasi yang digunakan untuk memprediksi probabilitas variabel dependen atau target. Menggunakan Regresi Logistik, Anda dapat memprediksi dan membangun hubungan antara dependen dan satu atau lebih variabel independen.
Persamaan dan model Regresi Logistik umumnya digunakan untuk analisis prediktif untuk klasifikasi biner. Anda juga dapat menggunakannya untuk klasifikasi multi-kelas.
Berikut adalah bagaimana persamaan Regresi Logistik untuk Machine Learning terlihat seperti:
logit(p) = ln(p/(1-p)) = h0+h1X1+h2X2+h3X3….+hkXk

Di mana;
p = probabilitas kemunculan fitur
x1,x2,..xk = kumpulan fitur input
h1,h2,….hk = nilai parametrik yang akan diestimasi dalam persamaan Regresi Logistik.
Daftar isi
Jenis Model Regresi Logistik dalam Machine Learning
Berdasarkan cara penggunaan Regresi Logistik, jenis model Regresi Logistik dapat diklasifikasikan sebagai berikut:
1. Model Regresi Logistik Biner
Ini adalah salah satu model regresi yang paling populer digunakan untuk Regresi Logistik. Ini membantu mengkategorikan data menjadi dua kelas dan memprediksi nilai input baru sebagai milik salah satu dari dua kelas. Misalnya, tumor pasien bisa jinak atau ganas tetapi tidak pernah keduanya.
2. Model Regresi Logistik Multinomial
Model ini membantu mengklasifikasikan variabel target menjadi lebih dari dua kelas – terlepas dari signifikansi kuantitatifnya. Contohnya adalah memprediksi jenis makanan yang kemungkinan akan dipesan seseorang berdasarkan preferensi diet dan pengalaman masa lalu mereka.
Bergabunglah dengan Kursus Pembelajaran Mesin online dari Universitas top dunia – Magister, Program Pascasarjana Eksekutif, dan Program Sertifikat Tingkat Lanjut di ML & AI untuk mempercepat karier Anda.
3. Model Regresi Logistik Ordinal
Model ini digunakan untuk mengklasifikasikan variabel target. Misalnya, kinerja siswa dalam ujian dapat diklasifikasikan sebagai buruk, baik, dan sangat baik dalam urutan hierarkis. Dengan begitu, data diklasifikasikan ke dalam tiga kategori berbeda, dengan masing-masing kelas memiliki tingkat kepentingan tertentu.
Persamaan Regresi Logistik dapat digunakan dalam beberapa kasus, seperti deteksi spam, klasifikasi tumor, kategorisasi jenis kelamin, dan banyak lagi. Mari kita lihat dua contoh paling umum kasus penggunaan persamaan Regresi Logistik dalam Pembelajaran Mesin untuk membantu Anda memahami lebih baik.
Contoh kasus penggunaan Persamaan Regresi Logistik
Contoh 1: Mengidentifikasi Email Spam
Pertimbangkan kelas 1 jika emailnya adalah spam dan 0 jika emailnya bukan. Untuk mendeteksi ini, beberapa atribut dianalisis dari badan surat. Ini termasuk:
- Pengirim
- Kesalahan ejaan
- Kata kunci dalam email seperti “detail bank”, “beruntung”, “pemenang”, “selamat”.
- Detail kontak atau URL di email
Data yang diekstraksi ini kemudian dapat dimasukkan ke dalam persamaan Regresi Logistik untuk Pembelajaran Mesin yang akan menganalisis semua input dan memberikan skor antara 0 dan 1. Jika skor lebih besar dari 0 tetapi kurang dari 0,5, email akan diklasifikasikan sebagai spam, dan jika skornya antara 0,5 hingga 1, email ditandai sebagai bukan spam.
Contoh 2: Mengidentifikasi Penipuan Kartu Kredit
Menggunakan persamaan Regresi Logistik atau model Machine Learning berbasis Regresi Logistik, bank dapat segera mengidentifikasi transaksi kartu kredit yang curang. Untuk ini, detail seperti PoS, nomor kartu, nilai transaksi, data transaksi, dan sejenisnya dimasukkan ke dalam model Regresi Logistik, yang memutuskan apakah transaksi yang diberikan adalah asli (0) atau penipuan (1). Misalnya, jika nilai pembelian terlalu tinggi dan menyimpang dari nilai tipikal, model regresi memberikan nilai (antara 0,5 dan 1) yang mengklasifikasikan transaksi sebagai penipuan.

Cara Kerja Regresi Logistik dalam Pembelajaran Mesin
Regresi Logistik bekerja dengan menggunakan fungsi Sigmoid untuk memetakan prediksi ke probabilitas keluaran. Fungsi ini adalah kurva berbentuk S yang memplot nilai prediksi antara 0 dan 1. Nilai tersebut kemudian diplot ke arah margin di bagian atas dan bawah sumbu Y, menggunakan 0 dan 1 sebagai label. Kemudian, tergantung pada nilai-nilai ini, variabel independen dapat diklasifikasikan.
Berikut adalah tampilan fungsi Sigmoid:
Fungsi sigmoid didasarkan pada persamaan berikut:
y=1/(1+e^x)
Dimana e^x= konstanta eksponensial dengan nilai 2,718.
Persamaan fungsi Sigmoid di atas memberikan nilai prediksi (y) sebagai nol jika x dianggap negatif. Jika x adalah bilangan positif yang besar, nilai yang diprediksi mendekati satu.
Membangun Model Regresi Logistik dengan Python
Mari kita telusuri proses membangun model Regresi Logistik dengan Python. Untuk itu, mari kita gunakan kumpulan data Jejaring Sosial untuk melakukan analisis regresi, dan mari kita coba memprediksi apakah seseorang akan membeli mobil tertentu atau tidak. Begini tampilan langkah-langkahnya.
Langkah 1: Mengimpor Library dan Dataset
Ini dimulai dengan mengimpor perpustakaan yang diperlukan untuk membangun model. Ini termasuk Pandas, Numpy, dan Matplotlib. Kita juga perlu mengimpor dataset yang akan kita kerjakan. Berikut tampilan kodenya:
impor numpy sebagai np
impor matplotlib.pyplot sebagai pt
impor panda sebagai pd
kumpulan data = pd.read_csv('Social_Network.csv')
Langkah 2: Memisahkan menjadi Variabel Dependen dan Independen
Sekarang saatnya untuk membagi data yang dimasukkan menjadi variabel dependen dan independen. Untuk contoh ini, kami akan mempertimbangkan nilai pembelian sebagai variabel dependen selama perkiraan gaji dan usia individu sebagai variabel independen.
x = dataset.iloc[:, [2,3]].nilai
y = dataset.iloc[:, 4].nilai
Langkah 3: Memisahkan Dataset menjadi Training set dan Test set
Sangat penting untuk membagi set data menjadi set pelatihan dan pengujian khusus. Set pelatihan akan melatih persamaan Regresi Logistik, sedangkan data pengujian akan digunakan untuk memvalidasi pelatihan model dan mengujinya. Sklearn digunakan untuk membagi dataset yang diberikan menjadi dua set. Kami menggunakan train_split_function dengan menentukan jumlah data yang ingin kami sisihkan untuk pelatihan dan pengujian.
dari sklearn.model_selection impor train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0,33, random_state = 0)
Seperti yang Anda lihat, kami telah mendefinisikan ukuran pengujian sebagai 33% dari kumpulan data lengkap. Jadi, 66% sisanya akan digunakan sebagai data pelatihan.
Langkah 4: Penskalaan
Untuk meningkatkan akurasi model Regresi Logistik Anda, Anda harus mengubah skala data dan membawa nilai yang mungkin sangat bervariasi sifatnya.
dari sklearn.preprocessing impor StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
Langkah 5: Membangun model Regresi Logistik
Setelah selesai, Anda perlu membangun model Regresi Logistik dan memasukkannya ke dalam set pelatihan. Mulailah dengan mengimpor algoritma Regresi Logistik dari Sklearn.
dari sklearn.linear_model impor LogisticRegression
Kemudian, buat classifier instance agar sesuai dengan data pelatihan.
classifier = LogisticRegression(random_state=0)
classifier.fit(x_train, y_train)
Selanjutnya, buat prediksi pada dataset pengujian.
y_pred = classifier.predict(x_test)
Terakhir, periksa kinerja model Regresi Logistik Anda menggunakan matriks Confusion.
dari sklearn.metrics mengimpor kebingungan_matrix
cm = matrik_kebingungan(y_test, y_pred)
acc = akurasi_score(y_test, y_pred)
cetak (ak)

cetak (cm)
Sekarang, Anda dapat menggunakan Matplotlib untuk memvisualisasikan seluruh kumpulan data, termasuk kumpulan pelatihan dan pengujian!
Kesimpulannya
Regresi Logistik adalah salah satu alat yang membantu dalam pengembangan model dan algoritma Machine Learning. Demikian juga, ada beberapa algoritma lain juga, yang digunakan tergantung pada kasus penggunaan yang ada. Namun, untuk mengetahui algoritme mana yang digunakan, Anda harus mengetahui semua opsi yang memungkinkan. Hanya dengan begitu Anda akan berada dalam posisi untuk memilih algoritme yang paling sesuai untuk kumpulan data Anda.
Lihat Program PG Eksekutif kami dalam Pembelajaran Mesin yang dirancang dengan cara yang membawa Anda dari awal dan membantu Anda membangun keterampilan Anda ke puncak – sehingga Anda berada dalam posisi untuk memecahkan masalah Pembelajaran Mesin di dunia nyata. Lihat kursus yang berbeda dan daftarlah di salah satu yang terasa tepat untuk Anda. Bergabunglah dengan upGrad dan rasakan lingkungan belajar yang holistik dan dukungan penempatan!
Regresi Logistik secara luas terdiri dari tiga jenis: Regresi Logistik adalah salah satu metode pembelajaran terawasi yang digunakan untuk menemukan dan membangun hubungan yang paling sesuai antara variabel dependen dan independen untuk membuat prediksi masa depan yang tepat. Regresi Logistik untuk Pembelajaran Mesin menggunakan fungsi Sigmoid untuk menemukan kurva yang paling sesuai.Berapa banyak jenis Regresi Logistik untuk Pembelajaran Mesin yang mungkin?
1. Biner
2. Multinomial
3. Biasa. Untuk apa Regresi Logistik digunakan dalam Pembelajaran Mesin?
Apa fungsi yang digunakan Regresi Logistik untuk Pembelajaran Mesin?