Apa itu Metrik Sklearn dan Mengapa Anda Perlu Mengetahuinya?

Diterbitkan: 2021-10-22

Python adalah salah satu bahasa pemrograman yang paling banyak digunakan di kalangan pengembang secara global. Kemampuan otomatisasi data dan algoritme membuatnya ideal untuk membangun dan melatih program, mesin, dan sistem berbasis komputer serta membuat prediksi. Oleh karena itu, kandidat dengan keterampilan Python semakin disukai untuk jalur karir yang menguntungkan, seperti Machine Learning dan Data Science.

Jika Anda seorang pemula, menemukan alat yang tepat sendiri mungkin tampak menakutkan. Perangkat lunak gratis seperti Scikit-learn dapat memberdayakan Anda untuk mengambil keterampilan yang relevan dengan sedikit usaha. Pustaka pembelajaran mesin memiliki beberapa klasifikasi, regresi, dan algoritma pengelompokan untuk programmer Python.

Blog ini akan fokus secara khusus pada masalah klasifikasi dan metrik sklearn untuk memandu Anda dalam perjalanan belajar Anda. Anda akan belajar tentang penerapan metrik evaluasi dan juga memahami matematika di baliknya.

Daftar isi

Metrik Klasifikasi di Scikit-Learn

Klasifikasi merupakan bagian integral dari pemodelan prediktif. Anda menggunakannya untuk mengidentifikasi kelas tempat sampel tertentu dari suatu populasi berada. Misalkan Anda ingin memprediksi apakah seorang pasien akan dirawat di rumah sakit lagi. Dua jenis yang mungkin di sini adalah – Positif (Dirawat di Rumah Sakit) dan Negatif (Tidak Dirawat di Rumah Sakit). Model klasifikasi akan memprediksi ember di mana sampel harus ditempatkan, Diprediksi Positif atau Diprediksi Negatif. Anda akan menemukan keakuratan prediksi setelah Anda melatih modelnya.

Sebagian besar ilmuwan data dan insinyur pembelajaran mesin menggunakan paket Scikit-Learn untuk menganalisis kinerja model prediktif. Modul metrik sklearn memberi Anda akses ke banyak fungsi bawaan. Mari temukan proses penulisan fungsi dari awal dengan metrik ini.

Bergabunglah dengan Kursus Pembelajaran Mesin online dari Universitas top dunia – Magister, Program Pascasarjana Eksekutif, dan Program Sertifikat Tingkat Lanjut di ML & AI untuk mempercepat karier Anda.

Metrik Sklearn Dijelaskan

Metrik sklearn memungkinkan Anda menerapkan skor, kerugian, dan fungsi utilitas untuk mengevaluasi kinerja klasifikasi.

Berikut adalah langkah-langkah kunci yang terlibat:

  • Muat data;
  • Membaginya menjadi set kereta dan set uji;
  • Membangun model pelatihan;
  • Membuat prediksi atau prakiraan pada data uji;
  • Mengevaluasi model pembelajaran mesin dengan metode tertentu.

Untuk melanjutkan, Anda perlu memuat kumpulan data sampel dan kemampuan prediksi untuk dua model, Hutan Acak dan Regresi Linier. Sebut saja mereka Model_RF dan Model_LR.

Jalankan kode ini untuk mengimpor modul Pandas dan membaca file data dan memeriksa elemennya.

impor panda sebagai ps

df = ps.read_csv('data.csv')

df.head()

Di sebagian besar proyek, Anda menentukan ambang batas dan memberi label probabilitas prediksi sebagai prediksi positif dan prediksi negatif. Ini akan menambahkan dua kolom lagi ke tabel Anda.

ambang = 0,5

df['forecasted_RF'] = (df.model_RF >= 0.5).astype('int')

df['forecasted_LR'] = (df.model_LR >= 0.5).astype('int')

df.head()

Sekarang kami memiliki label aktual dan perkiraan, kami dapat membagi sampel kami menjadi empat ember berbeda.

Dengan confusion_matrix, kita bisa mendapatkan array 2X2 dengan label bercabang menjadi ember berikut:

  • Benar Positif (TP)
  • Positif Palsu (FP)
  • Negatif Palsu (FN)
  • Negatif Benar (TN)

Setelah mengimpor confusion_matrix dari metrik sklearn dan meneruskan label aktual dan perkiraan, Anda dapat menentukan fungsi untuk memverifikasinya.

Anda juga dapat memeriksa apakah hasil Anda cocok secara manual menggunakan fungsi assert Python dan fungsi array_equal NumPy.

Kami dapat menghitung banyak metrik kinerja lainnya menggunakan empat ember TP, FP, TN, dan FN. Ini adalah:

1. akurasi_skor

Dibutuhkan label aktual dan prakiraan sebagai input dan menghasilkan fraksi sampel yang diprediksi dengan benar.

2. recall_score

Ini memberikan sebagian kecil dari peristiwa positif yang diprediksi dengan benar. Penarikan kembali ini juga dikenal sebagai sensitivitas.

3. presisi_skor

Ini menunjukkan fraksi peristiwa positif yang diprediksi yang positif.

Setelah menghitung semua metrik ini, misalkan Anda menemukan model RF yang lebih baik dalam ingatan dan presisi. Pilihan di sini akan mudah. Tetapi bagaimana jika model LR lebih baik dalam mengingat dan model RF lebih baik dalam presisi? Dalam hal ini, Anda memerlukan metode lain yang disebut skor F1.

4. f1_score

Ini adalah rata-rata harmonik dari ingatan dan presisi. Model dengan skor yang lebih tinggi dianggap sebagai pilihan yang lebih baik.

Metrik di atas telah dihitung dengan ambang batas yang ditentukan sebesar 0,5. Orang mungkin bertanya-tanya apakah perubahan dalam ambang ini akan mengubah metrik kinerja juga. Jawabannya? Ya, tentu saja.

Kami memiliki cara lain untuk menilai model tanpa memilih ambang batas, yaitu kurva Receiver Operating Characteristic (ROC). Scikit-learn juga memiliki fungsi bawaan untuk menganalisisnya.

Fungsi roc_curve dan roc_auc_score mengambil label aktual dan probabilitas yang diperkirakan sebagai input.

  • kurva_roc

Ini mengembalikan tiga daftar, yaitu ambang batas (probabilitas perkiraan unik dalam urutan menurun), FPR (tingkat positif palsu), dan TPR (tingkat positif sebenarnya).

  • roc_auc_curve

Ia menemukan area di bawah kurva untuk model RF dan LR.

Anda dapat menentukan metrik kinerja yang lebih baik setelah Anda memplot kurva ROC dan menambahkan AUC ke legenda.

Menyimpulkan

Dalam analitik prediktif, Anda dapat memilih dari berbagai metrik. Akurasi, daya ingat, presisi, f1, dan AUC adalah beberapa skor yang populer.

Beberapa mungkin lebih suka menentukan ambang batas dan menggunakan metrik kinerja seperti akurasi, ingatan, presisi, dan skor f1. Orang lain mungkin ingin menggunakan AUC untuk menganalisis kinerja model karena tidak memerlukan pemilihan ambang batas. Pada akhirnya, Anda harus memilih metrik yang paling sesuai dengan masalah bisnis yang dihadapi.

Dengan ini, kami telah memberi Anda gambaran umum tentang metrik sklearn. Anda dapat menggunakan informasi ini untuk memperjelas dasar-dasar pemrograman python dan terus belajar dengan kursus online. Anda juga dapat melakukan pekerjaan proyek untuk melatih dan menyempurnakan keterampilan Anda. Program seperti Master of Science upGrad dalam Pembelajaran Mesin & Kecerdasan Buatan dapat membantu keduanya.

Kurikulum membiasakan Anda dengan perangkat ilmu data yang lengkap dan mencakup aspek-aspek praktis dari Scikit-Learn dan perangkat lunak lainnya. Selain itu, kredensial dari institut terkenal seperti Liverpool John Moores University dan IIIT Bangalore membedakan Anda dari kompetisi dalam lamaran kerja dan wawancara penempatan.

Apa itu metrik evaluasi dengan Python?

Metrik evaluasi biasanya digunakan untuk masalah klasifikasi dengan Python. Scikit-Learn adalah perpustakaan pembelajaran mesin gratis yang memungkinkan berbagai tugas analitik prediktif. Calon ilmuwan data dan insinyur pembelajaran mesin dapat menggunakannya untuk membuat prediksi tentang data dan menganalisis kualitas model tertentu.

Mengapa Anda membutuhkan metrik sklearn?

Metrik sklearn memungkinkan Anda menilai kualitas prediksi Anda. Anda dapat menggunakan modul ini di Scikit-Learn untuk berbagai kumpulan data, fungsi skor, dan metrik kinerja. Matriks kebingungan di sklearn adalah representasi praktis dari keakuratan prediksi. Dengan input seperti label aktual dan prediksi, bersama dengan ambang batas atau nilai keyakinan yang ditentukan, Anda dapat menghitung metrik seperti ingatan, presisi, dan skor f1. Metode kurva ROC menyeimbangkan perkiraan probabilitas dan memberikan metrik kinerja dalam hal area di bawah kurva.

Bagaimana pendidikan pascasarjana di AI & ML membantu dalam kemajuan karir?

Sertifikasi paling canggih di bidang Kecerdasan Buatan dan Pembelajaran Mesin menyertakan alat seperti Scikit-Learn dalam kurikulum. Ini adalah komponen penting dari pemrograman Python dan pelatihan Ilmu Data. Tetapi resep pengkodean dengan Python dan Scikit-Learn tidak cukup dalam lingkungan kerja yang kompetitif saat ini. Anda perlu mendapatkan pengetahuan berorientasi industri dan melatih keterampilan Anda. Jadi, pilihlah program studi yang memberikan kesempatan untuk melaksanakan proyek dan tugas.