Penghapusan Fitur Rekursif: Apa Itu dan Mengapa Penting?

Diterbitkan: 2023-03-27

Data adalah tulang punggung pengambilan keputusan modern, dan bisnis selalu mencari cara untuk mendapatkan wawasan berharga darinya. Pembelajaran mesin adalah salah satu teknik paling umum yang digunakan dalam organisasi untuk analisis data, yang melibatkan algoritme pelatihan untuk membuat prediksi berdasarkan data historis. Namun, tidak semua fitur dalam kumpulan data dibuat sama, dan beberapa fitur mungkin memiliki dampak yang lebih tinggi pada performa model daripada yang lain.

Penghapusan fitur rekursif adalah teknik analisis data populer yang digunakan untuk mengidentifikasi dan menghilangkan fitur yang tidak relevan atau berlebihan dari kumpulan data, meningkatkan akurasi dan efisiensi model pembelajaran mesin.

Dapatkan Sertifikasi Pembelajaran Mesin dari Universitas top Dunia. Dapatkan Program Master, PGP Eksekutif, atau Sertifikat Lanjutan untuk mempercepat karier Anda.

Dalam artikel ini, kita akan mempelajari apa itu eliminasi fitur rekursif , cara kerjanya, dan mengapa penting bagi bisnis yang ingin mengekstrak wawasan bermakna dari data mereka.

Daftar isi

Apa saja teknik yang berbeda untuk pemilihan fitur?

Pemilihan fitur adalah langkah penting dalam pembelajaran mesin yang melibatkan pemilihan atribut yang paling relevan dari kumpulan data untuk membangun model yang memprediksi hasil secara akurat. Namun, memilih fitur yang tepat tidak selalu mudah. Ada banyak teknik yang berbeda, masing-masing dengan kekuatan dan kelemahannya. Mari kita lihat beberapa di antaranya!

Metode Penyaringan

Metode filter memilih fitur yang dibuat pada properti statistik, seperti korelasinya dengan variabel atau varian target. Metode ini efisien secara komputasi dan dapat diterapkan sebelum melatih model. Contoh metode filter termasuk uji Chi-kuadrat, pemilihan fitur berbasis korelasi, dan ambang batas varians.

Metode Pembungkus

Metode pembungkus memilih fitur dengan mengevaluasi kinerja model pembelajaran mesin dengan subset fitur. Metode ini mahal secara komputasi tetapi dapat menghasilkan kinerja model yang lebih baik. Contoh metode pembungkus termasuk Penghapusan Fitur Rekursif, Pemilihan Maju, dan Penghapusan Mundur.

Metode Tertanam

Untuk metode tersemat, pemilihan fitur terjadi selama pelatihan. Metode ini mencakup teknik seperti Lasso dan Ridge Regression, yang menambahkan penalti pada koefisien model untuk mengecilkan fitur yang kurang signifikan menjadi nol.

Metode Hibrid

Metode hibrid menggabungkan teknik pemilihan fitur yang berbeda untuk mencapai hasil yang lebih baik. Metode ini seringkali lebih efektif daripada menggunakan satu pendekatan saja. Contoh metode hibrid termasuk ReliefF dan Pemilihan Fitur Hutan Acak.

Intinya, pilihan teknik pemilihan fitur bergantung pada masalah spesifik, dataset, dan sumber daya komputasi yang tersedia.

Sekarang, mari selami lebih dalam salah satu metode pembungkus paling penting untuk eliminasi fitur, Penghapusan Fitur Rekursif.

Apa itu Penghapusan Fitur Rekursif?

Penghapusan Fitur Rekursif (RFE) adalah metode pembungkus yang secara rekursif menghilangkan fitur dan membangun model di atas yang tersisa. Itu memeringkat fitur berdasarkan kepentingan dan menghilangkan yang paling tidak penting sampai jumlah fitur yang diinginkan tercapai. RFE adalah proses berulang yang bekerja sebagai berikut:

  1. Latih model tentang semua fitur dan beri peringkat berdasarkan kepentingannya.
  2. Hilangkan fitur yang paling tidak penting.
  3. Berulang kali latih model pada fitur yang tersisa dan hilangkan fitur yang paling tidak signifikan hingga jumlah fitur yang diinginkan tercapai.

RFE mempertimbangkan interaksi antara fitur dan dampaknya terhadap performa model.

Untuk memahami cara kerja RFE, mari pertimbangkan sebuah contoh.

Misalkan kita memiliki kumpulan data harga rumah dengan sepuluh fitur berbeda, termasuk jumlah kamar tidur, ukuran luas, dan usia rumah. Kami ingin membuat model pembelajaran mesin untuk memprediksi harga rumah berdasarkan fitur ini. Namun, kami menduga bahwa beberapa fitur mungkin tidak penting dan bahkan dapat merusak performa model.

Kita dapat menggunakan RFE untuk mengidentifikasi fitur yang paling relevan dengan melatih model dengan semua fitur dan kemudian mengeliminasi fitur yang paling tidak penting secara rekursif hingga kita mencapai subset yang optimal. RFE melatih model selama setiap iterasi dan mengevaluasi kinerjanya menggunakan set validasi silang.

Misalnya, RFE dapat menentukan bahwa jumlah kamar tidur, ukuran luas, dan lokasi adalah fitur paling penting untuk memprediksi harga rumah. Sebaliknya, fitur lain, seperti usia rumah, berdampak kecil pada akurasi model.

Mengapa RFE muncul? Apa yang dipecahkannya?

Ketika pembelajaran mesin menjadi lebih umum, para ilmuwan data menyadari bahwa beberapa fitur mungkin tidak relevan atau berlebihan sementara yang lain dapat berdampak signifikan terhadap akurasi model. Ini melahirkan salah satu metode penting untuk membangun model pembelajaran mesin yang efisien- Teknik Pemilihan fitur Penghapusan Fitur Rekursif.

Penghapusan Fitur Rekursif (RFE) diperkenalkan untuk mengatasi beberapa keterbatasan metode yang ada saat muncul sebagai metode pembungkus yang secara rekursif menghapus fitur dan mengevaluasi dampaknya terhadap kinerja model. Proses berlanjut hingga jumlah fitur optimal tercapai.

RFE memecahkan beberapa masalah yang dihadapi teknik seleksi fitur tradisional.

  • RFE adalah pendekatan seleksi mundur yang dimulai dengan semua fitur dan kemudian menghapus fitur yang paling tidak penting secara iteratif. Pendekatan ini lebih unggul daripada pemilihan maju, yang dimulai dengan fitur yang paling tidak penting dan menambahkan lebih banyak hingga jumlah optimal tercapai.
  • RFE menghindari overfitting dengan validasi silang selama proses pemilihan fitur. Overfitting terjadi ketika model terlalu kompleks dan terlalu cocok dengan data pelatihan, sehingga menghasilkan kinerja yang buruk pada data baru.
  • RFE dapat diterapkan pada semua jenis model, menjadikannya teknik serbaguna yang dapat digunakan dalam berbagai skenario.

Menerapkan algoritma RFE dengan Python

Python menyediakan beberapa library yang dapat digunakan untuk mengimplementasikan algoritma RFE. Sekarang mari kita lihat beberapa contoh RFE Python.

RFE Dengan scikit-belajar

Scikit-learn adalah perpustakaan pembelajaran mesin populer di Python yang menyediakan implementasi sederhana dari algoritma RFE. Cuplikan kode berikut menunjukkan cara menerapkan RFE di sci-kit-learn:

dari sklearn.feature_selection impor RFE

dari sklearn.linear_model impor LogisticRegression

model = Regresi Logistik()

rfe = RFE(model, n_features_to_select=5)

rfe.fit(X, y)

Pada cuplikan kode di atas, pertama-tama kita mengimpor kelas RFE dari modul feature_selection sci-kit-learn. Kami kemudian membuat instance dari kelas LogisticRegression, yang akan bertindak sebagai estimator dasar kami. Kami kemudian membuat turunan dari kelas RFE, meneruskan penaksir dasar dan jumlah fitur yang akan dipilih. Kami kemudian menyesuaikan objek RFE dengan data dan label kami.

RFE untuk Klasifikasi

Dalam masalah klasifikasi, RFE secara rekursif menghapus fitur dan membangun model pada fitur yang tersisa. Pemeringkatan fitur didasarkan pada skor kepentingan fitur yang dihitung oleh estimator. Cuplikan kode berikut menunjukkan penggunaan RFE untuk masalah klasifikasi:

dari sklearn.datasets mengimpor make_classification

dari sklearn.feature_selection impor RFE

dari sklearn.tree mengimpor DecisionTreeClassifier

X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=0, random_state=42)

model = DecisionTreeClassifier()

rfe = RFE(model, n_features_to_select=5)

rfe.fit(X, y)

print(“Fitur yang Dipilih: “, rfe.support_)

print(“Peringkat Fitur: “, rfe.ranking_)

Pada cuplikan kode di atas, pertama-tama kita membuat kumpulan data sintetik menggunakan fungsi make_classification dari sci-kit-learn. Kami kemudian membuat turunan dari kelas DecisionTreeClassifier, yang akan bertindak sebagai estimator dasar kami. Kami kemudian membuat turunan dari kelas RFE, meneruskan penaksir dasar dan jumlah fitur yang akan dipilih. Kami kemudian memasukkan objek RFE ke dalam data dan label kami, mencetak fitur yang dipilih dan fitur peringkat.

Hyperparameter RFE

RFE memiliki beberapa hyperparameter yang dapat disetel untuk hasil yang lebih baik. Beberapa hyperparameter penting adalah:

  • n_features_to_select: Hyperparameter ini menentukan jumlah fitur yang akan dipilih.
  • langkah: Hyperparameter ini menentukan jumlah fitur yang akan dihapus setiap iterasi.Nilai defaultnya adalah 1, yang berarti satu fitur dihapus pada setiap iterasi.
  • estimator: Hyperparameter ini menentukan estimator dasar yang akan digunakan.Secara default, SVM linier digunakan.
  • scoring: Hyperparameter ini menentukan metrik yang akan digunakan untuk peringkat fitur.Nilai defaultnya adalah Tidak ada, artinya metode skor estimator digunakan.
  • cv : Hyperparameter ini menentukan strategi validasi silang yang akan digunakan.Nilai defaultnya adalah Tidak ada, artinya validasi silang 3 kali lipat digunakan.

Kursus Pembelajaran Mesin Terbaik & Kursus AI Online

Master of Science dalam Pembelajaran Mesin & AI dari LJMU Program Pascasarjana Eksekutif dalam Pembelajaran Mesin & AI dari IIITB
Program Sertifikat Lanjutan dalam Pembelajaran Mesin & NLP dari IIITB Program Sertifikat Lanjutan dalam Machine Learning & Deep Learning dari IIITB Program Pascasarjana Eksekutif dalam Ilmu Data & Pembelajaran Mesin dari University of Maryland
Untuk Menjelajahi semua kursus kami, kunjungi halaman kami di bawah ini.
Kursus Pembelajaran Mesin

Masa Depan Penghapusan Fitur Rekursif

Masa depan Penghapusan Fitur Rekursif (RFE) terlihat menjanjikan, karena terus menjadi teknik populer untuk pemilihan fitur dalam pembelajaran mesin. Dengan meningkatnya jumlah data yang dihasilkan dan kebutuhan akan model yang lebih efisien dan akurat, pemilihan fitur menjadi langkah penting dalam alur pembelajaran mesin.

Studi terbaru menunjukkan bahwa RFE dapat secara signifikan meningkatkan kinerja model pembelajaran mesin dengan mengurangi dimensi data dan menghilangkan fitur yang tidak relevan atau berlebihan. Misalnya, dalam sebuah studi oleh NCBI , RFE digunakan untuk pemilihan fitur dalam mengklasifikasikan pasien depresi berdasarkan data pencitraan resonansi magnetik fungsional (fMRI). Hasil menunjukkan bahwa RFE memilih subset fitur yang sangat berkorelasi dengan diagnosis klinis depresi.

Karena bidang pembelajaran mesin terus berkembang, ada kebutuhan akan teknik pemilihan fitur yang lebih canggih dan efisien. Salah satu bidang penelitian yang mendapatkan daya tarik adalah penggunaan deep learning untuk pemilihan fitur. Namun, model deep learning seringkali mahal secara komputasi dan memerlukan pelatihan data yang besar.

Sebaliknya, RFE adalah teknik sederhana dan efektif yang dapat diterapkan pada berbagai model dan kumpulan data. Oleh karena itu, kemungkinan RFE akan terus digunakan sebagai teknik pemilihan fitur yang populer.

Keterampilan Machine Learning yang Diminta

Kursus Kecerdasan Buatan Kursus Tablo
Kursus NLP Kursus Pembelajaran Mendalam

Kesimpulan

Kesimpulannya, Recursive Feature Elimination (RFE) adalah teknik yang efektif untuk pemilihan fitur dalam pembelajaran mesin yang mengawasi masa depan yang cerah setelah penerapannya yang terus berkembang. RFE, menjadi teknik pemilihan fitur yang efektif, mendorong penggunaannya di berbagai domain, seperti diagnosis medis, bioinformatika, dan analisis gambar, menambah ekspansi yang tak tergoyahkan.

Jika Anda ingin mempelajari lebih lanjut tentang pembelajaran mesin dan AI, pertimbangkan untuk mendaftar di program Machine Learning dan AI PG Diploma upGrad bekerja sama dengan IIIT Bangalore. Program komprehensif ini mencakup alat dan teknik terbaru dalam pembelajaran mesin dan AI, termasuk teknik pemilihan fitur seperti RFE.

Program ini akan memberi Anda keterampilan dan pengetahuan yang dibutuhkan untuk membangun dan menerapkan model pembelajaran mesin untuk aplikasi dunia nyata.

Daftar sekarang dan raih berbagai manfaat pembelajaran imersif dengan upGrad!

Anda juga dapat melihatkursus gratis kamiyang ditawarkan oleh upGrad dalam Manajemen, Ilmu Data, Pembelajaran Mesin, Pemasaran Digital, dan Teknologi.Semua kursus ini memiliki sumber belajar terbaik, kuliah langsung mingguan, tugas industri, dan sertifikat penyelesaian kursus – semuanya gratis!

Blog AI dan ML Populer & Kursus Gratis

IoT: Sejarah, Sekarang & Masa Depan Tutorial Pembelajaran Mesin: Pelajari ML Apa itu Algoritma? Sederhana & Mudah
Gaji Insinyur Robotika di India: Semua Peran Sehari dalam Kehidupan Insinyur Pembelajaran Mesin: Apa yang mereka lakukan? Apa itu IoT (Internet of Things)
Permutasi vs Kombinasi: Perbedaan antara Permutasi dan Kombinasi 7 Tren Teratas dalam Kecerdasan Buatan & Pembelajaran Mesin Pembelajaran Mesin dengan R: Semua yang Perlu Anda Ketahui
Kursus Gratis AI & ML
Pengantar NLP Dasar-dasar Deep Learning Jaringan Syaraf Tiruan Regresi Linear: Panduan Langkah demi Langkah
Kecerdasan Buatan di Dunia Nyata Pengantar Tablo Studi Kasus menggunakan Python, SQL dan Tableau

Apa perbedaan antara RFE dan PCA untuk pemilihan fitur?

Baik RFE dan Analisis Komponen Utama (PCA) adalah teknik yang digunakan untuk pemilihan fitur. Perbedaan utama antara keduanya adalah PCA memodifikasi atribut asli menjadi set baru, sementara RFE menghilangkan atribut asli.

Bagaimana cara menentukan jumlah fitur yang optimal untuk dipilih menggunakan RFE?

Salah satu cara untuk menentukan jumlah fitur yang optimal untuk dipilih menggunakan RFE adalah dengan melakukan validasi silang dan memilih jumlah fitur yang memberikan kinerja terbaik pada set validasi. Cara lain adalah dengan menggunakan plot scree, yang memplot jumlah fitur terhadap kinerja model yang sesuai.

Bisakah RFE digunakan untuk tugas pembelajaran tanpa pengawasan?

Tidak, RFE adalah teknik pembelajaran terawasi yang membutuhkan data berlabel untuk memilih fitur. Teknik lain seperti pengelompokan atau pengurangan dimensi dapat digunakan untuk pemilihan fitur dalam tugas pembelajaran tanpa pengawasan tanpa data berlabel.