Semua yang perlu Anda ketahui tentang Fungsi Aktivasi di ML

Diterbitkan: 2022-11-08

Daftar isi

Apa itu Fungsi Aktivasi dalam Pembelajaran Mesin?

Fungsi aktivasi Machine Learning terbukti menjadi elemen penting dalam model ML yang terdiri dari semua bobot dan biasnya. Mereka adalah subjek penelitian yang terus berkembang dan telah memainkan peran penting dalam mewujudkan pelatihan Jaringan Saraf Dalam menjadi kenyataan. Intinya, mereka menentukan keputusan untuk merangsang neuron. Jika informasi yang diterima neuron berkaitan dengan informasi yang sudah ada atau harus diabaikan. Modifikasi non-linier yang kita terapkan pada sinyal input disebut fungsi aktivasi. Lapisan neuron berikut menerima keluaran yang diubah ini sebagai masukan.

Karena fungsi aktivasi melakukan perhitungan non-linier pada input Neural Network, fungsi tersebut memungkinkannya untuk belajar dan melakukan tugas yang lebih rumit tanpanya, yang pada dasarnya merupakan model regresi linier dalam Pembelajaran Mesin.

Sangat penting untuk memahami aplikasi fungsi aktivasi dan mempertimbangkan keuntungan dan kerugian dari setiap fungsi aktivasi untuk memilih jenis fungsi aktivasi yang sesuai yang mungkin menawarkan non-linier dan presisi dalam model Jaringan Saraf Tiruan tertentu.

Mendaftar untuk Kursus Pembelajaran Mesin dari Universitas top dunia. Dapatkan Master, PGP Eksekutif, atau Program Sertifikat Tingkat Lanjut untuk mempercepat karier Anda.

Model fungsi aktivasi Machine Learning pada dasarnya terdiri dari dua jenis –

  • Lapisan Tersembunyi
  • Lapisan Keluaran

Lapisan Tersembunyi

Fungsi aktivasi yang digunakan dalam lapisan tersembunyi dari model Neural peran utama adalah untuk menyediakan non-linearitas yang jaringan saraf butuhkan untuk mensimulasikan interaksi non-linear.

Lapisan Keluaran

Metode Aktivasi yang digunakan oleh lapisan keluaran model Pembelajaran Mesin memiliki tujuan utama tertentu: memampatkan nilai dalam rentang terbatas, seperti 0 hingga 1.

Mari kita pahami terlebih dahulu berbagai jenis Fungsi Aktivasi dalam Pembelajaran Mesin

1. Fungsi Langkah Biner

Pengklasifikasi berbasis ambang, yang menentukan apakah neuron harus terlibat atau tidak, adalah hal pertama yang muncul di benak kita ketika kita memiliki fungsi aktivasi. Neuron dipicu jika nilai Y lebih besar dari nilai ambang batas yang ditentukan; lain, itu dibiarkan tidak aktif.

Hal ini sering didefinisikan sebagai -

f(x) = 1, x>=0

f(x) = 0, x<0

Fungsi biner sangat sederhana. Ini berlaku saat mengembangkan pengklasifikasi biner. Penilaian diperlukan, yang merupakan pilihan ideal ketika kita hanya perlu menjawab ya atau tidak untuk satu kelas karena mereka mengaktifkan neuron atau membiarkannya nihil.

2. Fungsi Linier

Kemiringan positif dapat menyebabkan kenaikan laju pembakaran saat laju input naik. Fungsi aktivasi linier lebih unggul dalam menyediakan berbagai aktivasi.

Fungsi ini secara tepat proporsional dengan kombinasi bobot neuron atau input dalam fungsi aktivasi horizontal langsung kami.

Sebuah neuron mungkin menembak atau tidak menembak dalam biner. Anda mungkin memperhatikan bahwa turunan dari fungsi ini konstan jika Anda terbiasa dengan penurunan gradien dalam pembelajaran mesin.

Kursus Pembelajaran Mesin Terbaik & Kursus AI Online

Master of Science dalam Pembelajaran Mesin & AI dari LJMU Program Pascasarjana Eksekutif dalam Pembelajaran Mesin & AI dari IIITB
Program Sertifikat Tingkat Lanjut dalam Pembelajaran Mesin & NLP dari IIITB Program Sertifikat Tingkat Lanjut dalam Pembelajaran Mesin & Pembelajaran Mendalam dari IIITB Program Pascasarjana Eksekutif dalam Ilmu Data & Pembelajaran Mesin dari University of Maryland
Untuk Jelajahi semua kursus kami, kunjungi halaman kami di bawah ini.
Kursus Pembelajaran Mesin

3. Fungsi Non-Linear

  1. ReLU

Dalam hal fungsi aktivasi, Rectified Linear Unit adalah yang terbaik. Ini adalah fungsi aktivasi paling populer dan default untuk sebagian besar masalah. Ketika negatif, itu terbatas pada 0, sedangkan ketika menjadi positif, itu tidak terbatas. Jaringan saraf yang dalam dapat mengambil manfaat dari regularisasi intrinsik yang diciptakan oleh kombinasi antara batasan dan ketidakterbatasan ini. Regularisasi menciptakan representasi yang jarang yang membuat pelatihan dan inferensi efektif secara komputasi.

Keterbatasan positif mempertahankan kesederhanaan komputasi sambil mempercepat konvergensi regresi linier. ReLU hanya memiliki satu kelemahan signifikan: neuron mati. Beberapa neuron mati dimatikan di awal fase pelatihan dan terikat secara negatif ke 0 tidak pernah diaktifkan kembali. Karena fungsi dengan cepat bertransisi dari tak terbatas saat x > 0 ke terbatas saat x 0, fungsi tersebut tidak dapat didiferensiasikan secara kontinu. Namun, dalam praktiknya, hal ini dapat diatasi tanpa efek jangka panjang pada kinerja jika ada tingkat pembelajaran yang rendah dan bias negatif yang signifikan.

Kelebihan:

  • ReLU membutuhkan lebih sedikit proses matematis daripada fungsi non-linier lainnya, membuatnya lebih murah secara komputasi dan linier.
  • Ini mencegah dan memperbaiki masalah Vanishing Gradient.

Menggunakan:

  • Digunakan di RNN, CNN, dan model pembelajaran mesin lainnya.

Modifikasi berbeda dari ReLU –

ReLU bocor

Varian yang lebih baik dari fungsi ReLU adalah fungsi ReLU Leaky. Karena gradien fungsi ReLU adalah 0, di mana x<0, aktivasi di wilayah itu menyebabkan neuron mati, dan ReLU yang bocor terbukti paling bermanfaat untuk menyelesaikan masalah tersebut. Kami mendefinisikan fungsi ReLU sebagai komponen linier kecil dari x daripada sebagai 0, di mana x<0.

Dapat dilihat sebagai –

f(x)=ax, x<0

f(x)=x, x>=0

Pro –

  • ReLU bocor, yang memiliki sedikit kemiringan negatif, adalah upaya untuk mengatasi masalah "ReLU yang sekarat" (0,01 atau lebih).

Menggunakan -

  • Digunakan dalam tugas yang melibatkan gradien seperti GAN.

ReLU Parametrik

Ini adalah peningkatan dari Leaky ReLU, di mana kelipatan skalar dilatih pada data daripada dipilih secara acak. Karena model dilatih menggunakan data, model ini sensitif terhadap parameter penskalaan (a), dan penghitungannya berbeda tergantung pada nilai a.

Menggunakan -

  • Ketika ReLU Leaky gagal, ReLU Parametrik dapat digunakan untuk menyelesaikan masalah neuron mati.

GeLU (Satuan Linear Kesalahan Gaussian)

Anak terbaru di blok dan tidak diragukan lagi pemenang untuk NLP (Natural Language Processing) - tugas terkait adalah Unit Linear Kesalahan Gaussian, yang digunakan dalam sistem berbasis transformator dan algoritma SOTA seperti GPT-3 dan BERT. GeLU menggabungkan ReLU, Zone Out, dan Dropout (yang secara acak menghilangkan neuron untuk jaringan yang jarang). ReLU dibuat lebih halus dengan GeLU karena bobot input dengan persentil daripada gerbang.

Menggunakan -

  • Visi Komputer, NLP, Pengenalan Ucapan

ELU (Satuan Linier Eksponensial)

ELU yang diperkenalkan tahun 2015 tidak terbatas secara positif dan menggunakan kurva log untuk nilai negatif. Dibandingkan dengan Leaky dan Parameter ReLU, strategi untuk menyelesaikan masalah neuron mati ini sedikit berbeda. Berbeda dengan ReLU, nilai negatif berangsur-angsur menjadi halus dan menjadi terbatas untuk mencegah neuron mati. Namun, itu mahal karena fungsi eksponensial digunakan untuk menggambarkan kemiringan negatif. Saat menggunakan teknik awal yang kurang ideal, fungsi eksponensial terkadang menghasilkan gradien yang meluas.

Desir

Nilai negatif kecil dari Swish, yang pertama kali diperkenalkan pada tahun 2017, masih membantu dalam menangkap pola yang mendasarinya, sedangkan nilai negatif yang besar akan memiliki turunan 0. Swish dapat digunakan untuk menggantikan ReLU dengan mudah karena bentuknya yang menarik.

Pro –

  • Hasilnya adalah solusi antara fungsi Sigmoid dan RELU yang membantu menormalkan hasil.
  • Memiliki kemampuan untuk mengatasi Vanishing Gradient Problem.

Menggunakan -

  • Dalam hal kategorisasi gambar dan terjemahan mesin, ini setara atau bahkan lebih unggul dari ReLU.

Keterampilan Pembelajaran Mesin yang Dibutuhkan

Kursus Kecerdasan Buatan Kursus Tablo
Kursus NLP Kursus Pembelajaran Mendalam

4. Fungsi Aktivasi Softmax

Seperti fungsi aktivasi sigmoid, softmax terutama digunakan di lapisan akhir, atau lapisan keluaran, untuk membuat keputusan. Softmax hanya memberikan nilai ke variabel input berdasarkan bobotnya, dan total bobot ini akhirnya sama dengan satu.

Kelebihan –

  • Jika dibandingkan dengan fungsi RELU, konvergensi gradien lebih halus di Softmax.
  • Ia memiliki kemampuan untuk menangani masalah Vanishing Gradient.

Menggunakan -

  • Klasifikasi Multiclass dan Multinomina.

5. Sigmoid

Fungsi Sigmoid dalam Machine Learning adalah salah satu fungsi aktivasi yang paling populer. persamaannya adalah –

f(x)=1/(1+e^-x)

Fungsi aktivasi ini memiliki manfaat untuk mengurangi input ke nilai mulai dari 0 dan 1, yang membuatnya ideal untuk probabilitas pemodelan. Ketika diterapkan pada jaringan saraf yang dalam, fungsinya menjadi terdiferensiasi tetapi cepat jenuh karena keterbatasan, menghasilkan gradien yang semakin berkurang. Biaya komputasi eksponensial meningkat ketika model dengan ratusan lapisan dan neuron perlu dilatih.

Turunan dibatasi antara -3 dan 3, sedangkan fungsinya dibatasi antara 0 dan 1. Ini tidak ideal untuk melatih lapisan tersembunyi karena outputnya tidak simetris di sekitar nol, yang akan menyebabkan semua neuron mengadopsi tanda yang sama selama pelatihan .

Kelebihan –

  • Memberikan gradien halus selama konvergen.
  • Ini sering memberikan klasifikasi prediksi yang tepat dengan 0 dan 1.

Menggunakan -

  • Fungsi Sigmoid dalam Machine Learning biasanya digunakan dalam klasifikasi biner dan model regresi logistik di lapisan output.

Blog Pembelajaran Mesin dan Kecerdasan Buatan Populer

IoT: Sejarah, Sekarang & Masa Depan Tutorial Pembelajaran Mesin: Belajar ML Apa itu Algoritma? Sederhana & Mudah
Gaji Insinyur Robotika di India : Semua Peran Sehari dalam Kehidupan Seorang Insinyur Pembelajaran Mesin: Apa yang mereka lakukan? Apa itu IoT (Internet of Things)
Permutasi vs Kombinasi: Perbedaan antara Permutasi dan Kombinasi 7 Tren Teratas dalam Kecerdasan Buatan & Pembelajaran Mesin Pembelajaran Mesin dengan R: Semua yang Perlu Anda Ketahui

6. Tanh – Fungsi Aktivasi Tangen Hiperbolik

Mirip dengan Fungsi Sigmoid di Machine Learning , fungsi aktivasi ini digunakan untuk meramalkan atau membedakan antara dua kelas, kecuali secara eksklusif mentransfer input negatif ke dalam jumlah negatif dan memiliki rentang -1 hingga 1.

tanh(x)=2sigmoid(2x)-1

atau

tanh(x)=2/(1+e^(-2x)) -1

Ini pada dasarnya menyelesaikan masalah kami dengan nilai-nilai yang memiliki tanda yang sama. Karakteristik lain identik dengan fungsi sigmoid. Pada titik mana pun, itu terus menerus dan berbeda.

Kelebihan –

  • Tidak seperti sigmoid, ia memiliki fungsi nol-sentris.
  • Fungsi ini juga memiliki gradien yang halus.

Meskipun fungsi Tahn dan Sigmoid dalam Pembelajaran Mesin dapat digunakan dalam lapisan tersembunyi karena batas positifnya, jaringan saraf dalam tidak dapat menggunakannya karena saturasi pelatihan dan gradien yang hilang.

Mulailah Karir Machine Learning Anda dengan Kursus yang Tepat

Tertarik untuk mempelajari lebih dalam fungsi aktivasi dan bantuannya dalam meningkatkan Pembelajaran Mesin? Dapatkan ikhtisar Pembelajaran Mesin dengan semua detail seperti AI, Pembelajaran Mendalam, NLP, dan Pembelajaran Penguatan dengan kursus UpGrad yang diakui WES, Magister Sains dalam Pembelajaran Mesin dan AI . Kursus ini memberikan pengalaman langsung saat mengerjakan lebih dari 12 proyek, melakukan penelitian, kelas coding tinggi, dan pelatihan dengan beberapa profesor terbaik.

Daftar untuk mempelajari lebih lanjut!

Kesimpulan

Operasi kritis yang dikenal sebagai fungsi aktivasi mengubah input secara non-linear, memungkinkannya memahami dan melakukan tugas yang lebih rumit. Kami membahas fungsi aktivasi paling populer dan penggunaannya yang mungkin berlaku; fungsi aktivasi ini menyediakan fungsi yang sama tetapi diterapkan dalam berbagai keadaan.

Bagaimana Anda bisa memutuskan fungsi aktivasi mana yang terbaik?

Memilih fungsi aktivasi adalah keputusan kompleks yang sepenuhnya bergantung pada masalah yang dihadapi. Namun, Anda mungkin ingin memulai dengan fungsi sigmoid jika Anda baru dalam pembelajaran mesin sebelum melanjutkan ke yang lain.

Haruskah fungsi aktivasi linier atau non-linier?

Tidak peduli seberapa rumit desainnya, fungsi aktivasi linier hanya efektif hingga kedalaman satu lapisan. Oleh karena itu lapisan aktivasi tidak bisa linier. Selain itu, dunia saat ini dan tantangannya sangat non-linear.

Fungsi aktivasi mana yang dapat dipelajari dengan mudah?

Tan. Dengan memperluas jangkauan untuk mencakup -1 hingga 1, ini mengatasi kelemahan fungsi aktivasi sigmoid. Hal ini menghasilkan pemusatan nol, yang menyebabkan rata-rata bobot lapisan tersembunyi mendekati 0. Hasilnya, pembelajaran menjadi lebih cepat dan mudah.