Pembelajaran Penguatan di ML: Cara Kerja, Model & Jenis Pembelajaran

Diterbitkan: 2021-06-11

Daftar isi

Apa itu Pembelajaran Penguatan?

Pembelajaran penguatan mengacu pada proses mengambil keputusan yang sesuai melalui model pembelajaran mesin yang sesuai. Ini didasarkan pada proses pelatihan metode pembelajaran mesin. Ini adalah teknik pembelajaran mesin berbasis umpan balik, di mana agen belajar berperilaku di lingkungan dengan mengamati kesalahannya dan melakukan tindakan.

Reinforcement learning menerapkan metode pembelajaran melalui Interaksi dan umpan balik. Beberapa istilah yang digunakan dalam pembelajaran penguatan adalah:

  • Agen : Ini adalah pelajar atau pembuat keputusan yang melakukan tindakan untuk menerima hadiah.
  • Lingkungan : Ini adalah skenario di mana agen belajar dan melakukan tugas di masa depan.
  • Action : tindakan yang dilakukan oleh agen.
  • Status : situasi saat ini
  • Kebijakan : Fungsi pengambilan keputusan dari agen dimana agen memutuskan tindakan masa depan berdasarkan keadaan saat ini.
  • Reward : Pengembalian yang diberikan oleh lingkungan kepada agen untuk melakukan setiap tindakan.
  • Nilai : Dibandingkan dengan imbalan, ini adalah pengembalian jangka panjang yang diharapkan dengan diskon.
  • Fungsi nilai : Menunjukkan nilai suatu keadaan .yaitu jumlah total pengembalian.
  • Perkiraan fungsi : Menginduksi fungsi dari contoh pelatihan.
    Model lingkungan: itu adalah model yang meniru lingkungan nyata untuk memprediksi kesimpulan.
  • Metode berbasis model : Digunakan untuk menyelesaikan model berbasis penguatan.
  • Nilai Q atau nilai tindakan : mirip dengan nilai tetapi parameter tambahan dianggap seperti tindakan saat ini.
  • Proses keputusan Markov : Sebuah model probabilistik dari masalah keputusan sekuensial.
  • Pemrograman dinamis : Kelas metode untuk memecahkan masalah keputusan berurutan.

    Pembelajaran penguatan sebagian besar berkaitan dengan fakta tentang bagaimana agen perangkat lunak harus mengambil tindakan dalam suatu lingkungan. Pembelajaran berdasarkan jaringan saraf memungkinkan pencapaian tujuan yang kompleks.

Bagaimana Reinforcement Learning Bekerja?

Contoh pembelajaran penguatan ditunjukkan di bawah ini yang menunjukkan bagaimana pembelajaran penguatan bekerja.

  • Kucing tidak mengerti bentuk bahasa apa pun dan oleh karena itu strategi yang berbeda harus diikuti untuk berkomunikasi dengan kucing.
  • Situasi tercipta di mana kucing bertindak dengan berbagai cara. Kucing itu dihadiahi ikan jika itu cara yang diinginkan. Oleh karena itu kucing berperilaku dengan cara yang sama setiap kali menghadapi situasi itu mengharapkan lebih banyak makanan sebagai hadiah.
  • Skenario mendefinisikan proses belajar dari pengalaman positif.
  • Terakhir, kucing juga belajar apa yang tidak boleh dilakukan melalui pengalaman negatif.

Ini mengarah pada penjelasan berikut:

  • Kucing bertindak sebagai agen saat terpapar lingkungan. Dalam contoh yang disebutkan di atas, rumah adalah lingkungan. Negara bagian mungkin seperti kucing yang duduk atau berjalan.
  • Agen melakukan suatu tindakan dengan berpindah dari satu keadaan ke keadaan lain seperti berpindah dari posisi duduk ke posisi berjalan.
  • Aksi adalah reaksi dari agen. Kebijakan mencakup metode memilih tindakan dalam keadaan tertentu sambil mengharapkan hasil yang lebih baik di keadaan masa depan.
  • Transisi negara mungkin memberikan hadiah atau penalti.

Beberapa poin yang perlu diperhatikan dalam pembelajaran Reinforcement

  • Keadaan awal input harus disediakan dari mana model akan dimulai.
  • Banyak kemungkinan keluaran yang dihasilkan melalui beragam solusi untuk masalah tertentu.
  • Pelatihan metode RL didasarkan pada input. Setelah menghasilkan keluaran, model akan memutuskan apakah akan memberi penghargaan kepada model. Oleh karena itu, model terus dilatih.
  • Model terus menerus belajar.
  • Solusi terbaik untuk suatu masalah ditentukan pada hadiah maksimum yang diterimanya.

Algoritma Pembelajaran Penguatan

Ada tiga pendekatan untuk menerapkan metode pembelajaran penguatan.

1. Berbasis nilai

Metode berbasis nilai melibatkan memaksimalkan fungsi nilai V(s). Harapan pengembalian jangka panjang dari keadaan saat ini diharapkan di bawah suatu kebijakan. SARSA dan Q Learning adalah beberapa dari algoritma berbasis nilai. Pendekatan berbasis nilai cukup stabil karena tidak mampu memodelkan lingkungan yang berkelanjutan. Kedua algoritme tersebut sederhana untuk diterapkan, tetapi mereka tidak dapat memperkirakan nilai dari keadaan yang tidak terlihat.

2. Berbasis kebijakan

Jenis metode ini Melibatkan pengembangan kebijakan yang membantu mengembalikan imbalan maksimal melalui kinerja setiap tindakan.

Ada dua jenis metode berbasis kebijakan:

  • Deterministik: Ini berarti bahwa di bawah keadaan apa pun kebijakan menghasilkan tindakan yang sama.
  • Stochastic: Probabilitas untuk setiap tindakan ada yang ditentukan oleh persamaan

n{a\s) = P\A, = a\S, =S]

Algoritma berbasis kebijakan adalah gradien kebijakan Monte Carlo (REINFORCE) dan gradien kebijakan deterministik (DPG). Pendekatan pembelajaran berbasis kebijakan menghasilkan ketidakstabilan karena mereka menderita varians yang tinggi.

Algoritme “aktor-kritikus” dikembangkan melalui kombinasi pendekatan berbasis nilai dan berbasis kebijakan. Parameterisasi fungsi nilai (kritikus) dan kebijakan (pelaku) memungkinkan konvergensi yang stabil melalui penggunaan data pelatihan yang efektif.

3. Berbasis model

Model virtual dibuat untuk setiap lingkungan dan agen belajar berdasarkan model itu. Pembuatan model mencakup langkah-langkah pengambilan sampel keadaan, pengambilan tindakan, dan pengamatan imbalan. Pada setiap keadaan dalam suatu lingkungan, model memprediksi keadaan masa depan dan imbalan yang diharapkan. Dengan tersedianya model berbasis RL, agen dapat merencanakan tindakan. Agen mendapatkan kemampuan untuk belajar ketika proses perencanaan terjalin dengan estimasi kebijakan.

Reinforcement learning bertujuan untuk mencapai suatu tujuan melalui eksplorasi agen dalam lingkungan yang tidak diketahui. Sebuah hipotesis RL menyatakan bahwa tujuan dapat digambarkan sebagai maksimalisasi penghargaan. Agen harus dapat memperoleh imbalan maksimum melalui gangguan negara dalam bentuk tindakan. Algoritma RL dapat secara luas diklasifikasikan menjadi model based dan model free.

Model pembelajaran dalam Penguatan

1. Proses keputusan Markov

Himpunan parameter yang digunakan dalam proses keputusan Markov adalah:

Set Tindakan-A

Set negara bagian-S

Hadiah-R

Kebijakan-n

Nilai-V

Proses keputusan Markov adalah pendekatan matematis untuk memetakan solusi dalam pembelajaran penguatan.

2. Pembelajaran Q

Proses ini memberikan informasi kepada agen yang menginformasikan tindakan mana yang harus dilanjutkan. Ini adalah bentuk pendekatan model bebas. Nilai Q terus diperbarui, yang menunjukkan nilai melakukan tindakan "a" dalam keadaan "s".

Perbedaan antara Reinforcement learning dan Supervised learning

Pembelajaran yang diawasi adalah proses pembelajaran mesin di mana seorang supervisor diperlukan untuk memasukkan pengetahuan ke dalam algoritma pembelajaran. Fungsi utama supervisor meliputi pengumpulan data pelatihan seperti gambar, klip audio, dll.

Sedangkan di RL dataset pelatihan sebagian besar mencakup set situasi, dan tindakan. Pembelajaran penguatan dalam pembelajaran mesin tidak memerlukan bentuk pengawasan apa pun. Juga, kombinasi pembelajaran penguatan dan pembelajaran mendalam menghasilkan pembelajaran penguatan subbidang yang dalam.

Perbedaan utama antara RL dan Pembelajaran Terawasi ditabulasikan di bawah ini.

Pembelajaran Penguatan Pembelajaran Terawasi
Keputusan dibuat secara berurutan. Output dari proses tergantung pada keadaan input saat ini. Input berikutnya akan tergantung pada output dari input sebelumnya dan seterusnya. Keputusan dibuat pada input awal atau pada input yang diumpankan pada awal proses.
Keputusan tergantung. Oleh karena itu, pelabelan dilakukan untuk urutan keputusan dependen. Keputusan tidak tergantung satu sama lain. Oleh karena itu, pelabelan semua keputusan dilakukan.
Interaksi dengan lingkungan terjadi di RL. Tidak ada interaksi dengan lingkungan. Prosesnya bekerja pada dataset yang ada.
Proses pengambilan keputusan dari RL mirip dengan proses pengambilan keputusan dari otak manusia. Proses pengambilan keputusan mirip dengan keputusan yang dibuat oleh otak manusia di bawah pengawasan seorang pemandu.
Tidak ada kumpulan data berlabel. Kumpulan data berlabel.
Pelatihan sebelumnya tidak diperlukan untuk agen pembelajaran. Pelatihan sebelumnya disediakan untuk prediksi keluaran.
RL paling baik didukung dengan AI, di mana ada prevalensi interaksi manusia. Pembelajaran yang diawasi sebagian besar dioperasikan dengan aplikasi atau sistem perangkat lunak interaktif.
Contoh: Permainan catur Contoh: Pengenalan objek

Jenis Penguatan

Ada dua jenis pembelajaran penguatan

1. Positif

Pembelajaran penguatan positif didefinisikan sebagai peristiwa yang dihasilkan dari perilaku tertentu. Ini berdampak positif pada agen karena meningkatkan kekuatan dan frekuensi pembelajaran. Alhasil, performanya pun maksimal. Oleh karena itu, perubahan dipertahankan untuk jangka waktu yang lebih lama. Namun, optimasi keadaan yang berlebihan dapat mempengaruhi hasil belajar. Oleh karena itu, penguatan belajar tidak boleh terlalu banyak.

Keuntungan dari penguatan positif adalah:

  • Maksimalisasi kinerja.
  • Perubahan dipertahankan untuk jangka waktu yang lebih lama.

2. Negatif

Penguatan negatif didefinisikan ketika dalam keadaan kondisi negatif, perilaku diperkuat. Standar kinerja minimum ditentukan melalui penguatan negatif

Keuntungan dari pembelajaran penguatan negatif adalah:

  • Meningkatkan perilaku.
  • Memberikan pembangkangan terhadap standar kinerja minimum

Kekurangan pembelajaran penguatan

  • Menyediakan hanya cukup untuk memenuhi perilaku minimum.

Tantangan dalam Pembelajaran Penguatan

Pembelajaran penguatan, meskipun tidak memerlukan supervisi model, bukanlah jenis pembelajaran tanpa pengawasan. Namun, ini adalah bagian yang berbeda dari pembelajaran mesin.

Beberapa tantangan yang terkait dengan pembelajaran penguatan adalah:

  • Persiapan lingkungan simulasi. Hal ini tergantung pada tugas yang akan dilakukan. Pembuatan simulator realistis adalah tugas yang menantang. Model harus mengetahui setiap menit dan detail penting dari lingkungan.
  • Keterlibatan desain fitur dan penghargaan sangat penting.
  • Kecepatan belajar dapat dipengaruhi oleh parameter.
  • Mentransfer model ke dalam lingkungan pelatihan.
  • Mengontrol agen melalui jaringan saraf adalah tantangan lain karena satu-satunya komunikasi dengan jaringan saraf adalah melalui sistem penghargaan dan hukuman. Kadang-kadang hal ini dapat mengakibatkan bencana lupa yaitu penghapusan pengetahuan lama sambil mendapatkan pengetahuan baru.
  • Mencapai minimum lokal merupakan tantangan untuk pembelajaran penguatan.
  • Dalam kondisi lingkungan nyata, observasi parsial mungkin ada.
  • Penerapan pembelajaran penguatan harus diatur. Kelebihan jumlah RL menyebabkan kelebihan negara bagian. Hal ini dapat menyebabkan berkurangnya hasil.
  • Lingkungan nyata tidak stasioner.

Aplikasi Penguatan

  • Di bidang Robotika untuk otomasi industri.
  • RL dapat digunakan dalam perencanaan strategis bisnis.
  • RL dapat digunakan dalam teknik pemrosesan data yang melibatkan algoritma pembelajaran mesin.
  • Ini dapat digunakan untuk persiapan materi pelatihan khusus bagi siswa sesuai kebutuhan mereka.
  • RL dapat diterapkan dalam pengendalian pesawat dan gerak robot.

Di lingkungan besar, Penguatan dapat diterapkan dalam situasi berikut:

  • Jika solusi analitik tidak tersedia untuk model lingkungan yang diketahui.
  • Jika hanya model simulasi lingkungan yang disediakan.
  • Ketika hanya ada satu cara untuk mengumpulkan data yaitu berinteraksi dengan lingkungan.

Apa gunanya Reinforcement Learning?

  • Penguatan Pembelajaran membantu dalam mengidentifikasi situasi yang membutuhkan tindakan.
  • Penerapan RL membantu mengetahui tindakan mana yang menghasilkan hadiah tertinggi.
  • Kegunaan RL terletak dalam menyediakan agen dengan fungsi hadiah.
  • Terakhir, RL membantu dalam mengidentifikasi metode yang mengarah ke imbalan yang lebih besar.

Kesimpulan

RL tidak dapat diterapkan pada setiap situasi. Ada batasan tertentu dalam penggunaannya.

  • Ketersediaan data yang cukup memungkinkan penggunaan pendekatan pembelajaran terawasi daripada metode RL.
  • Perhitungan RL cukup memakan waktu, terutama dalam kasus di mana lingkungan yang besar dipertimbangkan.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat Program PG Eksekutif IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT -B Status Alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Seperti apa masa depan pekerjaan pembelajaran mesin?

Adopsi pembelajaran mesin telah meningkat pesat di berbagai vertikal industri saat ini. Mulai dari sektor keuangan dan investasi hingga hiburan, media, mobil, perawatan kesehatan, dan game – saat ini sulit untuk menemukan industri yang tidak menggunakan AI dan pembelajaran mesin. Akibatnya, ruang lingkup pekerjaan pembelajaran mesin secara signifikan lebih tinggi daripada banyak pekerjaan teknologi lainnya. Sesuai laporan dari Gartner, pada akhir tahun 2022, diperkirakan 2,3 juta pembelajaran mesin dan pekerjaan AI akan ada di pasar. Selain itu, kompensasi yang ditawarkan kepada para profesional di bidang ini juga diharapkan jauh lebih tinggi, dengan gaji awal berkisar INR 9 lakh per tahun.

Apa itu cloud AI?

AI cloud adalah konsep yang relatif baru yang mulai diambil oleh organisasi baru-baru ini. Konsep ini menggabungkan kecerdasan buatan dan komputasi awan dan didorong oleh dua faktor. Perangkat lunak dan alat AI memberikan nilai tambah yang baru dan ditingkatkan untuk komputasi awan yang sekarang memainkan peran yang semakin signifikan dalam adopsi kecerdasan buatan. AI cloud terdiri dari infrastruktur bersama untuk kasus penggunaan tertentu yang secara bersamaan dimanfaatkan oleh berbagai proyek dan beban kerja. Keuntungan terbesar dari AI cloud adalah berhasil menyatukan perangkat keras AI dan perangkat lunak open-source untuk menyediakan pelanggan (perusahaan) dengan AI SaaS pada pengaturan cloud hybrid.

Di mana algoritma pembelajaran penguatan digunakan?

Algoritme pembelajaran penguatan hadir dengan berbagai aplikasi seperti perencanaan strategi bisnis, robotika untuk otomatisasi proses industri, kontrol pesawat dan kontrol gerak robot, pembelajaran mesin, pengembangan sistem pelatihan khusus untuk siswa, pemrosesan data, dan banyak lagi. Menggunakan algoritma pembelajaran penguatan sangat efisien dalam kasus ini karena dapat dengan mudah membantu menemukan situasi yang benar-benar membutuhkan tindakan dan tindakan yang datang dengan imbalan tertinggi selama suatu periode. Namun, pembelajaran penguatan tidak boleh diterapkan ketika ada banyak data untuk menawarkan solusi menggunakan metode pembelajaran terawasi.