การเรียนรู้การเสริมแรงใน ML: มันทำงานอย่างไร โมเดลการเรียนรู้และประเภท

เผยแพร่แล้ว: 2021-06-11

สารบัญ

การเรียนรู้การเสริมแรงคืออะไร?

การเรียนรู้การเสริมแรงหมายถึงกระบวนการตัดสินใจที่เหมาะสมผ่านโมเดลการเรียนรู้ของเครื่องที่เหมาะสม มันขึ้นอยู่กับกระบวนการฝึกอบรมวิธีการเรียนรู้ของเครื่อง เป็นเทคนิคการเรียนรู้ของเครื่องโดยอาศัยผลป้อนกลับ โดยตัวแทนเรียนรู้ที่จะประพฤติตนในสภาพแวดล้อมโดยการสังเกตข้อผิดพลาดของเขาและดำเนินการตามนั้น

การเรียนรู้การเสริมแรงใช้วิธีการเรียนรู้ผ่านการโต้ตอบและผลตอบรับ คำศัพท์บางคำที่ใช้ในการเรียนรู้การเสริมกำลังคือ:

  • ตัวแทน : ผู้เรียนหรือผู้มีอำนาจตัดสินใจดำเนินการเพื่อรับรางวัล
  • สิ่งแวดล้อม : เป็นสถานการณ์สมมติที่ตัวแทนเรียนรู้และดำเนินงานในอนาคต
  • การดำเนินการ : การดำเนินการที่ดำเนินการโดยตัวแทน
  • สถานะ : สถานการณ์ปัจจุบัน
  • นโยบาย : หน้าที่การตัดสินใจของตัวแทนโดยที่ตัวแทนตัดสินใจดำเนินการในอนาคตตามสถานะปัจจุบัน
  • รางวัล : ส่งคืนโดยสภาพแวดล้อมให้กับตัวแทนสำหรับการดำเนินการแต่ละอย่าง
  • มูลค่า : เมื่อเทียบกับรางวัลจะเป็นผลตอบแทนระยะยาวที่คาดหวังพร้อมส่วนลด
  • ฟังก์ชันค่า : หมายถึงมูลค่าของรัฐ .ie จำนวนผลตอบแทนทั้งหมด
  • ตัว ประมาณฟังก์ชัน : การกระตุ้นฟังก์ชันจากตัวอย่างการฝึก
    แบบจำลองของสิ่งแวดล้อม: เป็นแบบจำลองที่เลียนแบบสภาพแวดล้อมจริงสำหรับการทำนายการอนุมาน
  • วิธี การตามแบบจำลอง : ใช้สำหรับแก้แบบจำลองตามการเสริมแรง
  • ค่า Q หรือค่าการกระทำ : คล้ายกับค่า แต่พารามิเตอร์เพิ่มเติมจะถือว่าเป็นการกระทำปัจจุบัน
  • กระบวนการตัดสินใจของมาร์คอฟ : แบบจำลองความน่าจะเป็นของปัญหาการตัดสินใจตามลำดับ
  • โปรแกรมไดนามิก : คลาสของวิธีการแก้ปัญหาการตัดสินใจตามลำดับ

    การเรียนรู้การเสริมกำลังส่วนใหญ่เกี่ยวข้องกับข้อเท็จจริงที่ว่าตัวแทนซอฟต์แวร์ควรดำเนินการอย่างไรในสภาพแวดล้อม การเรียนรู้โดยใช้โครงข่ายประสาทเทียมช่วยให้บรรลุวัตถุประสงค์ที่ซับซ้อนได้

การเรียนรู้การเสริมแรงทำงานอย่างไร

ตัวอย่างการเรียนรู้ แบบ เสริมกำลัง แสดงอยู่ด้านล่างซึ่งแสดงให้เห็นว่าการเรียนรู้แบบเสริมแรงทำงานอย่างไร

  • แมวไม่เข้าใจภาษาทุกรูปแบบ ดังนั้นจึงต้องปฏิบัติตามกลยุทธ์อื่นเพื่อสื่อสารกับแมว
  • สถานการณ์ถูกสร้างขึ้นโดยที่แมวทำในรูปแบบต่างๆ แมวจะได้รับรางวัลเป็นปลาหากเป็นวิธีที่ต้องการ ดังนั้นแมวจะมีพฤติกรรมในลักษณะเดียวกันทุกครั้งที่เผชิญกับสถานการณ์นั้นโดยหวังให้อาหารเป็นรางวัลมากขึ้น
  • สถานการณ์จำลองกำหนดกระบวนการเรียนรู้จากประสบการณ์เชิงบวก
  • สุดท้าย แมวยังเรียนรู้สิ่งที่ไม่ควรทำผ่านประสบการณ์ด้านลบ

นี้นำไปสู่คำอธิบายต่อไปนี้

  • แมวทำหน้าที่เป็นตัวแทนเมื่อสัมผัสกับสิ่งแวดล้อม ในตัวอย่างที่กล่าวข้างต้น บ้านคือสิ่งแวดล้อม รัฐอาจเป็นอะไรก็ได้เช่นแมวนั่งหรือเดิน
  • ตัวแทนดำเนินการโดยเปลี่ยนจากสถานะหนึ่งไปยังอีกสถานะหนึ่ง เช่น การย้ายจากท่านั่งเป็นท่าเดิน
  • การกระทำคือปฏิกิริยาของตัวแทน นโยบายนี้รวมถึงวิธีการเลือกการดำเนินการในสถานะใดสถานะหนึ่งในขณะที่คาดหวังผลลัพธ์ที่ดีขึ้นในสถานะอนาคต
  • การเปลี่ยนผ่านของรัฐอาจให้รางวัลหรือบทลงโทษ

ข้อควรทราบบางประการในการเรียนรู้การเสริมแรง

  • ควรมีการระบุสถานะอินพุตเริ่มต้นซึ่งโมเดลจะเริ่มทำงาน
  • ผลลัพธ์ที่เป็นไปได้จำนวนมากถูกสร้างขึ้นผ่านวิธีแก้ปัญหาที่หลากหลายสำหรับปัญหาเฉพาะ
  • การฝึกวิธี RL ขึ้นอยู่กับอินพุต หลังจากสร้างผลงาน แบบจำลองจะตัดสินใจว่าจะให้รางวัลแก่แบบจำลองหรือไม่ ดังนั้น โมเดลนี้จึงได้รับการฝึกฝนอย่างต่อเนื่อง
  • โมเดลยังคงเรียนรู้อย่างต่อเนื่อง
  • ทางออกที่ดีที่สุดสำหรับปัญหาอยู่ที่รางวัลสูงสุดที่ได้รับ

อัลกอริธึมการเรียนรู้การเสริมแรง

มีสามแนวทางในการดำเนินการตามวิธีการเรียนรู้แบบเสริมแรง

1. อิงตามมูลค่า

วิธีการตามค่าเกี่ยวข้องกับการเพิ่มฟังก์ชันค่า V ให้มากที่สุด ความคาดหวังของผลตอบแทนระยะยาวของสถานะปัจจุบันคาดว่าจะอยู่ภายใต้นโยบาย SARSA และ Q Learning เป็นอัลกอริธึมที่อิงตามมูลค่าบางส่วน แนวทางตามมูลค่าค่อนข้างคงที่ เนื่องจากไม่สามารถจำลองสภาพแวดล้อมที่ต่อเนื่องได้ อัลกอริทึมทั้งสองใช้งานได้ง่าย แต่ไม่สามารถประมาณค่าของสถานะที่มองไม่เห็นได้

2. ตามนโยบาย

วิธีการประเภทนี้เกี่ยวข้องกับการพัฒนานโยบายที่ช่วยคืนรางวัลสูงสุดผ่านประสิทธิภาพของทุกการกระทำ

วิธีการตามนโยบายมีสองประเภท:

  • กำหนดขึ้น: ซึ่งหมายความว่าภายใต้สถานะใด ๆ นโยบายก่อให้เกิดการกระทำเดียวกัน
  • Stochastic: ความน่าจะเป็นสำหรับทุกการกระทำถูกกำหนดโดยสมการ

n{a\s) = P\A, = a\S, =S]

อัลกอริธึมตามนโยบาย ได้แก่ การไล่ระดับนโยบายมอนติคาร์โล (REINFORCE) และการไล่ระดับนโยบายแบบกำหนด (DPG) แนวทางการเรียนรู้ตามนโยบายทำให้เกิดความไม่แน่นอนเนื่องจากความแปรปรวนสูง

อัลกอริธึม "นักวิจารณ์" ได้รับการพัฒนาโดยใช้ทั้งแนวทางที่อิงตามมูลค่าและตามนโยบาย การกำหนดพารามิเตอร์ของทั้งฟังก์ชันค่า (วิจารณ์) และนโยบาย (นักแสดง) ช่วยให้เกิดการบรรจบกันที่เสถียรผ่านการใช้ข้อมูลการฝึกอบรมอย่างมีประสิทธิภาพ

3. โมเดลตาม

โมเดลเสมือนถูกสร้างขึ้นสำหรับแต่ละสภาพแวดล้อม และตัวแทนจะเรียนรู้ตามแบบจำลองนั้น การสร้างแบบจำลองประกอบด้วยขั้นตอนการสุ่มตัวอย่างของรัฐ การดำเนินการ และการสังเกตรางวัล ในแต่ละรัฐในสภาพแวดล้อม แบบจำลองจะทำนายสถานะในอนาคตและผลตอบแทนที่คาดหวัง ด้วยความพร้อมใช้งานของแบบจำลองตาม RL ตัวแทนสามารถวางแผนการดำเนินการได้ ตัวแทนจะได้รับความสามารถในการเรียนรู้เมื่อกระบวนการวางแผนเชื่อมโยงกับการประมาณนโยบาย

การเรียนรู้การเสริมกำลังมีจุดมุ่งหมายเพื่อให้บรรลุเป้าหมายผ่านการสำรวจตัวแทนในสภาพแวดล้อมที่ไม่รู้จัก สมมติฐานของ RL ระบุว่าเป้าหมายสามารถอธิบายได้ว่าเป็นการเพิ่มผลตอบแทนสูงสุด ตัวแทนจะต้องสามารถได้รับผลตอบแทนสูงสุดผ่านการก่อกวนของรัฐในรูปแบบของการกระทำ อัลกอริธึม RL สามารถจำแนกได้กว้างๆ ตามแบบโมเดลและแบบไม่มีโมเดล

รูปแบบการเรียนรู้ในการเสริมแรง

1. กระบวนการตัดสินใจของมาร์คอฟ

ชุดของพารามิเตอร์ที่ใช้ในกระบวนการตัดสินใจของ Markov คือ

ชุดปฏิบัติการ-A

ชุดของรัฐ-S

รางวัล-R

นโยบาย-n

ค่า-V

กระบวนการตัดสินใจของ Markov เป็นแนวทางทางคณิตศาสตร์สำหรับการทำแผนที่โซลูชันในการเรียนรู้แบบเสริมแรง

2. การเรียนรู้คิว

กระบวนการนี้จะให้ข้อมูลแก่ตัวแทนเพื่อแจ้งการดำเนินการที่จะดำเนินการต่อไป เป็นแนวทางแบบไม่มีโมเดล ค่า Q มีการอัปเดตอย่างต่อเนื่อง ซึ่งแสดงถึงมูลค่าของการดำเนินการ "a" ในสถานะ "s"

ความแตกต่างระหว่างการเรียนรู้การเสริมแรงและการเรียนรู้ภายใต้การดูแล

การเรียนรู้ภายใต้การดูแลเป็นกระบวนการของการเรียนรู้ของเครื่องโดยที่หัวหน้างานจำเป็นต้องป้อนความรู้ลงในอัลกอริธึมการเรียนรู้ หน้าที่หลักของผู้บังคับบัญชา ได้แก่ การเก็บรวบรวมข้อมูลการอบรม เช่น รูปภาพ คลิปเสียง เป็นต้น

ในขณะที่ใน RL ชุดข้อมูลการฝึกอบรมส่วนใหญ่ประกอบด้วยชุดของสถานการณ์และการดำเนินการ การเรียนรู้การเสริมแรงในแมชชีนเลิ ร์นนิง ไม่จำเป็นต้องมีการควบคุมดูแลทุกรูปแบบ นอกจากนี้ การผสมผสานระหว่างการเรียนรู้การเสริมแรงและการเรียนรู้เชิงลึกทำให้เกิดการเรียนรู้การเสริมแรงเชิงลึกในฟิลด์ ย่อย

ความแตกต่างที่สำคัญระหว่าง RL และการเรียนรู้ภายใต้การดูแลมีตารางด้านล่าง

การเรียนรู้การเสริมแรง การเรียนรู้ภายใต้การดูแล
การตัดสินใจจะทำตามลำดับ ผลลัพธ์ของกระบวนการขึ้นอยู่กับสถานะของอินพุตปัจจุบัน อินพุตถัดไปจะขึ้นอยู่กับเอาต์พุตของอินพุตก่อนหน้าเป็นต้น การตัดสินใจจะทำบนอินพุตเริ่มต้นหรือที่อินพุตที่ป้อนเมื่อเริ่มต้นกระบวนการ
การตัดสินใจขึ้นอยู่กับ ดังนั้น การติดฉลากจะทำตามลำดับการตัดสินใจที่ขึ้นต่อกัน การตัดสินใจเป็นอิสระจากกัน ดังนั้นการติดฉลากการตัดสินใจทั้งหมดจึงเสร็จสิ้น
การโต้ตอบกับสิ่งแวดล้อมเกิดขึ้นใน RL ไม่มีปฏิสัมพันธ์กับสิ่งแวดล้อม กระบวนการทำงานบนชุดข้อมูลที่มีอยู่
กระบวนการตัดสินใจของ RL นั้นคล้ายกับกระบวนการตัดสินใจของสมองมนุษย์ กระบวนการตัดสินใจคล้ายกับการตัดสินใจของสมองมนุษย์ภายใต้การดูแลของมัคคุเทศก์
ไม่มีชุดข้อมูลที่มีป้ายกำกับ ชุดข้อมูลที่มีป้ายกำกับ
การฝึกอบรมก่อนหน้านี้ไม่จำเป็นสำหรับตัวแทนการเรียนรู้ มีการฝึกอบรมก่อนหน้านี้สำหรับการทำนายผลลัพธ์
RL ได้รับการสนับสนุนอย่างดีที่สุดด้วย AI ซึ่งมีความชุกของการปฏิสัมพันธ์ของมนุษย์ การเรียนรู้ภายใต้การดูแลส่วนใหญ่ดำเนินการกับแอปพลิเคชันหรือระบบซอฟต์แวร์เชิงโต้ตอบ
ตัวอย่าง: เกมหมากรุก ตัวอย่าง: การจดจำวัตถุ

ประเภทของการเสริมแรง

การเรียนเสริมแรงมี 2 แบบ

1. แง่บวก

การเรียนรู้การเสริมแรงเชิงบวกถูกกำหนดให้เป็นเหตุการณ์ที่เกิดจากพฤติกรรมเฉพาะ สิ่งนี้ส่งผลกระทบในทางบวกต่อตัวแทน เนื่องจากจะเพิ่มความแข็งแกร่งและความถี่ในการเรียนรู้ ส่งผลให้ประสิทธิภาพสูงสุด ดังนั้นการเปลี่ยนแปลงจะคงอยู่เป็นระยะเวลานาน แต่การเพิ่มประสิทธิภาพของรัฐอาจส่งผลต่อผลลัพธ์ของการเรียนรู้ ดังนั้นการเสริมกำลังการเรียนรู้ไม่ควรมากเกินไป

ข้อดีของการเสริมแรงเชิงบวกคือ:

  • การเพิ่มประสิทธิภาพสูงสุด
  • การเปลี่ยนแปลงคงอยู่เป็นเวลานาน

2. เชิงลบ

การเสริมแรงเชิงลบถูกกำหนดเมื่อภายใต้สถานการณ์ของเงื่อนไขเชิงลบ พฤติกรรมมีความเข้มแข็ง มาตรฐานประสิทธิภาพขั้นต่ำถูกกำหนดผ่านการเสริมแรงเชิงลบ

ข้อดีของการเรียนรู้การเสริมแรงเชิงลบคือ:

  • เพิ่มพฤติกรรม
  • ให้การท้าทายมาตรฐานประสิทธิภาพขั้นต่ำ

ข้อเสียของการเรียนเสริมแรง

  • ให้เพียงพอต่อพฤติกรรมขั้นต่ำเท่านั้น

ความท้าทายในการเรียนรู้การเสริมแรง

การเรียนรู้แบบเสริมกำลัง แม้ว่าจะไม่ต้องการการดูแลของแบบจำลอง แต่ก็ไม่ใช่การเรียนรู้แบบไม่มีผู้ดูแล อย่างไรก็ตาม มันเป็นส่วนที่แตกต่างของการเรียนรู้ของเครื่อง

ความท้าทายบางประการที่เกี่ยวข้องกับการเรียนรู้แบบเสริมกำลังคือ:

  • การเตรียมสภาพแวดล้อมการจำลอง ขึ้นอยู่กับงานที่จะทำ การสร้างเครื่องจำลองเสมือนจริงเป็นงานที่ท้าทาย ตัวแบบต้องคิดทุกนาทีและรายละเอียดที่สำคัญของสิ่งแวดล้อม
  • การมีส่วนร่วมของการออกแบบคุณลักษณะและรางวัลมีความสำคัญอย่างยิ่ง
  • ความเร็วในการเรียนรู้อาจได้รับผลกระทบจากพารามิเตอร์
  • การถ่ายโอนแบบจำลองไปยังสภาพแวดล้อมการฝึกอบรม
  • การควบคุมตัวแทนผ่านโครงข่ายประสาทเทียมเป็นความท้าทายอีกประการหนึ่ง เนื่องจากการสื่อสารกับเครือข่ายประสาทเทียมเพียงอย่างเดียวคือผ่านระบบการให้รางวัลและบทลงโทษ บางครั้งอาจส่งผลให้เกิดความหายนะในการลืม เช่น การลบความรู้เก่าไปพร้อมกับความรู้ใหม่
  • การบรรลุเป้าหมายขั้นต่ำในท้องถิ่นถือเป็นความท้าทายสำหรับการเรียนรู้แบบเสริมกำลัง
  • ภายใต้เงื่อนไขของสภาพแวดล้อมจริง อาจมีการสังเกตบางส่วน
  • ควรมีการควบคุมการประยุกต์ใช้การเรียนรู้แบบเสริมแรง ปริมาณ RL ที่มากเกินไปนำไปสู่การโอเวอร์โหลดของรัฐ ซึ่งอาจส่งผลให้ผลลัพธ์ลดลง
  • สภาพแวดล้อมที่แท้จริงนั้นไม่คงที่

การเสริมแรง

  • ในสาขา Robotics สำหรับระบบอัตโนมัติทางอุตสาหกรรม
  • RL สามารถใช้ในการวางแผนเชิงกลยุทธ์ของธุรกิจได้
  • RL สามารถใช้ในเทคนิคการประมวลผลข้อมูลที่เกี่ยวข้องกับอัลกอริธึมการเรียนรู้ของเครื่อง
  • สามารถใช้สำหรับการเตรียมเอกสารการฝึกอบรมสำหรับนักเรียนตามความต้องการได้
  • สามารถใช้ RL ในการควบคุมเครื่องบินและการเคลื่อนที่ของหุ่นยนต์ได้

ในสภาพแวดล้อมขนาดใหญ่ การเสริมแรงสามารถใช้ได้ในสถานการณ์ต่อไปนี้

  • หากไม่มีโซลูชันการวิเคราะห์สำหรับแบบจำลองสภาพแวดล้อมที่รู้จัก
  • หากมีเฉพาะแบบจำลองสภาพแวดล้อมเท่านั้น
  • เมื่อมีเพียงวิธีเดียวในการเก็บรวบรวมข้อมูลที่โต้ตอบกับสิ่งแวดล้อม

การใช้ Reinforcement Learning คืออะไร?

  • Reinforcement Learning ช่วยในการระบุสถานการณ์ที่ต้องดำเนินการ
  • การใช้ RL ช่วยในการรู้ว่าการกระทำใดให้ผลตอบแทนสูงสุด
  • ประโยชน์ของ RL อยู่ที่การจัดหาฟังก์ชันการให้รางวัลแก่ตัวแทน
  • สุดท้ายนี้ RL ช่วยในการระบุวิธีการที่นำไปสู่รางวัลที่มากขึ้น

บทสรุป

RL ใช้กับทุกสถานการณ์ไม่ได้ มีข้อ จำกัด บางประการในการใช้งาน

  • ความพร้อมใช้งานของข้อมูลที่เพียงพอทำให้สามารถใช้แนวทางการเรียนรู้ภายใต้การดูแลมากกว่าวิธี RL
  • การคำนวณ RL ค่อนข้างใช้เวลานาน โดยเฉพาะอย่างยิ่งในกรณีที่พิจารณาถึงสภาพแวดล้อมขนาดใหญ่

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's Executive PG Program in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT -B สถานะศิษย์เก่า 5+ โครงการหลักที่ปฏิบัติได้จริง & ความช่วยเหลืองานกับ บริษัท ชั้นนำ

อนาคตของงานแมชชีนเลิร์นนิงจะเป็นอย่างไร?

การนำแมชชีนเลิร์นนิงมาใช้เพิ่มขึ้นอย่างรวดเร็วในแนวดิ่งของอุตสาหกรรมต่างๆ ในปัจจุบัน เริ่มต้นด้วยภาคการเงินและการลงทุนเพื่อความบันเทิง สื่อ รถยนต์ การดูแลสุขภาพ และเกม – เป็นเรื่องยากที่จะหาอุตสาหกรรมใด ๆ ที่ไม่ใช้ AI และการเรียนรู้ของเครื่องในปัจจุบัน ดังนั้น ขอบเขตของงานแมชชีนเลิร์นนิงจึงสูงกว่างานด้านเทคโนโลยีอื่นๆ อย่างมาก ตามรายงานของ Gartner ภายในสิ้นปี 2565 แมชชีนเลิร์นนิงและงาน AI ประมาณ 2.3 ล้านตำแหน่งจะเข้าสู่ตลาด นอกจากนี้ ค่าตอบแทนที่เสนอให้กับมืออาชีพในสาขานี้คาดว่าจะสูงขึ้นอย่างมีนัยสำคัญด้วยเงินเดือนเริ่มต้นที่ INR 9 lakhs ต่อปี

AI cloud คืออะไร?

AI cloud เป็นแนวคิดที่ค่อนข้างใหม่ซึ่งองค์กรต่างๆ ได้เริ่มนำมาใช้เมื่อเร็วๆ นี้ แนวคิดนี้รวมเอาปัญญาประดิษฐ์และคลาวด์คอมพิวติ้งเข้าด้วยกัน และขับเคลื่อนโดยสองปัจจัย ซอฟต์แวร์และเครื่องมือ AI ช่วยเพิ่มมูลค่าใหม่ให้กับคลาวด์คอมพิวติ้ง ซึ่งขณะนี้มีบทบาทสำคัญในการนำปัญญาประดิษฐ์มาใช้ AI คลาวด์ประกอบด้วยโครงสร้างพื้นฐานที่ใช้ร่วมกันสำหรับกรณีการใช้งานเฉพาะที่ใช้ประโยชน์จากโครงการและปริมาณงานต่างๆ พร้อมกัน ข้อได้เปรียบที่ยิ่งใหญ่ที่สุดของ AI cloud คือการนำฮาร์ดแวร์ AI และซอฟต์แวร์โอเพ่นซอร์สมารวมกันเพื่อให้ลูกค้า (องค์กร) มี AI SaaS บนการตั้งค่าไฮบริดคลาวด์

อัลกอริทึมการเรียนรู้การเสริมแรงใช้ที่ไหน

อัลกอริธึมการเรียนรู้การเสริมกำลังมาพร้อมกับแอปพลิเคชันต่างๆ เช่น การวางแผนกลยุทธ์ทางธุรกิจ หุ่นยนต์สำหรับกระบวนการอัตโนมัติทางอุตสาหกรรม การควบคุมเครื่องบินและการควบคุมการเคลื่อนที่ของหุ่นยนต์ การเรียนรู้ของเครื่อง การพัฒนาระบบการฝึกอบรมแบบกำหนดเองสำหรับนักเรียน การประมวลผลข้อมูล และอื่นๆ อีกมากมาย การใช้อัลกอริธึมการเรียนรู้แบบเสริมกำลังจะมีประสิทธิภาพโดยเฉพาะในกรณีเหล่านี้ เนื่องจากสามารถช่วยค้นหาสถานการณ์ที่ต้องการการดำเนินการจริง ๆ และการกระทำที่มาพร้อมกับรางวัลสูงสุดในช่วงเวลาหนึ่งได้อย่างง่ายดาย อย่างไรก็ตาม ไม่ควรนำการเรียนรู้แบบเสริมแรงมาใช้เมื่อมีข้อมูลเพียงพอเพื่อเสนอวิธีแก้ปัญหาโดยใช้วิธีการเรียนรู้ภายใต้การดูแล