การเรียนรู้การเสริมแรงใน ML: มันทำงานอย่างไร โมเดลการเรียนรู้และประเภท
เผยแพร่แล้ว: 2021-06-11สารบัญ
การเรียนรู้การเสริมแรงคืออะไร?
การเรียนรู้การเสริมแรงหมายถึงกระบวนการตัดสินใจที่เหมาะสมผ่านโมเดลการเรียนรู้ของเครื่องที่เหมาะสม มันขึ้นอยู่กับกระบวนการฝึกอบรมวิธีการเรียนรู้ของเครื่อง เป็นเทคนิคการเรียนรู้ของเครื่องโดยอาศัยผลป้อนกลับ โดยตัวแทนเรียนรู้ที่จะประพฤติตนในสภาพแวดล้อมโดยการสังเกตข้อผิดพลาดของเขาและดำเนินการตามนั้น
การเรียนรู้การเสริมแรงใช้วิธีการเรียนรู้ผ่านการโต้ตอบและผลตอบรับ คำศัพท์บางคำที่ใช้ในการเรียนรู้การเสริมกำลังคือ:
- ตัวแทน : ผู้เรียนหรือผู้มีอำนาจตัดสินใจดำเนินการเพื่อรับรางวัล
- สิ่งแวดล้อม : เป็นสถานการณ์สมมติที่ตัวแทนเรียนรู้และดำเนินงานในอนาคต
- การดำเนินการ : การดำเนินการที่ดำเนินการโดยตัวแทน
- สถานะ : สถานการณ์ปัจจุบัน
- นโยบาย : หน้าที่การตัดสินใจของตัวแทนโดยที่ตัวแทนตัดสินใจดำเนินการในอนาคตตามสถานะปัจจุบัน
- รางวัล : ส่งคืนโดยสภาพแวดล้อมให้กับตัวแทนสำหรับการดำเนินการแต่ละอย่าง
- มูลค่า : เมื่อเทียบกับรางวัลจะเป็นผลตอบแทนระยะยาวที่คาดหวังพร้อมส่วนลด
- ฟังก์ชันค่า : หมายถึงมูลค่าของรัฐ .ie จำนวนผลตอบแทนทั้งหมด
- ตัว ประมาณฟังก์ชัน : การกระตุ้นฟังก์ชันจากตัวอย่างการฝึก
แบบจำลองของสิ่งแวดล้อม: เป็นแบบจำลองที่เลียนแบบสภาพแวดล้อมจริงสำหรับการทำนายการอนุมาน - วิธี การตามแบบจำลอง : ใช้สำหรับแก้แบบจำลองตามการเสริมแรง
- ค่า Q หรือค่าการกระทำ : คล้ายกับค่า แต่พารามิเตอร์เพิ่มเติมจะถือว่าเป็นการกระทำปัจจุบัน
- กระบวนการตัดสินใจของมาร์คอฟ : แบบจำลองความน่าจะเป็นของปัญหาการตัดสินใจตามลำดับ
- โปรแกรมไดนามิก : คลาสของวิธีการแก้ปัญหาการตัดสินใจตามลำดับ
การเรียนรู้การเสริมกำลังส่วนใหญ่เกี่ยวข้องกับข้อเท็จจริงที่ว่าตัวแทนซอฟต์แวร์ควรดำเนินการอย่างไรในสภาพแวดล้อม การเรียนรู้โดยใช้โครงข่ายประสาทเทียมช่วยให้บรรลุวัตถุประสงค์ที่ซับซ้อนได้
การเรียนรู้การเสริมแรงทำงานอย่างไร
ตัวอย่างการเรียนรู้ แบบ เสริมกำลัง แสดงอยู่ด้านล่างซึ่งแสดงให้เห็นว่าการเรียนรู้แบบเสริมแรงทำงานอย่างไร
- แมวไม่เข้าใจภาษาทุกรูปแบบ ดังนั้นจึงต้องปฏิบัติตามกลยุทธ์อื่นเพื่อสื่อสารกับแมว
- สถานการณ์ถูกสร้างขึ้นโดยที่แมวทำในรูปแบบต่างๆ แมวจะได้รับรางวัลเป็นปลาหากเป็นวิธีที่ต้องการ ดังนั้นแมวจะมีพฤติกรรมในลักษณะเดียวกันทุกครั้งที่เผชิญกับสถานการณ์นั้นโดยหวังให้อาหารเป็นรางวัลมากขึ้น
- สถานการณ์จำลองกำหนดกระบวนการเรียนรู้จากประสบการณ์เชิงบวก
- สุดท้าย แมวยังเรียนรู้สิ่งที่ไม่ควรทำผ่านประสบการณ์ด้านลบ
นี้นำไปสู่คำอธิบายต่อไปนี้
- แมวทำหน้าที่เป็นตัวแทนเมื่อสัมผัสกับสิ่งแวดล้อม ในตัวอย่างที่กล่าวข้างต้น บ้านคือสิ่งแวดล้อม รัฐอาจเป็นอะไรก็ได้เช่นแมวนั่งหรือเดิน
- ตัวแทนดำเนินการโดยเปลี่ยนจากสถานะหนึ่งไปยังอีกสถานะหนึ่ง เช่น การย้ายจากท่านั่งเป็นท่าเดิน
- การกระทำคือปฏิกิริยาของตัวแทน นโยบายนี้รวมถึงวิธีการเลือกการดำเนินการในสถานะใดสถานะหนึ่งในขณะที่คาดหวังผลลัพธ์ที่ดีขึ้นในสถานะอนาคต
- การเปลี่ยนผ่านของรัฐอาจให้รางวัลหรือบทลงโทษ
ข้อควรทราบบางประการในการเรียนรู้การเสริมแรง
- ควรมีการระบุสถานะอินพุตเริ่มต้นซึ่งโมเดลจะเริ่มทำงาน
- ผลลัพธ์ที่เป็นไปได้จำนวนมากถูกสร้างขึ้นผ่านวิธีแก้ปัญหาที่หลากหลายสำหรับปัญหาเฉพาะ
- การฝึกวิธี RL ขึ้นอยู่กับอินพุต หลังจากสร้างผลงาน แบบจำลองจะตัดสินใจว่าจะให้รางวัลแก่แบบจำลองหรือไม่ ดังนั้น โมเดลนี้จึงได้รับการฝึกฝนอย่างต่อเนื่อง
- โมเดลยังคงเรียนรู้อย่างต่อเนื่อง
- ทางออกที่ดีที่สุดสำหรับปัญหาอยู่ที่รางวัลสูงสุดที่ได้รับ
อัลกอริธึมการเรียนรู้การเสริมแรง
มีสามแนวทางในการดำเนินการตามวิธีการเรียนรู้แบบเสริมแรง
1. อิงตามมูลค่า
วิธีการตามค่าเกี่ยวข้องกับการเพิ่มฟังก์ชันค่า V ให้มากที่สุด ความคาดหวังของผลตอบแทนระยะยาวของสถานะปัจจุบันคาดว่าจะอยู่ภายใต้นโยบาย SARSA และ Q Learning เป็นอัลกอริธึมที่อิงตามมูลค่าบางส่วน แนวทางตามมูลค่าค่อนข้างคงที่ เนื่องจากไม่สามารถจำลองสภาพแวดล้อมที่ต่อเนื่องได้ อัลกอริทึมทั้งสองใช้งานได้ง่าย แต่ไม่สามารถประมาณค่าของสถานะที่มองไม่เห็นได้
2. ตามนโยบาย
วิธีการประเภทนี้เกี่ยวข้องกับการพัฒนานโยบายที่ช่วยคืนรางวัลสูงสุดผ่านประสิทธิภาพของทุกการกระทำ
วิธีการตามนโยบายมีสองประเภท:
- กำหนดขึ้น: ซึ่งหมายความว่าภายใต้สถานะใด ๆ นโยบายก่อให้เกิดการกระทำเดียวกัน
- Stochastic: ความน่าจะเป็นสำหรับทุกการกระทำถูกกำหนดโดยสมการ
n{a\s) = P\A, = a\S, =S]
อัลกอริธึมตามนโยบาย ได้แก่ การไล่ระดับนโยบายมอนติคาร์โล (REINFORCE) และการไล่ระดับนโยบายแบบกำหนด (DPG) แนวทางการเรียนรู้ตามนโยบายทำให้เกิดความไม่แน่นอนเนื่องจากความแปรปรวนสูง
อัลกอริธึม "นักวิจารณ์" ได้รับการพัฒนาโดยใช้ทั้งแนวทางที่อิงตามมูลค่าและตามนโยบาย การกำหนดพารามิเตอร์ของทั้งฟังก์ชันค่า (วิจารณ์) และนโยบาย (นักแสดง) ช่วยให้เกิดการบรรจบกันที่เสถียรผ่านการใช้ข้อมูลการฝึกอบรมอย่างมีประสิทธิภาพ
3. โมเดลตาม
โมเดลเสมือนถูกสร้างขึ้นสำหรับแต่ละสภาพแวดล้อม และตัวแทนจะเรียนรู้ตามแบบจำลองนั้น การสร้างแบบจำลองประกอบด้วยขั้นตอนการสุ่มตัวอย่างของรัฐ การดำเนินการ และการสังเกตรางวัล ในแต่ละรัฐในสภาพแวดล้อม แบบจำลองจะทำนายสถานะในอนาคตและผลตอบแทนที่คาดหวัง ด้วยความพร้อมใช้งานของแบบจำลองตาม RL ตัวแทนสามารถวางแผนการดำเนินการได้ ตัวแทนจะได้รับความสามารถในการเรียนรู้เมื่อกระบวนการวางแผนเชื่อมโยงกับการประมาณนโยบาย
การเรียนรู้การเสริมกำลังมีจุดมุ่งหมายเพื่อให้บรรลุเป้าหมายผ่านการสำรวจตัวแทนในสภาพแวดล้อมที่ไม่รู้จัก สมมติฐานของ RL ระบุว่าเป้าหมายสามารถอธิบายได้ว่าเป็นการเพิ่มผลตอบแทนสูงสุด ตัวแทนจะต้องสามารถได้รับผลตอบแทนสูงสุดผ่านการก่อกวนของรัฐในรูปแบบของการกระทำ อัลกอริธึม RL สามารถจำแนกได้กว้างๆ ตามแบบโมเดลและแบบไม่มีโมเดล
รูปแบบการเรียนรู้ในการเสริมแรง
1. กระบวนการตัดสินใจของมาร์คอฟ
ชุดของพารามิเตอร์ที่ใช้ในกระบวนการตัดสินใจของ Markov คือ
ชุดปฏิบัติการ-A
ชุดของรัฐ-S
รางวัล-R
นโยบาย-n
ค่า-V
กระบวนการตัดสินใจของ Markov เป็นแนวทางทางคณิตศาสตร์สำหรับการทำแผนที่โซลูชันในการเรียนรู้แบบเสริมแรง
2. การเรียนรู้คิว
กระบวนการนี้จะให้ข้อมูลแก่ตัวแทนเพื่อแจ้งการดำเนินการที่จะดำเนินการต่อไป เป็นแนวทางแบบไม่มีโมเดล ค่า Q มีการอัปเดตอย่างต่อเนื่อง ซึ่งแสดงถึงมูลค่าของการดำเนินการ "a" ในสถานะ "s"
ความแตกต่างระหว่างการเรียนรู้การเสริมแรงและการเรียนรู้ภายใต้การดูแล
การเรียนรู้ภายใต้การดูแลเป็นกระบวนการของการเรียนรู้ของเครื่องโดยที่หัวหน้างานจำเป็นต้องป้อนความรู้ลงในอัลกอริธึมการเรียนรู้ หน้าที่หลักของผู้บังคับบัญชา ได้แก่ การเก็บรวบรวมข้อมูลการอบรม เช่น รูปภาพ คลิปเสียง เป็นต้น
ในขณะที่ใน RL ชุดข้อมูลการฝึกอบรมส่วนใหญ่ประกอบด้วยชุดของสถานการณ์และการดำเนินการ การเรียนรู้การเสริมแรงในแมชชีนเลิ ร์นนิง ไม่จำเป็นต้องมีการควบคุมดูแลทุกรูปแบบ นอกจากนี้ การผสมผสานระหว่างการเรียนรู้การเสริมแรงและการเรียนรู้เชิงลึกทำให้เกิดการเรียนรู้การเสริมแรงเชิงลึกในฟิลด์ ย่อย
ความแตกต่างที่สำคัญระหว่าง RL และการเรียนรู้ภายใต้การดูแลมีตารางด้านล่าง
การเรียนรู้การเสริมแรง | การเรียนรู้ภายใต้การดูแล |
การตัดสินใจจะทำตามลำดับ ผลลัพธ์ของกระบวนการขึ้นอยู่กับสถานะของอินพุตปัจจุบัน อินพุตถัดไปจะขึ้นอยู่กับเอาต์พุตของอินพุตก่อนหน้าเป็นต้น | การตัดสินใจจะทำบนอินพุตเริ่มต้นหรือที่อินพุตที่ป้อนเมื่อเริ่มต้นกระบวนการ |
การตัดสินใจขึ้นอยู่กับ ดังนั้น การติดฉลากจะทำตามลำดับการตัดสินใจที่ขึ้นต่อกัน | การตัดสินใจเป็นอิสระจากกัน ดังนั้นการติดฉลากการตัดสินใจทั้งหมดจึงเสร็จสิ้น |
การโต้ตอบกับสิ่งแวดล้อมเกิดขึ้นใน RL | ไม่มีปฏิสัมพันธ์กับสิ่งแวดล้อม กระบวนการทำงานบนชุดข้อมูลที่มีอยู่ |
กระบวนการตัดสินใจของ RL นั้นคล้ายกับกระบวนการตัดสินใจของสมองมนุษย์ | กระบวนการตัดสินใจคล้ายกับการตัดสินใจของสมองมนุษย์ภายใต้การดูแลของมัคคุเทศก์ |
ไม่มีชุดข้อมูลที่มีป้ายกำกับ | ชุดข้อมูลที่มีป้ายกำกับ |
การฝึกอบรมก่อนหน้านี้ไม่จำเป็นสำหรับตัวแทนการเรียนรู้ | มีการฝึกอบรมก่อนหน้านี้สำหรับการทำนายผลลัพธ์ |
RL ได้รับการสนับสนุนอย่างดีที่สุดด้วย AI ซึ่งมีความชุกของการปฏิสัมพันธ์ของมนุษย์ | การเรียนรู้ภายใต้การดูแลส่วนใหญ่ดำเนินการกับแอปพลิเคชันหรือระบบซอฟต์แวร์เชิงโต้ตอบ |
ตัวอย่าง: เกมหมากรุก | ตัวอย่าง: การจดจำวัตถุ |
ประเภทของการเสริมแรง
การเรียนเสริมแรงมี 2 แบบ
1. แง่บวก
การเรียนรู้การเสริมแรงเชิงบวกถูกกำหนดให้เป็นเหตุการณ์ที่เกิดจากพฤติกรรมเฉพาะ สิ่งนี้ส่งผลกระทบในทางบวกต่อตัวแทน เนื่องจากจะเพิ่มความแข็งแกร่งและความถี่ในการเรียนรู้ ส่งผลให้ประสิทธิภาพสูงสุด ดังนั้นการเปลี่ยนแปลงจะคงอยู่เป็นระยะเวลานาน แต่การเพิ่มประสิทธิภาพของรัฐอาจส่งผลต่อผลลัพธ์ของการเรียนรู้ ดังนั้นการเสริมกำลังการเรียนรู้ไม่ควรมากเกินไป
ข้อดีของการเสริมแรงเชิงบวกคือ:
- การเพิ่มประสิทธิภาพสูงสุด
- การเปลี่ยนแปลงคงอยู่เป็นเวลานาน
2. เชิงลบ
การเสริมแรงเชิงลบถูกกำหนดเมื่อภายใต้สถานการณ์ของเงื่อนไขเชิงลบ พฤติกรรมมีความเข้มแข็ง มาตรฐานประสิทธิภาพขั้นต่ำถูกกำหนดผ่านการเสริมแรงเชิงลบ
ข้อดีของการเรียนรู้การเสริมแรงเชิงลบคือ:
- เพิ่มพฤติกรรม
- ให้การท้าทายมาตรฐานประสิทธิภาพขั้นต่ำ
ข้อเสียของการเรียนเสริมแรง
- ให้เพียงพอต่อพฤติกรรมขั้นต่ำเท่านั้น
ความท้าทายในการเรียนรู้การเสริมแรง
การเรียนรู้แบบเสริมกำลัง แม้ว่าจะไม่ต้องการการดูแลของแบบจำลอง แต่ก็ไม่ใช่การเรียนรู้แบบไม่มีผู้ดูแล อย่างไรก็ตาม มันเป็นส่วนที่แตกต่างของการเรียนรู้ของเครื่อง
ความท้าทายบางประการที่เกี่ยวข้องกับการเรียนรู้แบบเสริมกำลังคือ:
- การเตรียมสภาพแวดล้อมการจำลอง ขึ้นอยู่กับงานที่จะทำ การสร้างเครื่องจำลองเสมือนจริงเป็นงานที่ท้าทาย ตัวแบบต้องคิดทุกนาทีและรายละเอียดที่สำคัญของสิ่งแวดล้อม
- การมีส่วนร่วมของการออกแบบคุณลักษณะและรางวัลมีความสำคัญอย่างยิ่ง
- ความเร็วในการเรียนรู้อาจได้รับผลกระทบจากพารามิเตอร์
- การถ่ายโอนแบบจำลองไปยังสภาพแวดล้อมการฝึกอบรม
- การควบคุมตัวแทนผ่านโครงข่ายประสาทเทียมเป็นความท้าทายอีกประการหนึ่ง เนื่องจากการสื่อสารกับเครือข่ายประสาทเทียมเพียงอย่างเดียวคือผ่านระบบการให้รางวัลและบทลงโทษ บางครั้งอาจส่งผลให้เกิดความหายนะในการลืม เช่น การลบความรู้เก่าไปพร้อมกับความรู้ใหม่
- การบรรลุเป้าหมายขั้นต่ำในท้องถิ่นถือเป็นความท้าทายสำหรับการเรียนรู้แบบเสริมกำลัง
- ภายใต้เงื่อนไขของสภาพแวดล้อมจริง อาจมีการสังเกตบางส่วน
- ควรมีการควบคุมการประยุกต์ใช้การเรียนรู้แบบเสริมแรง ปริมาณ RL ที่มากเกินไปนำไปสู่การโอเวอร์โหลดของรัฐ ซึ่งอาจส่งผลให้ผลลัพธ์ลดลง
- สภาพแวดล้อมที่แท้จริงนั้นไม่คงที่
การเสริมแรง
- ในสาขา Robotics สำหรับระบบอัตโนมัติทางอุตสาหกรรม
- RL สามารถใช้ในการวางแผนเชิงกลยุทธ์ของธุรกิจได้
- RL สามารถใช้ในเทคนิคการประมวลผลข้อมูลที่เกี่ยวข้องกับอัลกอริธึมการเรียนรู้ของเครื่อง
- สามารถใช้สำหรับการเตรียมเอกสารการฝึกอบรมสำหรับนักเรียนตามความต้องการได้
- สามารถใช้ RL ในการควบคุมเครื่องบินและการเคลื่อนที่ของหุ่นยนต์ได้
ในสภาพแวดล้อมขนาดใหญ่ การเสริมแรงสามารถใช้ได้ในสถานการณ์ต่อไปนี้
- หากไม่มีโซลูชันการวิเคราะห์สำหรับแบบจำลองสภาพแวดล้อมที่รู้จัก
- หากมีเฉพาะแบบจำลองสภาพแวดล้อมเท่านั้น
- เมื่อมีเพียงวิธีเดียวในการเก็บรวบรวมข้อมูลที่โต้ตอบกับสิ่งแวดล้อม
การใช้ Reinforcement Learning คืออะไร?
- Reinforcement Learning ช่วยในการระบุสถานการณ์ที่ต้องดำเนินการ
- การใช้ RL ช่วยในการรู้ว่าการกระทำใดให้ผลตอบแทนสูงสุด
- ประโยชน์ของ RL อยู่ที่การจัดหาฟังก์ชันการให้รางวัลแก่ตัวแทน
- สุดท้ายนี้ RL ช่วยในการระบุวิธีการที่นำไปสู่รางวัลที่มากขึ้น
บทสรุป
RL ใช้กับทุกสถานการณ์ไม่ได้ มีข้อ จำกัด บางประการในการใช้งาน
- ความพร้อมใช้งานของข้อมูลที่เพียงพอทำให้สามารถใช้แนวทางการเรียนรู้ภายใต้การดูแลมากกว่าวิธี RL
- การคำนวณ RL ค่อนข้างใช้เวลานาน โดยเฉพาะอย่างยิ่งในกรณีที่พิจารณาถึงสภาพแวดล้อมขนาดใหญ่
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's Executive PG Program in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT -B สถานะศิษย์เก่า 5+ โครงการหลักที่ปฏิบัติได้จริง & ความช่วยเหลืองานกับ บริษัท ชั้นนำ
อนาคตของงานแมชชีนเลิร์นนิงจะเป็นอย่างไร?
การนำแมชชีนเลิร์นนิงมาใช้เพิ่มขึ้นอย่างรวดเร็วในแนวดิ่งของอุตสาหกรรมต่างๆ ในปัจจุบัน เริ่มต้นด้วยภาคการเงินและการลงทุนเพื่อความบันเทิง สื่อ รถยนต์ การดูแลสุขภาพ และเกม – เป็นเรื่องยากที่จะหาอุตสาหกรรมใด ๆ ที่ไม่ใช้ AI และการเรียนรู้ของเครื่องในปัจจุบัน ดังนั้น ขอบเขตของงานแมชชีนเลิร์นนิงจึงสูงกว่างานด้านเทคโนโลยีอื่นๆ อย่างมาก ตามรายงานของ Gartner ภายในสิ้นปี 2565 แมชชีนเลิร์นนิงและงาน AI ประมาณ 2.3 ล้านตำแหน่งจะเข้าสู่ตลาด นอกจากนี้ ค่าตอบแทนที่เสนอให้กับมืออาชีพในสาขานี้คาดว่าจะสูงขึ้นอย่างมีนัยสำคัญด้วยเงินเดือนเริ่มต้นที่ INR 9 lakhs ต่อปี
AI cloud คืออะไร?
AI cloud เป็นแนวคิดที่ค่อนข้างใหม่ซึ่งองค์กรต่างๆ ได้เริ่มนำมาใช้เมื่อเร็วๆ นี้ แนวคิดนี้รวมเอาปัญญาประดิษฐ์และคลาวด์คอมพิวติ้งเข้าด้วยกัน และขับเคลื่อนโดยสองปัจจัย ซอฟต์แวร์และเครื่องมือ AI ช่วยเพิ่มมูลค่าใหม่ให้กับคลาวด์คอมพิวติ้ง ซึ่งขณะนี้มีบทบาทสำคัญในการนำปัญญาประดิษฐ์มาใช้ AI คลาวด์ประกอบด้วยโครงสร้างพื้นฐานที่ใช้ร่วมกันสำหรับกรณีการใช้งานเฉพาะที่ใช้ประโยชน์จากโครงการและปริมาณงานต่างๆ พร้อมกัน ข้อได้เปรียบที่ยิ่งใหญ่ที่สุดของ AI cloud คือการนำฮาร์ดแวร์ AI และซอฟต์แวร์โอเพ่นซอร์สมารวมกันเพื่อให้ลูกค้า (องค์กร) มี AI SaaS บนการตั้งค่าไฮบริดคลาวด์
อัลกอริทึมการเรียนรู้การเสริมแรงใช้ที่ไหน
อัลกอริธึมการเรียนรู้การเสริมกำลังมาพร้อมกับแอปพลิเคชันต่างๆ เช่น การวางแผนกลยุทธ์ทางธุรกิจ หุ่นยนต์สำหรับกระบวนการอัตโนมัติทางอุตสาหกรรม การควบคุมเครื่องบินและการควบคุมการเคลื่อนที่ของหุ่นยนต์ การเรียนรู้ของเครื่อง การพัฒนาระบบการฝึกอบรมแบบกำหนดเองสำหรับนักเรียน การประมวลผลข้อมูล และอื่นๆ อีกมากมาย การใช้อัลกอริธึมการเรียนรู้แบบเสริมกำลังจะมีประสิทธิภาพโดยเฉพาะในกรณีเหล่านี้ เนื่องจากสามารถช่วยค้นหาสถานการณ์ที่ต้องการการดำเนินการจริง ๆ และการกระทำที่มาพร้อมกับรางวัลสูงสุดในช่วงเวลาหนึ่งได้อย่างง่ายดาย อย่างไรก็ตาม ไม่ควรนำการเรียนรู้แบบเสริมแรงมาใช้เมื่อมีข้อมูลเพียงพอเพื่อเสนอวิธีแก้ปัญหาโดยใช้วิธีการเรียนรู้ภายใต้การดูแล