บทนำสู่การเรียนรู้กึ่งควบคุมดูแล [แอปพลิเคชันยอดนิยมในโลกปัจจุบัน]

เผยแพร่แล้ว: 2021-01-29

แมชชีนเลิร์นนิงเป็นคำศัพท์สำคัญของทศวรรษที่ผ่านมา มีโดเมนน้อยมากในขณะนี้ที่ความมหัศจรรย์ของการเรียนรู้ของเครื่องไม่ปรากฏชัด โดยเฉพาะอย่างยิ่งในธุรกิจโฆษณาที่มีกำไรสูง ปัจจุบันแมชชีนเลิร์นนิงมีการใช้งานกันอย่างแพร่หลายมากกว่าที่เคย

ทุกครั้งที่คุณเยี่ยมชมเว็บไซต์ ทุกครั้งที่คุณค้นหาคำใดคำหนึ่งบนอินเทอร์เน็ต ข้อมูลที่คุณสร้างจะ 'เรียนรู้' ข้อมูลนี้จะถูกนำมาใช้เพื่อให้คุณมีการโฆษณาที่ตรงเป้าหมาย เพื่อให้มั่นใจว่าผู้ใช้ทุกคนจะได้รับโฆษณาที่แตกต่างกัน โดยไม่คำนึงถึงหน้าเว็บที่ผู้ใช้เข้าชม

สารบัญ

วิธีการทำงานของแมชชีนเลิร์นนิง

แล้วแมชชีนเลิร์นนิงทำงานอย่างไร? ในการทำงาน แมชชีนเลิร์นนิงคล้ายกับสมองของมนุษย์มาก ข้อมูลมีการปรับปรุงอย่างต่อเนื่องและเรียนรู้จากข้อมูลใหม่ที่ได้รับอยู่เสมอ แมชชีนเลิร์นนิงเกี่ยวข้องกับชุดสองประเภท – ชุดทดสอบและชุดฝึกอบรม ชุดฝึกอบรมนั้นเป็นชุดข้อมูลที่แสดงถึงข้อมูลทั้งหมดที่โมเดลการเรียนรู้ของเครื่องจะทำการคาดการณ์

ที่สำคัญ เรามีข้อมูลสำหรับชุดฝึกและชุดทดสอบเพื่อทำนายข้อมูลให้ครบถ้วน เมื่อโมเดลแมชชีนเลิร์นนิงที่คุณสร้างขึ้นรู้จักรูปแบบในชุดการฝึกแล้ว ก็จะทดสอบประสิทธิภาพในชุดทดสอบ การสลับไปมานี้ดำเนินต่อไปจนกว่าแบบจำลองจะมีประสิทธิภาพถึงระดับหนึ่ง

ประเภทของการเรียนรู้ของเครื่อง

แมชชีนเลิร์นนิงมีประเภทของตัวเอง การเรียนรู้ของเครื่องหลักสองประเภทมีดังต่อไปนี้

  1. การเรียนรู้ภายใต้การดูแล
  2. การเรียนรู้แบบไม่มีผู้ดูแล

ในรูปแบบแรกเริ่มและในรูปแบบที่อธิบายไว้ในส่วนก่อนหน้า โดยทั่วไปแมชชีนเลิร์นนิงมีความหมายเหมือนกันกับการเรียนรู้ภายใต้การดูแลจนกระทั่งไม่นานมานี้ในการเรียนรู้ภายใต้การดูแล ชุดฝึกและชุดทดสอบจะมีข้อมูลกำกับอยู่

ข้อมูลที่ติดป้ายกำกับคือประเภทของข้อมูลที่ติดป้ายกำกับว่าช่องข้อมูลสำคัญทั้งหมด รวมถึงช่องที่แบบจำลองคาดการณ์ไว้ ได้รับการติดป้ายกำกับอย่างถูกต้องเพื่อให้แบบจำลองสามารถเรียนรู้ได้อย่างมีประสิทธิภาพ การเรียนรู้ภายใต้การดูแลเป็นการเรียนรู้จากประสบการณ์ทั้งหมด และจะดีมากหากคุณต้องการเพิ่มประสิทธิภาพของแบบจำลองของคุณ

Unsupervised learning เป็นประเภทของการเรียนรู้ของเครื่องที่ข้อมูลทั้งหมดไม่มีป้ายกำกับ แต่โมเดลแมชชีนเลิร์นนิงจะให้อิสระในการแยกแยะรูปแบบจากข้อมูลที่ให้ไว้ การเรียนรู้โดยไม่ได้รับการดูแลมักจะทำให้เกิดผลลัพธ์ที่คาดเดาไม่ได้และยังช่วยค้นพบรูปแบบใหม่ๆ ในชุดข้อมูลขนาดใหญ่ ข้อมูลที่คุณจะได้รับโดยทั่วไปจะไม่ค่อยมีป้ายกำกับ และรูปแบบการเรียนรู้ที่ไม่มีผู้ดูแลมีไว้สำหรับข้อมูลที่ไม่มีป้ายกำกับ

การเรียนรู้กึ่งควบคุม

มีข้อเสียหลายประการสำหรับทั้งการเรียนรู้ภายใต้การดูแลและการเรียนรู้ที่ไม่มีผู้ดูแล ข้อเสียที่ใหญ่ที่สุดและชัดเจนที่สุดของการเรียนรู้ภายใต้การดูแลคือข้อเท็จจริงที่ว่าข้อมูลส่วนใหญ่ไม่มีป้ายกำกับ ในการทำให้การเรียนรู้ภายใต้การดูแลทำงานบนชุดข้อมูล ข้อมูลทั้งหมดมักจะต้องถูกดึงออกมาและติดป้ายกำกับด้วยมือ ซึ่งเป็นกระบวนการที่เข้มงวดและอาจทำให้ประโยชน์ทั้งหมดของการใช้การเรียนรู้ของเครื่องกับข้อมูลของคุณเป็นโมฆะ

การเรียนรู้แบบไม่มีผู้ดูแลไม่ต้องการข้อมูลที่ติดป้ายกำกับ แต่ฐานของแอปพลิเคชันที่เป็นไปได้สำหรับการเรียนรู้แบบไม่ต้องดูแลอย่างหมดจดนั้นค่อนข้างจำกัด

การเรียนรู้แบบกึ่งควบคุมดูแลเป็นประเภทของการเรียนรู้ของเครื่องที่ให้เส้นทางกลางที่ดีระหว่างการเรียนรู้ภายใต้การดูแลและการเรียนรู้ที่ไม่มีผู้ดูแล การเรียนรู้แบบกึ่งควบคุมที่ยอมรับได้นั้นเปลี่ยนทิศทางเล็กน้อยไปยังจุดสิ้นสุดของสเปกตรัมการเรียนรู้ของเครื่องที่มีการควบคุมดูแล ข้อกำหนดเบื้องต้นสำหรับโมเดลการเรียนรู้กึ่งควบคุมดูแลคือชุดของข้อมูลที่ไม่มีป้ายกำกับ ซึ่งข้อมูลจำนวนเล็กน้อยได้ถูกแยกออกมาและติดป้ายกำกับด้วยตนเอง

นี่เป็นประโยชน์ที่มีนัยสำคัญเหนือแบบจำลองที่มีการควบคุมดูแลเท่านั้น ซึ่งข้อมูลทั้งหมดจะต้องมีป้ายกำกับ ดังนั้นการเรียนรู้แบบกึ่งควบคุมดูแลจึงสัมพันธ์กับการประหยัดต้นทุนและเวลา เมื่อเทียบกับแบบจำลองที่ไม่มีผู้ดูแล หากใช้กับข้อมูลที่มีป้ายกำกับเพียงเล็กน้อย ก็สามารถลดทรัพยากรในการคำนวณและปรับปรุงความแม่นยำของแบบจำลองได้

สมมติฐานของการเรียนรู้โดยไม่ได้รับการดูแล

เมื่อมีการใช้ข้อมูลที่ไม่มีป้ายกำกับ จะต้องเชื่อมโยงกับข้อมูลพื้นฐานในทางใดทางหนึ่ง เมื่อใช้โมเดลแมชชีนเลิร์นนิงกึ่งควบคุม จะมีการสร้างสมมติฐานบางประการเกี่ยวกับข้อมูล สมมติฐานเหล่านี้มีดังต่อไปนี้

สมมติฐานความต่อเนื่อง: นี่เป็นข้อสันนิษฐานที่จุดบนแผนภาพกระจายที่แสดงข้อมูลทั้งหมดที่อยู่ใกล้กันมากขึ้นมีแนวโน้มที่จะมีป้ายกำกับเดียวกัน นี่เป็นข้อสันนิษฐานหลักที่ใช้โดยทั่วไปสำหรับรูปแบบการเรียนรู้ภายใต้การดูแล สมมติฐานนี้ทำให้ง่ายสำหรับแบบจำลองกึ่งควบคุมดูแลเพื่อสร้างขอบเขตการตัดสินใจที่ชัดเจน

สมมติฐานของคลัสเตอร์: ถือว่าข้อมูลมีความชอบตามธรรมชาติในการสร้างคลัสเตอร์ และจุดข้อมูลที่เป็นส่วนหนึ่งของคลัสเตอร์เดียวกันจะมีป้ายกำกับเหมือนกัน อย่างไรก็ตาม ข้อแม้สำหรับสมมติฐานนี้คือคลัสเตอร์ตั้งแต่สองคลัสเตอร์ขึ้นไปอาจมีข้อมูลที่เป็นของป้ายกำกับเดียวกัน สมมติฐานนี้มีประโยชน์อย่างมากในอัลกอริธึมการจัดกลุ่ม ซึ่งคล้ายกับสมมติฐานก่อนหน้านี้และอาจถือเป็นกรณีพิเศษของสมมติฐานที่ต่อเนื่อง สมมติฐานของคลัสเตอร์มีประโยชน์อย่างมากเมื่อจำเป็นต้องมีการกำหนดขอบเขตการตัดสินใจ คล้ายกับสมมติฐานที่ต่อเนื่อง

สมมติฐานที่หลากหลาย: สิ่งนี้ถือว่าขนาดของท่อร่วมของพื้นที่อินพุตสูงกว่าที่ข้อมูลอยู่อย่างมีนัยสำคัญ เมื่อสมมติฐานนี้ถูกสร้างขึ้น เขาติดป้ายกำกับ และสามารถเรียนรู้ข้อมูลที่ไม่ได้ติดป้ายกำกับตามความหลากหลายร่วมกัน เมื่อสร้าง manifold แล้ว จะสามารถวัดความหนาแน่นและระยะทางระหว่างจุดต่างๆ ของข้อมูลได้ นี่เป็นข้อสมมติที่มีประโยชน์เมื่อจำนวนมิติข้อมูลในข้อมูลสูงมาก และทำซ้ำว่าจำนวนมิติที่ควบคุมการจัดประเภทข้อมูลเป็นป้ายกำกับต่างๆ จะต่ำกว่าเมื่อเปรียบเทียบ

อ่านเพิ่มเติม: โมเดลการเรียนรู้ของเครื่อง

การประยุกต์ใช้การเรียนรู้กึ่งควบคุม

ข้อร้องเรียนที่สำคัญเกี่ยวกับการเรียนรู้แบบไม่มีผู้ดูแลคือจำนวนแอปพลิเคชันที่เป็นไปได้ค่อนข้างต่ำ ผลลัพธ์ที่ได้จากแบบจำลองที่ไม่มีผู้ดูแลมักจะค่อนข้างซ้ำซ้อนหรือใช้งานไม่ได้ ในการเปรียบเทียบ การเรียนรู้แบบกึ่งควบคุมดูแลมีชุดแอปพลิเคชันที่มีประสิทธิภาพซึ่งสามารถใช้งานได้

การจำแนกประเภทเนื้อหาบนอินเทอร์เน็ต: อินเทอร์เน็ตเป็นหน้าเว็บจำนวนมาก และไม่สามารถคาดหวังได้ว่าทุกหน้าจะมีป้ายกำกับและมีข้อมูลทั้งหมดสำหรับฟิลด์ที่คุณต้องการ อย่างไรก็ตาม ในขณะเดียวกัน ก็เป็นความจริงที่ในช่วงหลายปีที่ผ่านมา หน้าเว็บส่วนน้อยบางส่วนจะได้รับการติดป้ายกำกับสำหรับมิติข้อมูลใดมิติหนึ่ง

สามารถใช้สำหรับการจัดประเภทของหน้าเว็บ คุณสามารถใช้ชุดของหน้าเว็บที่มีป้ายกำกับเพื่อคาดเดาป้ายกำกับของหน้าเว็บอื่นๆ ทั้งหมดที่คุณต้องการ เสิร์ชเอ็นจิ้นหลายตัวใช้รูปแบบการเรียนรู้กึ่งควบคุมดูแลเพื่อติดป้ายกำกับและจัดอันดับหน้าเว็บในผลการค้นหา รวมถึง Google

การ วิเคราะห์ภาพและเสียง: การวิเคราะห์ภาพและเสียงเป็นหนึ่งในการใช้งานทั่วไปของรูปแบบการเรียนรู้กึ่งควบคุมดูแล ข้อมูลประเภทนี้มักไม่มีป้ายกำกับ ความเชี่ยวชาญของมนุษย์สามารถระบุข้อมูลในสัดส่วนเล็กน้อย แทนที่จะจำแนกแต่ละภาพหรือชิ้นส่วนของเสียงสำหรับสาขาใดสาขาหนึ่งในช่วงเวลาหลายวันและหลายเดือน เมื่อข้อมูลส่วนน้อยนี้ได้รับการจัดประเภทแล้ว คุณสามารถใช้อัลกอริธึมที่ได้รับการฝึกมาเพื่อจัดประเภทข้อมูลอื่นๆ ทั้งหมดที่คุณมีได้

การจำแนกลำดับโปรตีน: นี่เป็นแอปพลิเคชั่นใหม่ของการเรียนรู้กึ่งควบคุม ลำดับโปรตีนประกอบด้วยกรดอะมิโนจำนวนมาก และเป็นไปไม่ได้ที่จะวิเคราะห์ลำดับโปรตีนทุกลำดับและจัดประเภทเป็นประเภทใดประเภทหนึ่งหรืออีกประเภทหนึ่ง งานนี้สามารถทำได้ง่าย ๆ ด้วยการใช้การเรียนรู้แบบกึ่งควบคุมดูแล สิ่งที่คุณต้องมีคือฐานข้อมูลของโปรตีนที่ปักเลื่อมแล้ว และตัวแบบเองก็สามารถจัดลำดับส่วนที่เหลือได้

บทสรุป

การเรียนรู้แบบกึ่งควบคุมดูแลให้การกลั่นกรองที่ดีท่ามกลางข้อดีและข้อเสียของการเรียนรู้ภายใต้การดูแลและไม่ได้รับการดูแล นอกจากนี้ยังช่วยให้แน่ใจว่าสามารถใช้ข้อมูลที่สร้างขึ้นหรือพร้อมใช้งานจำนวนมากในแบบจำลองเดียวหรืออีกรูปแบบหนึ่งเพื่อให้ได้ข้อมูลเชิงลึกที่มีความหมาย การใช้โมเดลประเภทนี้มีแนวโน้มที่จะเพิ่มขึ้นในปีต่อ ๆ ไปเท่านั้น

แมชชีนเลิร์นนิงเป็นหนึ่งในเทคโนโลยีที่ทรงอิทธิพลที่สุดในโลก นั่นเป็นเหตุผลใหญ่ว่าทำไมจึงเป็นที่นิยมในปัจจุบัน

อุตสาหกรรมจำนวนมากใช้แมชชีนเลิร์นนิงเพื่อจุดประสงค์ที่แตกต่างกัน ดังนั้นความต้องการจึงเพิ่มขึ้นทุกวัน หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับอาชีพในแมชชีนเลิร์นนิงและปัญญาประดิษฐ์ โปรดดูที่ IIIT-B และประกาศนียบัตร PG ของ upGrad ด้านแมชชีนเลิร์นนิงและโปรแกรม AI

เรียนรู้ หลักสูตร ML จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

เป็นผู้นำการปฏิวัติเทคโนโลยีที่ขับเคลื่อนด้วย AI

เรียนรู้โปรแกรมใบรับรองขั้นสูงในการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก