สุดยอดคู่มือการตรวจจับวัตถุโดยใช้การเรียนรู้เชิงลึก [2022]

เผยแพร่แล้ว: 2021-01-08

สารบัญ

บทนำ
การตรวจจับวัตถุ
วัตถุคืออะไร?
ประวัติการตรวจจับวัตถุ
แนวคิด
คำนิยาม
คำอธิบายทั่วไปของการตรวจจับวัตถุ
การตรวจจับวัตถุทำงานอย่างไร
วิธีการตรวจหาวัตถุ
- วิธีการเรียนรู้ของเครื่อง
- วิธีการเรียนรู้เชิงลึก
- แมชชีนเลิร์นนิงคืออะไร?
- การเรียนรู้เชิงลึกคืออะไร?
การตรวจจับวัตถุโดยใช้การเรียนรู้เชิงลึก
สรุป
หลักสูตรที่เปิดสอนโดย upGrad
บรรทัดล่าง
อัลกอริทึมการเรียนรู้เชิงลึกที่ใช้ในการตรวจจับวัตถุมีอะไรบ้าง
อัลกอริทึมใดดีที่สุดสำหรับการตรวจจับวัตถุ
อะไรคือปัญหาที่คุณเผชิญในการระบุวัตถุ?

บทนำ

การตรวจจับวัตถุ กล่าวอย่างง่าย ๆ คือวิธีการที่ใช้ในการจดจำและตรวจจับวัตถุต่าง ๆ ที่มีอยู่ในรูปภาพหรือวิดีโอและติดป้ายกำกับเพื่อจำแนกวัตถุเหล่านี้ โดยทั่วไปแล้ว การตรวจจับวัตถุ จะใช้อัลกอริธึมที่แตกต่างกันในการจดจำและการแปลของวัตถุ และอัลกอริทึมเหล่านี้ใช้ การเรียนรู้เชิงลึก เพื่อสร้างผลลัพธ์ที่มีความหมาย

การตรวจจับวัตถุ

เทคนิค การตรวจจับวัตถุ ช่วยในการจดจำ การตรวจจับ และการแปลอินสแตนซ์ของวัตถุในภาพหรือวิดีโอหลายรายการ ช่วยให้เข้าใจวัตถุโดยรวมได้ดีขึ้นมาก ไม่ใช่แค่การจำแนกประเภทวัตถุพื้นฐาน วิธีนี้สามารถใช้นับจำนวนอินสแตนซ์ของออบเจ็กต์ที่ไม่ซ้ำกันและทำเครื่องหมายตำแหน่งที่แม่นยำของออบเจ็กต์พร้อมกับการติดฉลาก เมื่อเวลาผ่านไป ประสิทธิภาพของกระบวนการนี้ก็ดีขึ้นอย่างมากเช่นกัน ช่วยเราในกรณีการใช้งานแบบเรียลไทม์ โดยรวมแล้วมันตอบคำถาม: "วัตถุอะไรอยู่ที่ไหนและมีอยู่เท่าไร"

แหล่งที่มา

วัตถุคืออะไร?

วัตถุเป็นองค์ประกอบที่สามารถแสดงด้วยสายตาได้ ลักษณะทางกายภาพของวัตถุไม่มีความแปรปรวนหลากหลาย วัตถุต้องกึ่งแข็งเพื่อตรวจจับและแยกความแตกต่าง

ประวัติการตรวจจับวัตถุ

ในช่วง 20 ปีที่ผ่านมา ความคืบหน้าของการตรวจจับวัตถุโดยทั่วไปได้ผ่านช่วงการพัฒนาที่สำคัญสองช่วง เริ่มตั้งแต่ช่วงต้นทศวรรษ 2000:

1. การตรวจจับวัตถุแบบดั้งเดิม - ต้นปี 2000 ถึง 2014

2. การตรวจจับตามการเรียนรู้เชิงลึก - หลังปี 2014

วิวัฒนาการทางเทคนิคของ การตรวจจับวัตถุ เริ่มขึ้นในช่วงต้นทศวรรษ 2000 และเครื่องตรวจจับในขณะนั้น พวกเขาปฏิบัติตามวิสัยทัศน์ระดับต่ำและระดับกลางและปฏิบัติตามวิธีการ 'การรับรู้ทีละองค์ประกอบ' วิธีนี้เปิดใช้งาน การตรวจจับวัตถุ เป็นการวัดความคล้ายคลึงกันระหว่างส่วนประกอบ รูปร่าง และเส้นขอบของวัตถุ และคุณสมบัติที่นำมาพิจารณา ได้แก่ การแปลงระยะทาง บริบทของรูปร่าง และไม่มีขอบ เป็นต้น สิ่งต่างๆ ไม่ได้ไปด้วยดีแล้วจึงใช้วิธีการตรวจจับด้วยเครื่อง เริ่มเข้ามาในภาพเพื่อแก้ปัญหานี้

การตรวจจับวัตถุหลายขนาดทำได้โดยพิจารณาวัตถุเหล่านั้นที่มี "ขนาดต่างกัน" และ "อัตราส่วนกว้างยาวต่างกัน" นี่เป็นหนึ่งในความท้าทายทางเทคนิคหลักใน การตรวจจับวัตถุ ในระยะแรก แต่หลังจากปี 2014 ความก้าวหน้าทางเทคนิคที่เพิ่มขึ้น ปัญหาก็ได้รับการแก้ไข สิ่งนี้นำเราไปสู่ระยะที่สองของ การตรวจจับวัตถุ ซึ่งงานต่างๆ สำเร็จลุล่วงโดยใช้ การเรียนรู้เชิงลึก

แหล่งที่มา

แนวคิด

แนวคิดหลักเบื้องหลังกระบวนการนี้คือ ทุกอ็อบเจ็กต์จะมีคุณสมบัติของมัน คุณลักษณะเหล่านี้สามารถช่วยเราแยกวัตถุออกจากวัตถุอื่นๆ วิธีการ ตรวจหาวัตถุ ใช้คุณลักษณะเหล่านี้เพื่อจำแนกวัตถุ แนวคิดเดียวกันนี้ใช้สำหรับสิ่งต่างๆ เช่น การตรวจจับใบหน้า การตรวจจับลายนิ้วมือ ฯลฯ

ให้เรายกตัวอย่าง ถ้าเรามีรถสองคันอยู่บนท้องถนน โดยใช้อัลกอริธึม การตรวจจับวัตถุ เราสามารถจำแนกและติดป้ายกำกับได้

ที่มา :

คำนิยาม

การตรวจจับวัตถุ เป็นกระบวนการในการค้นหาทุกกรณีที่เป็นไปได้ของวัตถุในโลกแห่งความเป็นจริง เช่น ใบหน้ามนุษย์ ดอกไม้ รถยนต์ ฯลฯ ในภาพหรือวิดีโอ แบบเรียลไทม์ด้วยความแม่นยำสูงสุด เทคนิคการตรวจหาวัตถุใช้คุณสมบัติที่ได้รับและอัลกอริทึมการเรียนรู้เพื่อรับรู้การเกิดขึ้นทั้งหมดของหมวดหมู่วัตถุ แอปพลิเคชั่นการตรวจจับวัตถุในโลกแห่งความเป็นจริง ได้แก่ การดึงภาพ การรักษาความปลอดภัยและการเฝ้าระวัง ระบบช่วยเหลือผู้ขับขี่ขั้นสูง หรือที่เรียกว่า ADAS และอื่นๆ อีกมากมาย

อ่าน: เทคนิคการเรียนรู้เชิงลึก 10 อันดับแรก

คำอธิบายทั่วไปของการตรวจจับวัตถุ

มนุษย์เราสามารถตรวจจับวัตถุต่าง ๆ ที่ปรากฏต่อหน้าเรา และเรายังสามารถระบุวัตถุทั้งหมดได้อย่างแม่นยำ เป็นเรื่องง่ายมากสำหรับเราที่จะนับและระบุวัตถุหลายชิ้นโดยไม่ต้องใช้ความพยายามใดๆ การพัฒนาเทคโนโลยีล่าสุดส่งผลให้มีข้อมูลจำนวนมากพร้อมใช้งานเพื่อฝึกอัลกอริธึมที่มีประสิทธิภาพ เพื่อให้คอมพิวเตอร์ทำหน้าที่เดียวกันในการจัดหมวดหมู่และการตรวจจับ

มีคำศัพท์มากมายที่เกี่ยวข้องกับการรู้จำวัตถุ เช่น การมองเห็นด้วยคอมพิวเตอร์ การโลคัลไลเซชันวัตถุ การจำแนกวัตถุ ฯลฯ และมันอาจจะครอบงำคุณในฐานะมือใหม่ ดังนั้นโปรดแจ้งให้เราทราบคำศัพท์เหล่านี้และคำจำกัดความทั้งหมดทีละขั้นตอน:

คอมพิวเตอร์วิทัศน์: เป็นสาขาปัญญาประดิษฐ์ที่ช่วยให้เราสามารถฝึกคอมพิวเตอร์ให้เข้าใจและตีความภาพและวิดีโอโดยใช้อัลกอริทึมและแบบจำลอง
การจัดประเภทรูปภาพ: เกี่ยวข้องกับการตรวจจับและการติดป้ายกำกับรูปภาพโดยใช้ปัญญาประดิษฐ์ ภาพเหล่านี้จัดประเภทโดยใช้คุณสมบัติที่กำหนดโดยผู้ใช้
การแปลวัตถุ: มันเกี่ยวข้องกับการตรวจจับวัตถุต่าง ๆ ในภาพที่กำหนดและวาดขอบเขตรอบตัวพวกเขา ส่วนใหญ่เป็นกล่อง เพื่อจำแนกวัตถุเหล่านั้น
การตรวจจับวัตถุ: เกี่ยวข้องกับกระบวนการทั้งสองนี้และจำแนกวัตถุ จากนั้นจึงวาดขอบเขตสำหรับแต่ละวัตถุและติดป้ายกำกับตามคุณสมบัติ

คุณลักษณะทั้งหมดเหล่านี้เป็นกระบวนการรับรู้วัตถุ

การตรวจจับวัตถุทำงานอย่างไร

ตอนนี้เราได้ผ่านการตรวจหาวัตถุและได้รับความรู้แล้วว่ามันคืออะไร ตอนนี้ก็ถึงเวลาที่จะรู้ว่ามันทำงานอย่างไร และอะไรทำให้มันทำงาน เราสามารถมีแนวทางได้หลากหลาย แต่มีสองแนวทางหลัก ได้แก่ แนวทางการเรียนรู้ของเครื่องและแนวทางการเรียนรู้เชิงลึก วิธีการทั้งสองนี้สามารถเรียนรู้และระบุวัตถุได้ แต่การดำเนินการแตกต่างกันมาก

อ่านเพิ่มเติม: บทช่วยสอนการตรวจจับวัตถุ TensorFlow

วิธีการตรวจหาวัตถุ

การตรวจจับวัตถุสามารถทำได้โดยใช้วิธีการเรียนรู้ของเครื่องและแนวทางการเรียนรู้เชิงลึก วิธีการเรียนรู้ของเครื่องต้องใช้คุณลักษณะที่กำหนดโดยใช้วิธีการต่างๆ แล้วใช้เทคนิคใดๆ เช่น Support Vector Machines (SVMs) เพื่อทำการจัดหมวดหมู่ ในขณะที่แนวทางการเรียนรู้เชิงลึกทำให้สามารถทำกระบวนการตรวจจับทั้งหมดได้โดยไม่ต้องกำหนดคุณลักษณะสำหรับการจัดหมวดหมู่อย่างชัดเจน แนวทางการเรียนรู้เชิงลึกนั้นใช้ Convolutional Neural Networks (CNNs) เป็นหลัก

วิธีการเรียนรู้ของเครื่อง

การแปลงคุณลักษณะที่ไม่เปลี่ยนแปลงตามมาตราส่วน (SIFT)
ฮิสโตแกรมของคุณสมบัติการไล่ระดับสีแบบเน้น (HOG)
เฟรมเวิร์กการตรวจจับวัตถุ Viola-Jones

วิธีการเรียนรู้เชิงลึก

ข้อเสนอภูมิภาค (R-CNN, Fast R-CNN, R-CNN ที่เร็วกว่า)
คุณมองเพียงครั้งเดียว (YOLO)
โครงข่ายบิดเบี้ยวที่เปลี่ยนรูปได้
Refinement Neural Network สำหรับการตรวจจับวัตถุ (RefineDet)
Retina-Net

เราจะเรียนรู้เกี่ยวกับวิธีการเรียนรู้เชิงลึกอย่างละเอียด แต่ก่อนอื่น ให้เรารู้ว่าการเรียนรู้ของเครื่องคืออะไร อะไรคือการเรียนรู้เชิงลึก และความแตกต่างระหว่างวิธีการเหล่านี้คืออะไร

แมชชีนเลิร์นนิงคืออะไร?

แมชชีนเลิร์นนิงเป็นแอปพลิเคชั่นของปัญญาประดิษฐ์สำหรับทำให้คอมพิวเตอร์เรียนรู้จากข้อมูลที่ให้มา จากนั้นจึงตัดสินใจด้วยตนเองเหมือนกับมนุษย์ ช่วยให้คอมพิวเตอร์สามารถเรียนรู้และคาดการณ์ตามข้อมูลที่ได้รับ และผ่านการโต้ตอบและการสังเกตในโลกแห่งความเป็นจริง โดยพื้นฐานแล้วการเรียนรู้ของเครื่องเป็นกระบวนการของการใช้อัลกอริทึมในการวิเคราะห์ข้อมูล จากนั้นจึงเรียนรู้จากข้อมูลดังกล่าวเพื่อคาดการณ์และกำหนดสิ่งต่างๆ ตามข้อมูลที่กำหนด

อัลกอริธึมการเรียนรู้ของเครื่องสามารถตัดสินใจได้ด้วยตัวเองโดยไม่ต้องตั้งโปรแกรมไว้อย่างชัดเจน อัลกอริธึมเหล่านี้สร้างแบบจำลองทางคณิตศาสตร์ตามข้อมูลที่กำหนด ซึ่งเรียกว่า 'ชุดฝึกอบรม' เพื่อทำการคาดการณ์ ในอัลกอริธึมการเรียนรู้ของเครื่อง เราจำเป็นต้องจัดเตรียมคุณลักษณะต่างๆ ให้กับระบบ เพื่อให้พวกเขาทำการเรียนรู้ตามคุณลักษณะที่กำหนด กระบวนการนี้เรียกว่า วิศวกรรมคุณลักษณะ

ตัวอย่างประจำวันของแอปพลิเคชันการเรียนรู้ของเครื่อง ได้แก่ ผู้ช่วยเสียง การกรองอีเมลสแปม คำแนะนำผลิตภัณฑ์ ฯลฯ

การเรียนรู้เชิงลึกคืออะไร?

การเรียนรู้เชิงลึกซึ่งบางครั้งเรียกว่าการเรียนรู้แบบมีโครงสร้างเชิงลึกเป็นคลาสของอัลกอริธึมการเรียนรู้ของเครื่อง การเรียนรู้เชิงลึกใช้วิธีการแบบหลายชั้นเพื่อดึงคุณลักษณะระดับสูงออกจากข้อมูลที่มีให้ ไม่ต้องการคุณสมบัติที่จะจัดเตรียมด้วยตนเองสำหรับการจัดประเภท แต่พยายามแปลงข้อมูลเป็นการแสดงนามธรรม มันเรียนรู้จากตัวอย่างและใช้สำหรับการจัดประเภทในอนาคต การเรียนรู้เชิงลึกได้รับอิทธิพลจากโครงข่ายประสาทเทียม (ANN) ที่มีอยู่ในสมองของเรา

วิธีการเรียนรู้เชิงลึกส่วนใหญ่ใช้โครงข่ายประสาทเทียมเพื่อให้ได้ผลลัพธ์ โมเดลการเรียนรู้เชิงลึกทั้งหมดต้องการพลังในการคำนวณมหาศาลและข้อมูลที่มีป้ายกำกับจำนวนมากเพื่อเรียนรู้คุณลักษณะต่างๆ โดยตรงจากข้อมูล แอปพลิเคชั่นการเรียนรู้เชิงลึกในแต่ละวันคือการรวมข่าวหรือการตรวจจับข่าวการฉ้อโกง การจดจำภาพ การประมวลผลภาษาธรรมชาติ ฯลฯ

แมชชีนเลิร์นนิงและเทคนิคการเรียนรู้เชิงลึกสำหรับการจดจำวัตถุ แหล่งที่มา

การตรวจจับวัตถุโดยใช้การเรียนรู้เชิงลึก

ตอนนี้เรารู้เกี่ยวกับการตรวจจับวัตถุและการเรียนรู้เชิงลึกเป็นอย่างดีแล้ว เราควรรู้ว่าเราสามารถดำเนินการ ตรวจจับวัตถุโดยใช้การเรียนรู้เชิงลึก ได้อย่างไร

เหล่านี้เป็นโมเดลการเรียนรู้เชิงลึกที่ใช้มากที่สุดสำหรับการตรวจจับวัตถุ:

1. R-CNN model family: ย่อมาจาก Region-based Convolutional Neural Networks

- R-CNN
- R-CNN . เร็ว
- R-CNN ที่เร็วขึ้น

2. YOLO model family: ย่อมาจาก You Look Only Once

- YOLOv1
- YOLOv2 และ YOLOv3

ให้เราดูทีละรายการและทำความเข้าใจวิธีการทำงาน

กระบวนการตรวจจับวัตถุเกี่ยวข้องกับขั้นตอนเหล่านี้ที่ต้องปฏิบัติตาม:

การนำภาพมาเป็นอินพุต ไม่ว่าจะด้วยภาพหรือวิดีโอ
แบ่งวิชวลอินพุตออกเป็นส่วนๆ หรือขอบเขต
แยกแต่ละส่วนออกเป็นภาพเดียว
ส่งต่อภาพเหล่านี้ไปยัง Convolutional Neural Network (CNN) เพื่อจำแนกเป็นคลาสที่เป็นไปได้
หลังจากการจำแนกประเภท เราสามารถรวมภาพทั้งหมดและสร้างภาพอินพุตต้นฉบับ แต่ยังรวมถึงวัตถุที่ตรวจพบและป้ายกำกับ

เครือข่าย Convolutional Neural Networks (R-CNN) ตามภูมิภาค

มีโมเดลการตรวจจับวัตถุหลายแบบภายใต้ตระกูล R-CNN โมเดลการตรวจจับเหล่านี้อิงตามโครงสร้างข้อเสนอของภูมิภาค คุณลักษณะเหล่านี้ได้พัฒนาอย่างยอดเยี่ยมโดยใช้เวลา เพิ่มความแม่นยำและประสิทธิภาพ

รุ่นต่างๆ ภายใต้ R-CNN ได้แก่

R-CNN

วิธี R-CNN ใช้กระบวนการที่เรียกว่าการค้นหาแบบเลือกเพื่อค้นหาวัตถุจากภาพ อัลกอริธึมนี้สร้างภูมิภาคจำนวนมากและทำงานร่วมกัน คอลเล็กชันของภูมิภาคเหล่านี้จะได้รับการตรวจสอบว่ามีออบเจ็กต์หากมีอ็อบเจ็กต์ ความสำเร็จของวิธีนี้ขึ้นอยู่กับความถูกต้องของการจำแนกประเภทของวัตถุ

Fast-RCNN

วิธี Fast-RCNN ใช้โครงสร้างของ R-CNN ร่วมกับ SPP-net (Spatial Pyramid Pooling) เพื่อทำให้โมเดล R-CNN ทำงานช้าเร็วขึ้น Fast-RCNN ใช้ SPP-net เพื่อคำนวณการแสดง CNN สำหรับทั้งภาพเพียงครั้งเดียว จากนั้นจะใช้การแทนค่านี้เพื่อคำนวณการแสดง CNN สำหรับแต่ละแพตช์ที่สร้างโดยวิธีการค้นหาแบบเลือกของ R-CNN Fast-RCNN ทำให้กระบวนการฝึกอบรมตั้งแต่ต้นจนจบ

โมเดล Fast-RCNN ยังรวมถึงการถดถอยของขอบเขตพร้อมกับกระบวนการฝึกอบรม สิ่งนี้ทำให้ทั้งกระบวนการโลคัลไลเซชันและการจัดประเภทในกระบวนการเดียว ทำให้กระบวนการเร็วขึ้น

เร็วกว่า-RCNN

วิธี Faster-RCNN นั้นเร็วกว่า Fast-RCNN Fast-RCNN นั้นรวดเร็ว แต่กระบวนการของการค้นหาแบบเลือกและกระบวนการนี้ถูกแทนที่ใน Faster-RCNN โดยใช้ RPN (Region Proposal Network) RPN ทำให้กระบวนการคัดเลือกเร็วขึ้นด้วยการใช้เครือข่าย Convolutional ขนาดเล็ก ซึ่งจะสร้างภูมิภาคที่น่าสนใจ นอกจาก RPN แล้ว วิธีการนี้ยังใช้ Anchor Boxes เพื่อจัดการกับอัตราส่วนกว้างยาวและขนาดของวัตถุ Faster-RCNN เป็นหนึ่งในอัลกอริธึมการตรวจจับวัตถุที่แม่นยำและมีประสิทธิภาพที่สุด

	R-CNN	Fast-RCNN	เร็วกว่า-RCNN
เวลาทดสอบต่อภาพ	50 วินาที	2 วินาที	0.2 วินาที
ความเร็ว	1x	25x	250x

คุณดูเพียงครั้งเดียว (YOLO) ครอบครัว

แนวทาง R-CNN ที่เราเห็นข้างต้นเน้นที่การแบ่งภาพออกเป็นส่วนๆ และเน้นไปที่ส่วนต่างๆ ที่มีความน่าจะเป็นสูงกว่าที่จะมีวัตถุ ในขณะที่กรอบงาน YOLO เน้นที่ภาพทั้งหมดโดยรวมและคาดการณ์กรอบล้อมรอบ แล้วคำนวณความน่าจะเป็นของคลาสเพื่อติดป้ายกำกับในกล่อง ครอบครัวของกรอบงาน YOLO เป็นเครื่องตรวจจับวัตถุที่รวดเร็วมาก

YOLO รุ่นต่างๆ มีการกล่าวถึงด้านล่าง:

YOLOv1

โมเดลนี้เรียกอีกอย่างว่า YOLO unified เนื่องจากโมเดลนี้รวมการตรวจจับอ็อบเจ็กต์และโมเดลการจัดหมวดหมู่เข้าด้วยกันเป็นเครือข่ายการตรวจจับเดียว นี่เป็นความพยายามครั้งแรกในการสร้างเครือข่ายที่ตรวจจับวัตถุแบบเรียลไทม์อย่างรวดเร็ว YOLO คาดการณ์กรอบขอบเขตจำนวนจำกัดเพื่อให้บรรลุเป้าหมายนี้

YOLOv2 และ v3

YOLOv2 และ YOLOv3 เป็นเวอร์ชันปรับปรุงของกรอบงาน YOLOv1 YOLOv2 เรียกอีกอย่างว่า YOLO9000 กรอบงาน YOLOv1 ทำให้เกิดข้อผิดพลาดในการโลคัลไลเซชันหลายอย่าง และ YOLOv2 ปรับปรุงสิ่งนี้โดยเน้นที่การเรียกคืนและการแปลเป็นภาษาท้องถิ่น YOLOv2 ใช้การทำให้เป็นมาตรฐานแบบกลุ่ม, กล่องยึด, ตัวแยกประเภทที่มีความละเอียดสูง, คุณสมบัติที่มีความละเอียด, ตัวแยกประเภทหลายระดับ และ Darknet19 คุณลักษณะทั้งหมดเหล่านี้ทำให้ v2 ดีกว่า v1 ตัวแยกคุณลักษณะ Darknet19 ประกอบด้วยเลเยอร์แบบหมุนวน 19 เลเยอร์ เลเยอร์รวมสูงสุด 5 เลเยอร์ และเลเยอร์ซอฟต์แม็กซ์สำหรับการจำแนกประเภทของออบเจ็กต์ที่มีอยู่ในรูปภาพ

วิธี YOLOv3 เป็นวิธีการตรวจจับวัตถุที่เร็วและแม่นยำที่สุด มันจำแนกวัตถุได้อย่างแม่นยำโดยใช้ตัวแยกประเภทโลจิสติกเมื่อเทียบกับแนวทาง softmax ที่ใช้โดย YOLOv2 สิ่งนี้ทำให้เราสามารถทำการจำแนกประเภทหลายป้ายกำกับได้ YOLOv3 ยังใช้ Darknet53 เป็นตัวแยกคุณลักษณะซึ่งมี 53 ชั้น Convolutional มากกว่า Darknet19 ที่ใช้โดย v2 และทำให้มีความแม่นยำมากขึ้น นอกจากนี้ยังใช้ตัวตรวจจับวัตถุขนาดเล็กเพื่อตรวจจับวัตถุขนาดเล็กทั้งหมดที่อยู่ในภาพ ซึ่งไม่สามารถตรวจจับได้โดยใช้ v1.1

ต้องอ่าน : วิธีการทีละขั้นตอนเพื่อสร้างระบบ AI ของคุณเองวันนี้

สรุป

ฉันหวังว่าภาพรวมข้างต้นของ การตรวจจับวัตถุและการใช้งานโดยใช้การเรียนรู้เชิงลึก จะเป็นประโยชน์กับคุณ และทำให้คุณเข้าใจแนวคิดหลักของการตรวจจับวัตถุและวิธีนำไปใช้ในโลกแห่งความเป็นจริงโดยใช้วิธีการต่างๆ และใช้การเรียนรู้เชิงลึกโดยเฉพาะ

การตรวจจับวัตถุสามารถใช้ได้ในหลายพื้นที่เพื่อลดความพยายามของมนุษย์และเพิ่มประสิทธิภาพของกระบวนการในด้านต่างๆ การตรวจจับวัตถุเช่นเดียวกับการเรียนรู้อย่างลึกซึ้งเป็นพื้นที่ที่จะบานสะพรั่งในอนาคตและปรากฏตัวในหลายสาขา มีขอบเขตมากมายในสาขาเหล่านี้และยังมีโอกาสมากมายสำหรับการปรับปรุง

หลักสูตรที่เปิดสอนโดย upGrad

u pGrad ได้พัฒนาโปรแกรมการฝึกอบรมออนไลน์ที่ครอบคลุมเกี่ยวกับการเรียนรู้เชิงลึกและการเรียนรู้ของเครื่องโดยสอดคล้องกับความคาดหวังของอุตสาหกรรม โมดูลการฝึกอบรมและแนวทางการศึกษาของ upGrad ช่วยให้นักเรียนเรียนรู้ได้อย่างรวดเร็วและเตรียมพร้อมสำหรับงานที่ได้รับมอบหมาย

โปรแกรมการศึกษาหลักที่ upGrad เสนอให้เหมาะสำหรับระดับเริ่มต้นและระดับกลางอาชีพ

1. PG Diploma in Machine Learning และ AI : เหมาะสำหรับคนทำงานที่ต้องการเรียนรู้แมชชีนเลิร์นนิงตั้งแต่เริ่มต้นและเปลี่ยนบทบาทอาชีพเป็น Machine Learning Engineer, Data Scientist, AI Architect, Business Analyst หรือ Product Analyst

2. วิทยาศาสตรมหาบัณฑิตสาขาวิชาแมชชีนเลิร์นนิงและ AI เป็นโปรแกรม 18 เดือนที่ครอบคลุมซึ่งช่วยให้บุคคลทั่วไปได้รับปริญญาโทในสาขานี้ และได้รับความรู้ในสาขานี้ควบคู่ไปกับประสบการณ์ภาคปฏิบัติจริงในโครงการจำนวนมาก

3. การรับรองขั้นสูงในการเรียนรู้ของเครื่องและคลาวด์จาก IIT Madras: เป็นหลักสูตรขั้นสูงที่จัดทำโดย IIT Madras สำหรับสาขาการเรียนรู้ของเครื่องและเทคโนโลยีคลาวด์

4. การรับรอง PG ในการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก: หลักสูตรนี้เน้นที่การเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก ด้วยหลักสูตรนี้ นักศึกษาสามารถสมัครตำแหน่งเช่น Machine Learning Engineer และ Data Scientist

5. การรับรอง PG ในการเรียนรู้ของเครื่องและ NLP: เป็นหลักสูตรที่มีโครงสร้างดีสำหรับการเรียนรู้ของเครื่องและการประมวลผลภาษาธรรมชาติ โอกาสในการทำงานสำหรับผู้เรียนคือ Data Scientist และ Data Analyst

upGrad ได้พัฒนาหลักสูตรของโปรแกรมเหล่านี้สำหรับแมชชีนเลิร์นนิงและการเรียนรู้เชิงลึกโดยคำนึงถึงหลักการ แง่มุม และองค์ประกอบหลักของแมชชีนเลิร์นนิงและโอกาสในการทำงาน เพื่อพัฒนาทักษะตั้งแต่เริ่มต้น หลังจากจบโปรแกรมจาก upGrad แล้ว โอกาสในการทำงานของแมชชีนเลิร์นนิงจำนวนมหาศาลรอคุณอยู่ในอุตสาหกรรมที่หลากหลายและหลากหลายบทบาท

บรรทัดล่าง

นักเรียนสามารถใช้เส้นทางใดก็ได้ที่กล่าวถึงข้างต้นเพื่อสร้างอาชีพของตนเองใน การเรียนรู้ของ เครื่องและการเรียนรู้เชิงลึก การสนับสนุนตำแหน่งงานของ upGrad ช่วยให้นักเรียนเพิ่มโอกาสทางอาชีพผ่านโอกาสในการทำงานที่น่าตื่นเต้นบนพอร์ทัลงาน งานมหกรรมอาชีพและ Hackathons ตลอดจนการสนับสนุนตำแหน่ง อนาคตของการเรียนรู้เชิงลึกนั้นสดใสยิ่งขึ้นด้วยความต้องการที่เพิ่มขึ้นและแนวโน้มการเติบโต รวมถึงบุคคลจำนวนมากที่ต้องการประกอบอาชีพในสาขานี้ เข้าร่วมหลักสูตรเหล่านี้และอีกมากมายที่ upGrad นำเสนอเพื่อดำดิ่งสู่โอกาสในการทำงานของแมชชีนเลิร์นนิงที่รอคุณอยู่

อัลกอริทึมการเรียนรู้เชิงลึกที่ใช้ในการตรวจจับวัตถุมีอะไรบ้าง

การตรวจจับวัตถุเป็นงานคอมพิวเตอร์วิทัศน์ที่อ้างถึงกระบวนการค้นหาและระบุวัตถุหลายชิ้นในภาพ อัลกอริธึมการเรียนรู้เชิงลึก เช่น YOLO, SSD และ R-CNN ตรวจจับวัตถุบนภาพโดยใช้โครงข่ายประสาทเทียมเชิงลึก ซึ่งเป็นโครงข่ายประสาทเทียมที่ได้รับแรงบันดาลใจจากเยื่อหุ้มสมองส่วนการมองเห็น Deep Convolutional Neural Network เป็นคลาสอัลกอริธึมการเรียนรู้เชิงลึกที่ได้รับความนิยมมากที่สุดสำหรับการตรวจจับวัตถุ เครือข่าย Convolutional เชิงลึกได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่ เครือข่ายเหล่านี้สามารถตรวจจับวัตถุได้อย่างมีประสิทธิภาพและแม่นยำกว่าวิธีการก่อนหน้านี้มาก

อัลกอริทึมใดดีที่สุดสำหรับการตรวจจับวัตถุ

มีอัลกอริธึมมากมายสำหรับการตรวจจับวัตถุ ตั้งแต่กล่องธรรมดาไปจนถึง Deep Networks ที่ซับซ้อน มาตรฐานอุตสาหกรรมในขณะนี้คือ YOLO ซึ่งย่อมาจาก You Only Look Once YOLO เป็นโครงข่ายประสาทเทียมที่เรียบง่ายและใช้งานง่าย ซึ่งจัดประเภทวัตถุด้วยความแม่นยำที่ค่อนข้างสูง โดยสรุป โครงข่ายประสาทเทียมเป็นระบบของชั้นที่เชื่อมต่อถึงกัน ซึ่งจำลองวิธีที่เซลล์ประสาทในสมองสื่อสารกัน แต่ละชั้นมีชุดพารามิเตอร์ของตัวเอง ซึ่งปรับแต่งตามข้อมูลที่ให้มา ข้อมูลที่ออกมาจากแต่ละเลเยอร์จะถูกป้อนไปยังเลเยอร์ถัดไป ไปเรื่อยๆ จนกว่าเราจะได้รับการคาดคะเนขั้นสุดท้ายเป็นผลลัพธ์

อะไรคือปัญหาที่คุณเผชิญในการระบุวัตถุ?

มีปัญหามากมายที่เราเผชิญขณะระบุวัตถุ ปัญหาอย่างหนึ่งคือเมื่อวัตถุเป็นภาพของฉาก ในกรณีเช่นนี้ เราจำเป็นต้องทราบตำแหน่งของกล้องในอดีต และเราควรประมาณตำแหน่งของวัตถุที่กำลังเคลื่อนที่ เนื่องจากการเปลี่ยนแปลงตามเวลา เราอาจได้ภาพที่แตกต่างไปจากเดิมอย่างสิ้นเชิงและไม่สามารถจับคู่ได้ วิธีหนึ่งในการแก้ปัญหานี้คือการใช้การประมาณการเคลื่อนไหว อีกวิธีหนึ่งคือการคำนวณใหม่โดยมีส่วนต่างของเวลา