เทคนิคการแบ่งส่วนรูปภาพ [การใช้งานทีละขั้นตอน]
เผยแพร่แล้ว: 2021-02-19คุณเห็นอะไรเป็นอย่างแรกเมื่อคุณดูเซลฟี่ของคุณ? ใบหน้าของคุณใช่มั้ย? คุณสามารถระบุใบหน้าของคุณได้เนื่องจากสมองของคุณสามารถระบุใบหน้าของคุณและแยกมันออกจากส่วนที่เหลือของภาพ (พื้นหลัง)
ทีนี้ ถ้าคุณต้องการให้คอมพิวเตอร์จดจำใบหน้าของคุณในการถ่ายภาพเซลฟี่ คุณจะทำอย่างนั้นได้ไหม
ได้ โดยมีเงื่อนไขว่าสามารถแบ่งส่วนภาพได้
ในบทความของวันนี้ เราจะพูดถึงการแบ่งส่วนรูปภาพและประเด็นสำคัญทั้งหมด รวมถึงเทคนิคการแบ่งส่วนรูปภาพต่างๆ ที่คุณสามารถใช้ได้ อย่างไรก็ตาม มันยาวมาก เราจึงขอแนะนำให้บุ๊กมาร์กบทความนี้ไว้เพื่อที่คุณจะได้กลับมาอ่านในภายหลัง
ก่อนที่เราจะเริ่มต้นพูดถึงเทคนิคต่างๆ สำหรับการแบ่งส่วนในการประมวลผลภาพ เราควรทำความเข้าใจก่อนว่า "การแบ่งส่วนภาพคืออะไร"
สารบัญ
การแบ่งส่วนภาพคืออะไร?
การแบ่งส่วนรูปภาพเป็นสาขาหนึ่งของการประมวลผลภาพดิจิทัลที่เน้นการแบ่งพาร์ติชันรูปภาพออกเป็นส่วนต่างๆ ตามคุณสมบัติและคุณสมบัติ เป้าหมายหลักของการแบ่งส่วนรูปภาพคือการทำให้รูปภาพง่ายขึ้นเพื่อการวิเคราะห์ที่ง่ายขึ้น ในการแบ่งส่วนรูปภาพ คุณแบ่งรูปภาพออกเป็นส่วนต่างๆ ที่มีคุณสมบัติคล้ายกัน ส่วนที่คุณแบ่งรูปภาพเรียกว่า Image Objects
เป็นขั้นตอนแรกสำหรับการวิเคราะห์ภาพ หากไม่มีการแบ่งส่วนภาพ การใช้งานคอมพิวเตอร์วิทัศน์แทบจะเป็นไปไม่ได้เลยสำหรับคุณ
ด้วยการใช้เทคนิคการแบ่งส่วนรูปภาพ คุณสามารถแบ่งและจัดกลุ่มพิกเซลเฉพาะจากรูปภาพ กำหนดป้ายกำกับ และจัดประเภทพิกเซลเพิ่มเติมตามป้ายกำกับเหล่านี้ คุณสามารถวาดเส้น ระบุเส้นขอบ และแยกวัตถุเฉพาะ (ส่วนประกอบที่สำคัญ) ในรูปภาพออกจากวัตถุที่เหลือ (ส่วนประกอบที่ไม่สำคัญ)
ในแมชชีนเลิร์นนิง คุณสามารถใช้ป้ายกำกับที่คุณสร้างขึ้นจากการแบ่งส่วนรูปภาพสำหรับการฝึกอบรมภายใต้การดูแลและไม่ได้รับการดูแล ซึ่งจะช่วยให้คุณแก้ปัญหาทางธุรกิจได้มากมาย
ตัวอย่างจะดีกว่าเพื่อทำความเข้าใจว่าการแบ่งส่วนภาพทำงานอย่างไร
ดูภาพต่อไปนี้
แหล่งที่มา
ที่นี่คุณสามารถเห็นเก้าอี้วางอยู่กลางถนน โดยใช้การแบ่งส่วนภาพ คุณสามารถแยกเก้าอี้ออกจากภาพได้ นอกจากนี้ คุณสามารถใช้เทคนิคการแบ่งส่วนภาพจำนวนมากเพื่อให้ได้ผลลัพธ์ที่แตกต่างกัน ตัวอย่างเช่น หากคุณต้องการใช้รูปภาพที่มีเก้าอี้หลายตัว คุณจะต้องใช้การแบ่งส่วนความหมาย
ในทางกลับกัน หากคุณต้องการระบุเก้าอี้ทุกตัวที่อยู่ในรูปภาพ คุณจะต้องใช้การแบ่งส่วนอินสแตนซ์:
แหล่งที่มา
เหตุใดการแบ่งส่วนรูปภาพจึงจำเป็น
การแบ่งส่วนรูปภาพเป็นมุมมองขนาดใหญ่ของคอมพิวเตอร์วิทัศน์และมีแอปพลิเคชันมากมายในหลายอุตสาหกรรม พื้นที่ที่โดดเด่นบางส่วนที่ใช้การแบ่งส่วนภาพอย่างล้นเหลือคือ:
1. การจดจำใบหน้า
เทคโนโลยีการจดจำใบหน้าที่มีอยู่ใน iPhone ของคุณและระบบความปลอดภัยขั้นสูงใช้การแบ่งส่วนภาพเพื่อระบุใบหน้าของคุณ ต้องสามารถระบุคุณลักษณะเฉพาะของใบหน้าของคุณได้ เพื่อให้บุคคลที่ไม่ต้องการไม่สามารถเข้าถึงโทรศัพท์หรือระบบของคุณได้
2. การระบุหมายเลขทะเบียน
สัญญาณไฟจราจรและกล้องจำนวนมากใช้การระบุป้ายทะเบียนเพื่อเรียกเก็บเงินค่าปรับและช่วยในการค้นหา เทคโนโลยีการระบุป้ายทะเบียนช่วยให้ระบบการจราจรสามารถจดจำรถและรับข้อมูลที่เกี่ยวข้องกับการเป็นเจ้าของได้ ใช้การแบ่งส่วนภาพเพื่อแยกป้ายทะเบียนและข้อมูลออกจากวัตถุที่เหลือในการมองเห็น เทคโนโลยีนี้ทำให้กระบวนการปรับง่ายขึ้นอย่างมากสำหรับรัฐบาล
3. การค้นหาด้วยรูปภาพ
Google และเสิร์ชเอ็นจิ้นอื่น ๆ ที่เสนอสิ่งอำนวยความสะดวกในการค้นหาโดยใช้รูปภาพใช้เทคนิคการแบ่งส่วนรูปภาพเพื่อระบุวัตถุที่มีอยู่ในภาพของคุณและเปรียบเทียบสิ่งที่ค้นพบกับรูปภาพที่เกี่ยวข้องที่พวกเขาพบเพื่อให้ผลการค้นหาแก่คุณ
4. การถ่ายภาพทางการแพทย์
ในภาคการแพทย์ เราใช้การแบ่งส่วนภาพเพื่อค้นหาและระบุเซลล์มะเร็ง วัดปริมาตรของเนื้อเยื่อ เรียกใช้การจำลองการผ่าตัดเสมือนจริง และดำเนินการนำร่องภายในการผ่าตัด การแบ่งส่วนภาพมีการใช้งานมากมายในภาคการแพทย์ ช่วยในการระบุพื้นที่ที่ได้รับผลกระทบและวางแผนการรักษาสำหรับสิ่งเดียวกัน
นอกเหนือจากแอปพลิเคชันเหล่านี้ การแบ่งส่วนรูปภาพยังใช้ในอุตสาหกรรมการผลิต เกษตรกรรม ความปลอดภัย และภาคส่วนอื่นๆ อีกมากมาย เมื่อเทคโนโลยีการมองเห็นด้วยคอมพิวเตอร์ของเรามีความก้าวหน้ามากขึ้น การใช้เทคนิคการแบ่งส่วนภาพก็จะเพิ่มขึ้นตามไปด้วย
ตัวอย่างเช่น ผู้ผลิตบางรายเริ่มใช้เทคนิคการแบ่งส่วนภาพเพื่อค้นหาผลิตภัณฑ์ที่ผิดพลาด ในที่นี้ อัลกอริธึมจะจับเฉพาะส่วนประกอบที่จำเป็นจากภาพของออบเจ็กต์ และจัดประเภทว่าเป็นข้อบกพร่องหรือเหมาะสมที่สุด ระบบนี้ช่วยลดความเสี่ยงจากความผิดพลาดของมนุษย์และทำให้กระบวนการทดสอบมีประสิทธิภาพมากขึ้นสำหรับองค์กร
การนำไปใช้ทั่วไปของการจัดประเภทรูปภาพอยู่ใน Python, C, C++ และ Matlab
การแบ่งส่วนรูปภาพประเภทต่าง ๆ มีอะไรบ้าง
การแบ่งกลุ่มรูปภาพเป็นหัวข้อกว้างๆ และมีวิธีดำเนินการที่แตกต่างกันออกไป เราสามารถจำแนกการแบ่งส่วนภาพตามพารามิเตอร์ต่อไปนี้:
1. การจำแนกตามแนวทาง
ในความหมายพื้นฐานที่สุด การแบ่งส่วนภาพคือการระบุวัตถุ อัลกอริธึมไม่สามารถจำแนกส่วนประกอบต่าง ๆ ได้โดยไม่ต้องระบุวัตถุก่อน ตั้งแต่การใช้งานที่เรียบง่ายไปจนถึงซับซ้อน การแบ่งส่วนรูปภาพทั้งหมดทำงานตามการระบุวัตถุ
ดังนั้น เราสามารถจำแนกวิธีการแบ่งส่วนภาพตามวิธีที่อัลกอริธึมระบุวัตถุ ซึ่งหมายถึงการรวบรวมพิกเซลที่คล้ายกันและแยกพิกเซลออกจากพิกเซลที่ต่างกัน มีสองวิธีในการปฏิบัติงานนี้:
วิธีการตามภูมิภาค (การตรวจจับความคล้ายคลึงกัน)
ในวิธีนี้ คุณจะตรวจพบพิกเซลที่คล้ายกันในรูปภาพตามเกณฑ์ที่เลือก การรวมภูมิภาค การกระจายภูมิภาค และการขยายภูมิภาค การทำคลัสเตอร์และอัลกอริธึมการเรียนรู้ของเครื่องที่คล้ายคลึงกันใช้วิธีนี้เพื่อตรวจหาคุณลักษณะและแอตทริบิวต์ที่ไม่รู้จัก อัลกอริธึมการจำแนกตามแนวทางนี้ในการตรวจจับคุณสมบัติและแยกส่วนของภาพตามลักษณะเหล่านั้น
วิธีการตามขอบเขต (การตรวจจับความไม่ต่อเนื่อง)
วิธีการตามขอบเขตเป็นสิ่งที่ตรงกันข้ามกับแนวทางตามภูมิภาคสำหรับการระบุวัตถุ ต่างจากการตรวจจับตามภูมิภาคที่คุณพบพิกเซลที่มีคุณลักษณะคล้ายกัน คุณจะพบพิกเซลที่ไม่เหมือนกันในแนวทางที่อิงตามขอบเขต การตรวจจับจุด, การตรวจจับขอบ, การตรวจจับเส้น และอัลกอริธึมที่คล้ายกันทำตามวิธีนี้ โดยจะตรวจจับขอบของพิกเซลที่ต่างกันและแยกออกจากส่วนที่เหลือของภาพตามลำดับ
2. การจำแนกตามเทคนิค
ทั้งสองวิธีมีเทคนิคการแบ่งส่วนภาพที่แตกต่างกัน เราใช้เทคนิคเหล่านี้ตามประเภทของภาพที่เราต้องการประมวลผลและวิเคราะห์ และประเภทของผลลัพธ์ที่เราต้องการได้มาจากมัน
ตามพารามิเตอร์เหล่านี้ เราสามารถแบ่งอัลกอริธึมการแบ่งส่วนรูปภาพออกเป็นหมวดหมู่ต่อไปนี้:
เทคนิคโครงสร้าง
อัลกอริทึมเหล่านี้ต้องการให้คุณมีข้อมูลโครงสร้างของรูปภาพที่คุณใช้ ซึ่งรวมถึงพิกเซล การกระจาย ฮิสโทแกรม ความหนาแน่นของพิกเซล การกระจายสี และข้อมูลที่เกี่ยวข้องอื่นๆ จากนั้น คุณต้องมีข้อมูลโครงสร้างในพื้นที่ที่คุณต้องแยกจากรูปภาพ
คุณจะต้องใช้ข้อมูลนั้นเพื่อให้อัลกอริทึมของคุณสามารถระบุภูมิภาคได้ อัลกอริทึมที่เราใช้สำหรับการใช้งานเหล่านี้เป็นไปตามแนวทางตามภูมิภาค
เทคนิคการสุ่ม
อัลกอริทึมเหล่านี้ต้องการข้อมูลเกี่ยวกับค่าพิกเซลแบบไม่ต่อเนื่องของรูปภาพ แทนที่จะเป็นโครงสร้างของส่วนที่ต้องการของรูปภาพ ด้วยเหตุนี้ จึงไม่จำเป็นต้องใช้ข้อมูลจำนวนมากในการแบ่งส่วนภาพ และมีประโยชน์เมื่อคุณต้องทำงานกับภาพหลายภาพ อัลกอริธึมการเรียนรู้ของเครื่อง เช่น การจัดกลุ่ม K-mean และอัลกอริทึม ANN อยู่ในหมวดหมู่นี้
เทคนิคไฮบริด
อย่างที่คุณเดาได้จากชื่อ อัลกอริธึมเหล่านี้ใช้ทั้งวิธีการสุ่มและโครงสร้าง ซึ่งหมายความว่าพวกเขาใช้ข้อมูลโครงสร้างของภูมิภาคที่ต้องการและข้อมูลพิกเซลที่ไม่ต่อเนื่องของภาพทั้งหมดสำหรับการแบ่งส่วนภาพ
เทคนิคการแบ่งส่วนรูปภาพประเภทต่าง ๆ มีอะไรบ้าง
ตอนนี้เราทราบแนวทางและเทคนิคประเภทต่างๆ สำหรับการแบ่งส่วนรูปภาพแล้ว เรามาเริ่มอภิปรายเกี่ยวกับรายละเอียดเฉพาะกัน ต่อไปนี้เป็นประเภทหลักของเทคนิคการแบ่งส่วนภาพ:
- การแบ่งส่วนเกณฑ์
- การแบ่งส่วนตามขอบ
- การแบ่งกลุ่มตามภูมิภาค
- การแบ่งส่วนลุ่มน้ำ
- อัลกอริธึมการแบ่งกลุ่มตามคลัสเตอร์
- โครงข่ายประสาทเทียมสำหรับการแบ่งส่วน
มาอภิปรายเทคนิคเหล่านี้โดยละเอียดเพื่อทำความเข้าใจคุณสมบัติ ประโยชน์ และข้อจำกัดของเทคนิคเหล่านี้:
1. การแบ่งส่วนเกณฑ์
วิธีที่ง่ายที่สุดสำหรับการแบ่งส่วนในการประมวลผลภาพคือวิธีธรณีประตู แบ่งพิกเซลในภาพโดยเปรียบเทียบความเข้มของพิกเซลกับค่าที่ระบุ (เกณฑ์) มีประโยชน์เมื่อวัตถุที่ต้องการมีความเข้มสูงกว่าพื้นหลัง (ส่วนที่ไม่จำเป็น)
คุณสามารถพิจารณาค่าขีดจำกัด (T) ให้เป็นค่าคงที่ได้ แต่จะใช้ได้ก็ต่อเมื่อภาพมีสัญญาณรบกวนน้อยมาก (ข้อมูลที่ไม่จำเป็นและข้อมูลที่ไม่จำเป็น) คุณสามารถคงค่าเกณฑ์คงที่หรือไดนามิกตามความต้องการของคุณ
วิธีการกำหนดเกณฑ์จะแปลงภาพระดับสีเทาเป็นภาพไบนารีโดยแบ่งออกเป็นสองส่วน (ส่วนที่จำเป็นและไม่จำเป็น)
ตามค่าเกณฑ์ที่แตกต่างกัน เราสามารถจำแนกการแบ่งกลุ่มตามเกณฑ์ในหมวดหมู่ต่อไปนี้:
เกณฑ์ง่าย
ในวิธีนี้ คุณจะแทนที่พิกเซลของรูปภาพด้วยสีขาวหรือสีดำ ตอนนี้ หากความเข้มของพิกเซลที่ตำแหน่งใดตำแหน่งหนึ่งน้อยกว่าค่าเกณฑ์ คุณจะต้องแทนที่ด้วยสีดำ ในทางกลับกัน หากสูงกว่าเกณฑ์ ให้แทนที่ด้วยสีขาว นี่เป็นเกณฑ์ง่ายๆ และเหมาะอย่างยิ่งสำหรับผู้เริ่มต้นในการแบ่งส่วนภาพ
Binarization ของ Otsu
ในการกำหนดขีดจำกัดอย่างง่าย คุณเลือกค่าขีดจำกัดคงที่และใช้เพื่อดำเนินการแบ่งส่วนรูปภาพ อย่างไรก็ตาม คุณจะทราบได้อย่างไรว่าค่าที่คุณเลือกคือค่าที่เหมาะสม แม้ว่าวิธีที่ตรงไปตรงมาสำหรับสิ่งนี้คือการทดสอบค่าต่างๆ และเลือกหนึ่งค่า แต่ก็ไม่ใช่วิธีที่มีประสิทธิภาพมากที่สุด
ถ่ายภาพด้วยฮิสโตแกรมที่มีสองยอด อันหนึ่งสำหรับโฟร์กราวด์และอีกอันสำหรับแบ็คกราวด์ ด้วยการใช้ไบนารีออตสึ คุณสามารถใช้ค่าประมาณของจุดกึ่งกลางของพีคเหล่านั้นเป็นค่าเกณฑ์ของคุณได้
ใน Otsu binarization คุณคำนวณค่าเกณฑ์จากฮิสโตแกรมของรูปภาพหากรูปภาพเป็นแบบไบโมดอล
กระบวนการนี้ค่อนข้างเป็นที่นิยมในการสแกนเอกสาร จดจำรูปแบบ และลบสีที่ไม่จำเป็นออกจากไฟล์ อย่างไรก็ตาม มันมีข้อจำกัดมากมาย คุณไม่สามารถใช้สำหรับภาพที่ไม่ได้เป็นไบโมดอล (ภาพที่ฮิสโตแกรมมีหลายพีค)
เกณฑ์การปรับตัว
การมีขีดจำกัดค่าคงที่หนึ่งค่าอาจไม่ใช่แนวทางที่เหมาะสมกับทุกภาพ รูปภาพที่ต่างกันมีพื้นหลังและเงื่อนไขที่แตกต่างกันซึ่งส่งผลต่อคุณสมบัติ
ดังนั้น แทนที่จะใช้ค่าขีดจำกัดคงที่หนึ่งค่าสำหรับการแบ่งเซ็กเมนต์บนรูปภาพทั้งหมด คุณสามารถเก็บตัวแปรค่าขีดจำกัดไว้ได้ ในเทคนิคนี้ คุณจะเก็บค่าเกณฑ์ที่แตกต่างกันสำหรับส่วนต่างๆ ของรูปภาพ
วิธีนี้ใช้ได้ผลดีกับภาพที่มีสภาพแสงต่างกัน คุณจะต้องใช้อัลกอริทึมที่แบ่งรูปภาพออกเป็นส่วนเล็กๆ และคำนวณค่าเกณฑ์สำหรับแต่ละรายการ
2. การแบ่งส่วนตามขอบ
การแบ่งส่วนตามขอบเป็นหนึ่งในการใช้งานการแบ่งส่วนที่นิยมมากที่สุดในการประมวลผลภาพ โดยเน้นที่การระบุขอบของวัตถุต่างๆ ในภาพ นี่เป็นขั้นตอนสำคัญเพราะช่วยให้คุณค้นหาคุณสมบัติของวัตถุต่างๆ ที่อยู่ในภาพได้ เนื่องจากขอบมีข้อมูลมากมายที่คุณสามารถใช้ได้
การตรวจจับขอบเป็นที่นิยมกันอย่างแพร่หลาย เนื่องจากช่วยคุณในการลบข้อมูลที่ไม่ต้องการและไม่จำเป็นออกจากรูปภาพ มันลดขนาดของภาพลงอย่างมาก ทำให้วิเคราะห์ขนาดเดียวกันได้ง่ายขึ้น
อัลกอริธึมที่ใช้ในการแบ่งส่วนตามขอบจะระบุขอบในรูปภาพตามความแตกต่างของพื้นผิว คอนทราสต์ ระดับสีเทา สี ความอิ่มตัว และคุณสมบัติอื่นๆ คุณสามารถปรับปรุงคุณภาพของผลลัพธ์ได้โดยเชื่อมต่อขอบทั้งหมดเข้ากับสายโซ่ขอบที่ตรงกับเส้นขอบของรูปภาพได้แม่นยำยิ่งขึ้น
มีวิธีการแบ่งส่วนตามขอบหลายวิธี เราสามารถแบ่งออกเป็นสองประเภท:
การตรวจจับขอบตามการค้นหา
วิธีการตรวจจับขอบตามการค้นหาจะเน้นที่การคำนวณการวัดความแข็งแรงของขอบ และมองหาทิศทางสูงสุดของขนาดการไล่ระดับสีผ่านการคำนวณโดยประมาณของการวางแนวของขอบเฉพาะที่
การตรวจจับขอบแบบ Zero-Crossing
วิธีการตรวจหาขอบแบบ Zero-crossing จะมองหาจุดตัดในนิพจน์อนุพันธ์ที่ดึงมาจากภาพเพื่อหาขอบ
โดยปกติ คุณจะต้องประมวลผลภาพล่วงหน้าเพื่อขจัดสัญญาณรบกวนที่ไม่ต้องการและทำให้ตรวจจับขอบได้ง่ายขึ้น Canny, Prewitt, Deriche และ Roberts cross เป็นผู้ให้บริการการตรวจจับขอบที่ได้รับความนิยมมากที่สุด ช่วยให้ตรวจจับความไม่ต่อเนื่องและค้นหาขอบได้ง่ายขึ้น
ในการตรวจจับตามขอบ เป้าหมายของคุณคือการได้รับการแบ่งส่วนขั้นต่ำบางส่วน ซึ่งคุณสามารถจัดกลุ่มขอบในพื้นที่ทั้งหมดเป็นภาพไบนารี ในภาพไบนารีที่สร้างขึ้นใหม่ ห่วงโซ่ขอบต้องตรงกับองค์ประกอบที่มีอยู่ของรูปภาพที่เป็นปัญหา
3. การแบ่งส่วนตามภูมิภาค
อัลกอริธึมการแบ่งส่วนตามภูมิภาคจะแบ่งรูปภาพออกเป็นส่วนๆ ที่มีคุณสมบัติคล้ายคลึงกัน บริเวณเหล่านี้เป็นเพียงกลุ่มของพิกเซล และอัลกอริธึมจะค้นหากลุ่มเหล่านี้โดยค้นหาจุดตั้งต้นซึ่งอาจเป็นส่วนเล็กๆ หรือส่วนใหญ่ของภาพที่นำเข้าก่อน
หลังจากพบจุดตั้งต้นแล้ว อัลกอริธึมการแบ่งส่วนตามภูมิภาคจะเพิ่มพิกเซลให้มากขึ้นหรือย่อขนาดเพื่อให้สามารถรวมเข้ากับจุดเมล็ดอื่นๆ
จากสองวิธีนี้ เราสามารถจำแนกการแบ่งส่วนตามภูมิภาคเป็นหมวดหมู่ต่อไปนี้:
ภูมิภาคที่กำลังเติบโต
ในวิธีนี้ คุณจะเริ่มด้วยชุดพิกเซลเล็กๆ แล้วเริ่มการรวมพิกเซลซ้ำๆ กันมากขึ้นตามเงื่อนไขความคล้ายคลึงกันโดยเฉพาะ อัลกอริธึมการขยายขอบเขตจะเลือกพิกเซลเมล็ดพันธุ์ตามอำเภอใจในภาพ เปรียบเทียบกับพิกเซลข้างเคียง และเริ่มเพิ่มพื้นที่โดยค้นหาการจับคู่กับจุดเมล็ด
เมื่อภูมิภาคใดไม่สามารถเติบโตต่อไปได้ อัลกอริธึมจะเลือก seed pixel อื่นที่อาจไม่ได้อยู่ในขอบเขตที่มีอยู่ ภูมิภาคหนึ่งอาจมีแอตทริบิวต์มากเกินไป ทำให้ใช้พื้นที่ส่วนใหญ่ในรูปภาพ เพื่อหลีกเลี่ยงข้อผิดพลาดดังกล่าว อัลกอริธึมการขยายภูมิภาคจะขยายหลายภูมิภาคพร้อมกัน
คุณควรใช้อัลกอริธึมการขยายขอบเขตสำหรับรูปภาพที่มีสัญญาณรบกวนมาก เนื่องจากสัญญาณรบกวนจะทำให้หาขอบหรือใช้อัลกอริทึมการกำหนดเกณฑ์ได้ยาก
การแยกและการรวมภูมิภาค
ตามชื่อที่แนะนำ การแยกขอบเขตและการรวมวิธีการที่เน้นไว้จะดำเนินการสองอย่างร่วมกัน นั่นคือ การแยกและการรวมส่วนของภาพ
ขั้นแรกให้รูปภาพออกเป็นส่วนๆ ที่มีคุณลักษณะคล้ายคลึงกัน และรวมส่วนที่อยู่ติดกันซึ่งคล้ายกันเข้าด้วยกัน ในการแบ่งเขต อัลกอริธึมจะพิจารณาทั้งภาพในขณะที่การขยายตัวของภูมิภาค อัลกอริธึมจะเน้นที่จุดใดจุดหนึ่ง
วิธีการแยกและรวมภูมิภาคเป็นไปตามวิธีการแบ่งและยึดครอง มันแบ่งภาพออกเป็นส่วนต่าง ๆ แล้วจับคู่ตามเงื่อนไขที่กำหนดไว้ล่วงหน้า อีกชื่อหนึ่งสำหรับอัลกอริธึมที่ทำงานนี้คืออัลกอริธึมการแยกส่วน
4. การแบ่งส่วนลุ่มน้ำ
ในการประมวลผลภาพ ลุ่มน้ำคือการเปลี่ยนแปลงของภาพระดับสีเทา หมายถึงลุ่มน้ำทางธรณีวิทยาหรือการแบ่งระบายน้ำ อัลกอริธึมลุ่มน้ำจะจัดการกับภาพราวกับว่ามันเป็นแผนที่ภูมิประเทศ โดยพิจารณาความสว่างของพิกเซลเป็นความสูง และค้นหาเส้นที่วิ่งไปตามสันเขาเหล่านั้น
ลุ่มน้ำมีคำจำกัดความทางเทคนิคมากมายและมีการใช้งานหลายอย่าง นอกเหนือจากการระบุสันเขาของพิกเซลแล้ว ยังเน้นที่การกำหนดแอ่ง (ตรงข้ามกับสันเขา) และเติมแอ่งด้วยเครื่องหมายจนกว่าจะถึงแนวต้นน้ำที่ไหลผ่านสันเขา
เนื่องจากแอ่งมีเครื่องหมายจำนวนมากในขณะที่สันไม่มี ภาพจะถูกแบ่งออกเป็นหลายส่วนตาม 'ความสูง' ของทุกๆ พิกเซล
วิธีลุ่มน้ำแปลงทุกภาพเป็นแผนที่ภูมิประเทศ วิธีการแบ่งส่วนลุ่มน้ำจะสะท้อนภูมิประเทศผ่านค่าสีเทาของพิกเซลของภาพ
ตอนนี้ ภูมิประเทศที่มีหุบเขาและสันเขามีลักษณะสามมิติอย่างแน่นอน ลุ่มน้ำจะพิจารณาการแสดงภาพสามมิติและสร้างพื้นที่ตามนั้น ซึ่งเรียกว่า “แอ่งกักเก็บน้ำ”
มีการใช้งานมากมายในภาคการแพทย์ เช่น MRI ภาพทางการแพทย์ ฯลฯ การแบ่งส่วนลุ่มน้ำเป็นส่วนสำคัญของการแบ่งส่วนภาพทางการแพทย์ ดังนั้นหากคุณต้องการเข้าสู่ภาคส่วนนั้น คุณควรเน้นการเรียนรู้วิธีนี้สำหรับการแบ่งส่วนในการประมวลผลภาพโดยเฉพาะ
5. อัลกอริธึมการแบ่งกลุ่มตามคลัสเตอร์
หากคุณเคยศึกษาอัลกอริธึมการจัดหมวดหมู่ คุณต้องเคยเจออัลกอริธึมการจัดกลุ่ม เป็นอัลกอริธึมที่ไม่มีการควบคุมและช่วยคุณในการค้นหาข้อมูลที่ซ่อนอยู่ในภาพที่อาจไม่สามารถมองเห็นได้ด้วยการมองเห็นปกติ ข้อมูลที่ซ่อนอยู่นี้รวมถึงข้อมูลต่างๆ เช่น คลัสเตอร์ โครงสร้าง การแรเงา ฯลฯ
ตามชื่อที่แนะนำ อัลกอริธึมการจัดกลุ่มจะแบ่งภาพออกเป็นกลุ่ม (กลุ่มที่ไม่ปะติดปะต่อกัน) ของพิกเซลที่มีคุณสมบัติคล้ายกัน มันจะแยกองค์ประกอบข้อมูลออกเป็นกลุ่มโดยที่องค์ประกอบในคลัสเตอร์มีความคล้ายคลึงกันมากกว่าเมื่อเปรียบเทียบกับองค์ประกอบที่มีอยู่ในคลัสเตอร์อื่น
อัลกอริธึมการจัดกลุ่มที่ได้รับความนิยมบางส่วน ได้แก่ fuzzy c-mean (FCM), k-mean และอัลกอริธึม k-mean ที่ปรับปรุงแล้ว ในการแบ่งกลุ่มรูปภาพ คุณจะใช้อัลกอริทึมการจัดกลุ่มแบบ k-mean เป็นส่วนใหญ่ เนื่องจากเป็นวิธีที่ค่อนข้างง่ายและมีประสิทธิภาพ ในทางกลับกัน อัลกอริธึม FCM วางพิกเซลในคลาสต่างๆ ตามระดับความเป็นสมาชิกที่แตกต่างกัน
อัลกอริทึมการจัดกลุ่มที่สำคัญที่สุดสำหรับการแบ่งส่วนในการประมวลผลภาพ ได้แก่
K-หมายถึงการจัดกลุ่ม
K-mean เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่ไม่มีการควบคุมอย่างง่าย มันจำแนกรูปภาพผ่านจำนวนเฉพาะของกลุ่ม เริ่มต้นกระบวนการโดยแบ่งพื้นที่ภาพออกเป็น k พิกเซล ซึ่งเป็นตัวแทนของเซนทรอยด์กลุ่ม k
จากนั้นจึงกำหนดแต่ละวัตถุให้กับกลุ่มตามระยะห่างระหว่างวัตถุกับเซนทรอยด์ เมื่ออัลกอริทึมกำหนดพิกเซลทั้งหมดให้กับคลัสเตอร์ทั้งหมดแล้ว ก็สามารถย้ายและกำหนดเซนทรอยด์ใหม่ได้
Fuzzy C หมายถึง
ด้วยวิธีการจัดกลุ่ม c-mean แบบคลุมเครือ พิกเซลในรูปภาพสามารถจัดกลุ่มเป็นกลุ่มได้หลายคลัสเตอร์ ซึ่งหมายความว่าพิกเซลสามารถอยู่ในคลัสเตอร์ได้มากกว่าหนึ่งคลัสเตอร์ อย่างไรก็ตาม ทุกพิกเซลจะมีความคล้ายคลึงกันในระดับต่างๆ กับทุกคลัสเตอร์ อัลกอริธึม c-mean แบบคลุมเครือมีฟังก์ชันการปรับให้เหมาะสมซึ่งส่งผลต่อความแม่นยำของผลลัพธ์
อัลกอริทึมการจัดกลุ่มสามารถดูแลความต้องการส่วนใหญ่ในการแบ่งส่วนรูปภาพของคุณ หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับสิ่งเหล่านี้ โปรดดูคู่มือนี้ ว่าคลัสเตอร์คืออะไร และอัลกอริธึมการจัดกลุ่มประเภท ต่างๆ
6. โครงข่ายประสาทเทียมสำหรับการแบ่งส่วน
บางทีคุณอาจไม่ต้องการทำทุกอย่างด้วยตัวเอง บางทีคุณอาจต้องการให้ AI ทำงานส่วนใหญ่ ซึ่งคุณสามารถทำได้ด้วยโครงข่ายประสาทเทียมสำหรับการแบ่งส่วนภาพ
คุณต้องใช้ AI ในการวิเคราะห์ภาพและระบุส่วนประกอบต่างๆ ของภาพ เช่น ใบหน้า วัตถุ ข้อความ ฯลฯ Convolutional Neural Networks ค่อนข้างเป็นที่นิยมสำหรับการแบ่งส่วนภาพ เนื่องจากสามารถระบุและประมวลผลข้อมูลภาพได้อย่างรวดเร็วและมีประสิทธิภาพ
ผู้เชี่ยวชาญที่ Facebook AI Research (FAIR) ได้สร้างสถาปัตยกรรมการเรียนรู้เชิงลึกที่เรียกว่า Mask R-CNN ซึ่งสามารถสร้างมาสก์ที่ชาญฉลาดสำหรับวัตถุทุกชิ้นที่อยู่ในภาพ เป็นเวอร์ชันปรับปรุงของสถาปัตยกรรมการตรวจจับวัตถุ R-CNN ที่เร็วขึ้น Faster R-CNN ใช้ข้อมูลสองส่วนสำหรับวัตถุทุกชิ้นในภาพ พิกัดของกรอบล้อมรอบและคลาสของวัตถุ ด้วย Mask R-CNN คุณจะได้รับส่วนเพิ่มเติมในกระบวนการนี้ มาสก์ R-CNN ส่งออกมาสก์วัตถุหลังจากดำเนินการแบ่งส่วน
ในขั้นตอนนี้ คุณต้องส่งอิมเมจอินพุตไปที่ ConvNet ก่อน ซึ่งจะสร้างแมปฟีเจอร์สำหรับอิมเมจ จากนั้นระบบจะนำเครือข่ายข้อเสนอภูมิภาค (RPN) ไปใช้กับแผนที่คุณสมบัติและสร้างข้อเสนอของวัตถุด้วยคะแนนความเป็นกลาง
หลังจากนั้น เลเยอร์การรวม Roi จะถูกนำไปใช้กับข้อเสนอเพื่อย่อให้เหลือขนาดเดียว ในขั้นตอนสุดท้าย ระบบจะส่งข้อเสนอไปยังเลเยอร์ที่เชื่อมต่อสำหรับการจัดประเภท และสร้างเอาต์พุตด้วยกรอบล้อมรอบสำหรับทุกอ็อบเจ็กต์
เรียนรู้เพิ่มเติมเกี่ยวกับการแบ่งส่วนในการประมวลผลภาพ
การแบ่งส่วนในการประมวลผลภาพเป็นหัวข้อกว้างๆ ที่มีส่วนย่อยมากมาย จากเทคนิคการแบ่งส่วนรูปภาพต่างๆ ไปจนถึงอัลกอริธึม มีสิ่งต่างๆ มากมายให้เรียนรู้ในสาขาวิชานี้ ด้วยพื้นที่ที่ต้องปกปิดมากมาย คุณจึงหลงทางและสับสนได้ง่าย
นั่นเป็นเหตุผลที่เราแนะนำให้เรียนหลักสูตรแมชชีนเลิร์นนิงและ AI เพื่อเอาชนะปัญหาเหล่านี้ หลักสูตรในหัวข้อนี้จะสอนคุณเกี่ยวกับพื้นฐานตลอดจนแนวคิดขั้นสูงของการแบ่งส่วนรูปภาพและภาคที่เกี่ยวข้อง คุณจะได้เรียนรู้เกี่ยวกับแนวคิดการเรียนรู้ของเครื่องต่างๆ ที่เกี่ยวข้องกับการประมวลผลภาพ การแบ่งส่วนภาพ และการมองเห็นด้วยคอมพิวเตอร์
หลักสูตร AI & ML จะทำให้คุณเรียนรู้แนวคิดที่เกี่ยวข้องทั้งหมดได้ง่ายขึ้น เพราะคุณจะได้รับหลักสูตรที่มีโครงสร้างสำหรับศึกษา ที่ upGrad เรามีหลักสูตรหลายหลักสูตรในการเรียนรู้ของเครื่อง
ต่อไปนี้เป็นหลักสูตรหลักที่เรานำเสนอในการเรียนรู้ของเครื่องและ AI:
- วิทยาศาสตรมหาบัณฑิตสาขาการเรียนรู้ของเครื่อง & AI
- หลักสูตร Executive Post-Graduate ด้านการเรียนรู้ของเครื่องและปัญญาประดิษฐ์
- วิทยาศาสตรมหาบัณฑิตสาขาการเรียนรู้ของเครื่องและปัญญาประดิษฐ์
- การรับรอง PG ในการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก
- การรับรอง PG ในการเรียนรู้ของเครื่องและ NLP
หลักสูตรทั้งหมดเหล่านี้ช่วยให้คุณเรียนรู้จากผู้เชี่ยวชาญในอุตสาหกรรมที่แก้ไขข้อสงสัยและตอบคำถามของคุณในเซสชันสด คุณจะเรียนออนไลน์ ซึ่งหมายความว่าคุณจะไม่ต้องไปไหนหรือรบกวนงานของคุณในขณะที่เรียนหลักสูตรเหล่านี้
หลักสูตรเหล่านี้ให้คุณเข้าถึงมุมความสำเร็จของนักเรียนของ upGrad ซึ่งมีข้อดีเพิ่มเติมมากมาย รวมถึงการตอบรับประวัติส่วนตัว การเตรียมการสัมภาษณ์ และการให้คำปรึกษาด้านอาชีพ เมื่อจบหลักสูตร คุณจะเป็นมืออาชีพด้าน AI/ML ที่พร้อมสำหรับงาน พร้อมทักษะทั้งอ่อนและแข็งที่จำเป็นทั้งหมด
บทสรุป
การแบ่งส่วนรูปภาพเป็นหัวข้อที่ซับซ้อนและก้าวหน้าอย่างแน่นอน เทคนิคการแบ่งส่วนรูปภาพต่างๆ ทั้งหมดที่เราพูดถึงในบทความนี้มีข้อดีและข้อจำกัดเฉพาะ เมื่อทำความคุ้นเคยกับพวกเขา คุณจะเข้าใจว่าคุณควรใช้อันใดอันหนึ่งและที่ใดที่คุณควรหลีกเลี่ยงการใช้อันอื่น
ด้วยทักษะที่เรียนรู้ทั้งหมด คุณสามารถใช้งานบนแพลตฟอร์มการแข่งขันอื่นๆ รวมทั้งทดสอบทักษะของคุณและลงมือปฏิบัติจริงได้มากขึ้น
การใช้งานที่สำคัญของการแบ่งส่วนภาพมีอะไรบ้าง?
การแบ่งกลุ่มรูปภาพเป็นส่วนสำคัญของวิสัยทัศน์คอมพิวเตอร์ และใช้ในธุรกิจต่างๆ มากมาย การแบ่งส่วนรูปภาพใช้เทคโนโลยีการจดจำใบหน้าในโทรศัพท์และระบบความปลอดภัยขั้นสูงเพื่อจดจำใบหน้าของคุณ ระบบจราจรสามารถจดจำรถและรับข้อมูลเกี่ยวกับเจ้าของโดยใช้เทคโนโลยีการระบุป้ายทะเบียนรถ Google และเครื่องมือค้นหาที่ใช้รูปภาพใช้อัลกอริธึมการแบ่งส่วนรูปภาพเพื่อจดจำรายการในรูปภาพของคุณและเปรียบเทียบข้อสรุปกับรูปภาพที่เกี่ยวข้องที่พวกเขาค้นพบเพื่อให้ผลการค้นหาแก่คุณ เราใช้การแบ่งส่วนภาพในด้านการแพทย์เพื่อค้นหาและระบุเซลล์มะเร็ง หาปริมาณเนื้อเยื่อ ดำเนินการจำลองการผ่าตัดเสมือนจริง และนำทางระหว่างการผ่าตัด
การแบ่งส่วนภาพมีกี่ประเภท?
วิธีการธรณีประตูเป็นวิธีการแบ่งส่วนการประมวลผลภาพขั้นพื้นฐานที่สุด โดยแยกพิกเซลในรูปภาพโดยเปรียบเทียบความเข้มของแต่ละพิกเซลกับค่าที่กำหนดไว้ล่วงหน้า (เกณฑ์) กล่าวง่ายๆ ก็คือ การจำกัดขอบเขตเป็นกระบวนการแทนที่พิกเซลในภาพด้วยสีดำหรือสีขาว คุณสามารถรักษาเกณฑ์ที่ระบุให้ยืดหยุ่นได้แทนที่จะใช้ค่าคงที่เพียงค่าเดียวสำหรับการแบ่งส่วนทั่วทั้งรูปภาพ Adaptive thresholding เป็นชื่อของเมธอดนี้ การแบ่งส่วนการประมวลผลภาพประเภทหนึ่งที่พบบ่อยที่สุดคือการแบ่งส่วนตามขอบ เน้นการจดจำขอบของสิ่งต่าง ๆ ในภาพ
อัลกอริธึมการแบ่งกลุ่มตามคลัสเตอร์คืออะไร
คุณอาจเคยใช้อัลกอริธึมการจัดกลุ่มหากคุณได้ศึกษาอัลกอริธึมการจัดหมวดหมู่แล้ว เป็นอัลกอริธึมที่ไม่มีการควบคุมซึ่งช่วยคุณในการค้นหาข้อมูลที่ซ่อนอยู่ในภาพที่มองไม่เห็นด้วยตาเปล่า คลัสเตอร์ โครงสร้าง การแรเงา และข้อมูลอื่นๆ เป็นข้อมูลที่ซ่อนอยู่ อัลกอริธึมการจัดกลุ่มแยกรูปภาพออกเป็นกลุ่ม (กลุ่มที่ไม่ปะติดปะต่อกัน) ของพิกเซลที่มีคุณสมบัติเทียบเท่ากัน ตามที่ระบุในชื่อ มันจะแบ่งรายการข้อมูลออกเป็นกลุ่ม โดยส่วนประกอบในคลัสเตอร์หนึ่งจะคล้ายกับองค์ประกอบในกลุ่มอื่นมากกว่า