One-Shot Learning กับ Siamese Network [เพื่อการจดจำใบหน้า]

เผยแพร่แล้ว: 2021-02-08

บทความต่อไปนี้พูดถึงความจำเป็นในการใช้การเรียนรู้แบบครั้งเดียวพร้อมกับรูปแบบและข้อเสีย

ในการเริ่มต้น ในการฝึกโมเดลการเรียนรู้เชิงลึก เราจำเป็นต้องมีข้อมูลจำนวนมากเพื่อให้โมเดลของเราดำเนินการคาดการณ์หรืองานการจัดหมวดหมู่ที่ต้องการได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น การตรวจจับสุนัขจากภาพจะทำให้คุณต้องฝึกโมเดลโครงข่ายประสาทเทียมบนภาพสุนัขและไม่ใช่สุนัขหลายแสนภาพเพื่อให้แยกแยะระหว่างกันได้อย่างถูกต้อง อย่างไรก็ตาม โมเดลโครงข่ายประสาทเทียมนี้จะไม่สามารถทำงานได้หากได้รับการฝึกอบรมเกี่ยวกับข้อมูลการฝึกอบรมอย่างน้อยหนึ่งรายการ

เนื่องจากขาดข้อมูล การดึงคุณลักษณะที่เกี่ยวข้องในชั้นต่างๆ จึงกลายเป็นเรื่องยาก โมเดลจะไม่สามารถสรุปได้ดีระหว่างคลาสต่างๆ ซึ่งส่งผลต่อประสิทธิภาพโดยรวม

สำหรับภาพประกอบ ให้พิจารณาตัวอย่างการจดจำใบหน้าที่สนามบิน ในเรื่องนี้ เราไม่มีเสรีภาพในการฝึกโมเดลของเราซึ่งมีรูปภาพนับแสนภาพของแต่ละคนซึ่งมีการแสดงออกที่แตกต่างกัน แสงพื้นหลัง และอื่นๆ ด้วยจำนวนผู้โดยสารที่มาถึงทุกวันจึงเป็นไปไม่ได้! นอกจากนี้ การจัดเก็บข้อมูลจำนวนมหาศาลดังกล่าวยังทำให้ต้นทุนเพิ่มขึ้นอีกด้วย

เพื่อแก้ไขปัญหาข้างต้น เราใช้เทคนิคที่งานการจำแนกหรือการจัดหมวดหมู่สามารถทำได้โดยใช้ตัวอย่างหนึ่งหรือสองสามตัวอย่างเพื่อจำแนกตัวอย่างใหม่จำนวนมาก เทคนิคนี้เรียกว่าการเรียนรู้แบบนัดเดียว

ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีการเรียนรู้แบบนัดเดียวได้ถูกนำมาใช้อย่างกว้างขวางในการจดจำใบหน้าและการตรวจหนังสือเดินทาง แนวคิดที่ใช้คือ - โมเดลใช้อินพุต 2 ภาพ; หนึ่งคือภาพจากหนังสือเดินทางและอีกอันเป็นภาพของบุคคลที่กำลังมองกล้อง จากนั้นโมเดลจะแสดงผลค่าที่มีความคล้ายคลึงกันระหว่าง 2 ภาพ หากค่าของเอาต์พุตต่ำ แสดงว่าทั้งสองภาพจะคล้ายกัน อย่างอื่นจะต่างกัน

สารบัญ

เครือข่ายสยาม

สถาปัตยกรรมที่ใช้สำหรับการเรียนรู้แบบ One-shot เรียกว่า Siamese Network สถาปัตยกรรมนี้ประกอบด้วยโครงข่ายประสาทเทียมแบบขนานสองโครงข่ายโดยแต่ละโครงข่ายรับอินพุตต่างกัน ผลลัพธ์ของโมเดลคือค่าหรือดัชนีความคล้ายคลึงกันซึ่งระบุว่ารูปภาพอินพุตทั้งสองเหมือนกันหรือไม่ ค่าที่ต่ำกว่าเกณฑ์ที่กำหนดไว้ล่วงหน้าจะสอดคล้องกับความคล้ายคลึงกันสูงระหว่างรูปภาพทั้งสองและในทางกลับกันของวีซ่า

เมื่อรูปภาพถูกส่งผ่านชุดของเลเยอร์ Convolutional เลเยอร์รวมสูงสุด และเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ สิ่งที่เราบรรลุคือเวกเตอร์ที่เข้ารหัสคุณสมบัติของรูปภาพ เนื่องจากเราป้อนภาพสองภาพ เวกเตอร์สองภาพที่ครอบคลุมคุณลักษณะของภาพที่ป้อนจะถูกสร้างขึ้น ค่าที่เรากำลังพูดถึงคือระยะห่างระหว่างเวกเตอร์คุณลักษณะทั้งสองซึ่งสามารถคำนวณได้โดยการหาบรรทัดฐานของความแตกต่างระหว่างเวกเตอร์ทั้งสอง

ฟังก์ชันการสูญเสีย Triplet

ตามชื่อที่แนะนำ ในการฝึกโมเดล เราต้องการภาพสามภาพ - ภาพจุดยึด (A) ภาพหนึ่ง ภาพบวก (P) และภาพเชิงลบ (N) หนึ่งภาพ เนื่องจากโมเดลสามารถจัดเตรียมอินพุตได้ 2 รายการ จึงให้ภาพสมอที่มีภาพบวกหรือลบ ตัวแบบเรียนรู้พารามิเตอร์ในลักษณะที่ว่าระยะห่างระหว่างภาพจุดยึดกับภาพบวกจะต่ำ ขณะที่ระยะห่างระหว่างภาพจุดยึดกับภาพเนกาทีฟจะสูง

ฟังก์ชันการสูญเสียเชิงสร้างสรรค์จะลงโทษโมเดลหากระยะห่างระหว่าง A และ N ต่ำหรือ A และ P สูง ในขณะที่สนับสนุนโมเดลหรือเรียนรู้คุณลักษณะเมื่อระยะห่างระหว่าง A และ N สูงและ A และ P ต่ำ

เพื่อให้เข้าใจมากขึ้นเกี่ยวกับสมอ ภาพบวกและลบ ลองพิจารณาตัวอย่างก่อนหน้านี้ที่สนามบิน ในกรณีดังกล่าว ภาพสมอเรือจะเป็นภาพของคุณเมื่อคุณมองกล้อง ภาพบวกจะเป็นภาพบนหนังสือเดินทางของคุณ และภาพเชิงลบจะเป็นภาพสุ่มของผู้โดยสารที่อยู่ที่สนามบิน

เมื่อใดก็ตามที่เราฝึกอบรมเครือข่าย Siaseme เราจะจัดเตรียมรูปภาพ APN ทรีโอ (จุดยึด บวก และลบ) ให้กับเครือข่าย การสร้างชุดข้อมูลนี้ง่ายกว่ามากและต้องใช้รูปภาพในการฝึกน้อยลง

ข้อจำกัดของการเรียนรู้แบบนัดเดียว

การเรียนรู้แบบครั้งเดียวยังคงเป็นอัลกอริธึมแมชชีนเลิร์นนิงที่เติบโตเต็มที่และมีข้อจำกัดบางประการ ตัวอย่างเช่น โมเดลจะไม่ทำงานได้ดีหากภาพที่ป้อนมีการดัดแปลงบางอย่าง เช่น คนสวมหมวก แว่นกันแดด และอื่นๆ นอกจากนี้ โมเดลที่ได้รับการฝึกฝนสำหรับแอปพลิเคชันหนึ่งไม่สามารถทำให้เป็นแบบทั่วไปสำหรับแอปพลิเคชันอื่นได้

ต่อไปเรามาดูรูปแบบการเรียนรู้แบบ One-shot สองสามรูปแบบซึ่งประกอบไปด้วยการเรียนรู้แบบ Zero-shot และการเรียนรู้แบบไม่กี่ช็อต

การเรียนรู้แบบไม่มีช็อต

การเรียนรู้แบบ Zero-shot คือความสามารถของโมเดลในการระบุข้อมูลฉลากใหม่หรือที่มองไม่เห็น ในขณะที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เห็นและรู้คุณลักษณะทางความหมายของข้อมูลใหม่หรือข้อมูลที่มองไม่เห็น ตัวอย่างเช่น เด็กที่เห็นแมวสามารถระบุได้ด้วยลักษณะเฉพาะของมัน ยิ่งไปกว่านั้น หากเด็กรู้ว่าสุนัขเห่าและมีลักษณะที่แข็งกว่าแมว เด็กก็จะไม่มีปัญหาในการจดจำสุนัข

โดยสรุป เราสามารถพูดได้ว่าการรู้จำ ZSL ทำงานในลักษณะที่คำนึงถึงชุดการฝึกที่มีป้ายกำกับของคลาสที่มองเห็น ควบคู่ไปกับความรู้ที่ว่าแต่ละคลาสที่มองไม่เห็นนั้นสัมพันธ์กับคลาสที่เห็นอย่างไร

การเรียนรู้แบบ N-shot

ตามชื่อที่แนะนำ ในการเรียนรู้ N shot เราจะมีข้อมูลป้ายกำกับของแต่ละชั้นเรียนพร้อมสำหรับการฝึกอบรม โมเดลได้รับการฝึกอบรมในคลาส K ซึ่งแต่ละคลาสมีข้อมูลที่มีป้ายกำกับ n รายการ หลังจากแยกคุณลักษณะและรูปแบบที่เกี่ยวข้องแล้ว โมเดลจะต้องจัดหมวดหมู่รูปภาพที่ไม่มีป้ายกำกับใหม่ให้เป็นหนึ่งในคลาส K พวกเขาใช้เครือข่ายการจับคู่ที่ทำงานบนแนวทางเพื่อนบ้านที่ใกล้ที่สุดซึ่งได้รับการฝึกฝนอย่างเต็มที่จากต้นทางถึงปลายทาง

บทสรุป

โดยสรุป สาขาวิชา One-shot Learning และสาขาอื่นมีศักยภาพมหาศาลในการแก้ปัญหาที่ท้าทายบางอย่าง แม้ว่าจะเป็นงานวิจัยที่ค่อนข้างใหม่ แต่ก็มีความก้าวหน้าอย่างรวดเร็ว และนักวิจัยกำลังทำงานพยายามที่จะเชื่อมช่องว่างระหว่างเครื่องจักรกับมนุษย์

ด้วยเหตุนี้ เราจึงได้มาถึงจุดสิ้นสุดของโพสต์นี้ ฉันหวังว่าคุณจะสนุกกับการอ่าน

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

เรียนรู้ หลักสูตร ML จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

เป็นผู้นำการปฏิวัติเทคโนโลยีที่ขับเคลื่อนด้วย AI

สมัครโปรแกรมประกาศนียบัตรขั้นสูงในการเรียนรู้ของเครื่อง & NLP