One-Shot Learning กับ Siamese Network [เพื่อการจดจำใบหน้า]
เผยแพร่แล้ว: 2021-02-08บทความต่อไปนี้พูดถึงความจำเป็นในการใช้การเรียนรู้แบบครั้งเดียวพร้อมกับรูปแบบและข้อเสีย
ในการเริ่มต้น ในการฝึกโมเดลการเรียนรู้เชิงลึก เราจำเป็นต้องมีข้อมูลจำนวนมากเพื่อให้โมเดลของเราดำเนินการคาดการณ์หรืองานการจัดหมวดหมู่ที่ต้องการได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น การตรวจจับสุนัขจากภาพจะทำให้คุณต้องฝึกโมเดลโครงข่ายประสาทเทียมบนภาพสุนัขและไม่ใช่สุนัขหลายแสนภาพเพื่อให้แยกแยะระหว่างกันได้อย่างถูกต้อง อย่างไรก็ตาม โมเดลโครงข่ายประสาทเทียมนี้จะไม่สามารถทำงานได้หากได้รับการฝึกอบรมเกี่ยวกับข้อมูลการฝึกอบรมอย่างน้อยหนึ่งรายการ
เนื่องจากขาดข้อมูล การดึงคุณลักษณะที่เกี่ยวข้องในชั้นต่างๆ จึงกลายเป็นเรื่องยาก โมเดลจะไม่สามารถสรุปได้ดีระหว่างคลาสต่างๆ ซึ่งส่งผลต่อประสิทธิภาพโดยรวม
สำหรับภาพประกอบ ให้พิจารณาตัวอย่างการจดจำใบหน้าที่สนามบิน ในเรื่องนี้ เราไม่มีเสรีภาพในการฝึกโมเดลของเราซึ่งมีรูปภาพนับแสนภาพของแต่ละคนซึ่งมีการแสดงออกที่แตกต่างกัน แสงพื้นหลัง และอื่นๆ ด้วยจำนวนผู้โดยสารที่มาถึงทุกวันจึงเป็นไปไม่ได้! นอกจากนี้ การจัดเก็บข้อมูลจำนวนมหาศาลดังกล่าวยังทำให้ต้นทุนเพิ่มขึ้นอีกด้วย
เพื่อแก้ไขปัญหาข้างต้น เราใช้เทคนิคที่งานการจำแนกหรือการจัดหมวดหมู่สามารถทำได้โดยใช้ตัวอย่างหนึ่งหรือสองสามตัวอย่างเพื่อจำแนกตัวอย่างใหม่จำนวนมาก เทคนิคนี้เรียกว่าการเรียนรู้แบบนัดเดียว
ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีการเรียนรู้แบบนัดเดียวได้ถูกนำมาใช้อย่างกว้างขวางในการจดจำใบหน้าและการตรวจหนังสือเดินทาง แนวคิดที่ใช้คือ - โมเดลใช้อินพุต 2 ภาพ; หนึ่งคือภาพจากหนังสือเดินทางและอีกอันเป็นภาพของบุคคลที่กำลังมองกล้อง จากนั้นโมเดลจะแสดงผลค่าที่มีความคล้ายคลึงกันระหว่าง 2 ภาพ หากค่าของเอาต์พุตต่ำ แสดงว่าทั้งสองภาพจะคล้ายกัน อย่างอื่นจะต่างกัน
สารบัญ
เครือข่ายสยาม
สถาปัตยกรรมที่ใช้สำหรับการเรียนรู้แบบ One-shot เรียกว่า Siamese Network สถาปัตยกรรมนี้ประกอบด้วยโครงข่ายประสาทเทียมแบบขนานสองโครงข่ายโดยแต่ละโครงข่ายรับอินพุตต่างกัน ผลลัพธ์ของโมเดลคือค่าหรือดัชนีความคล้ายคลึงกันซึ่งระบุว่ารูปภาพอินพุตทั้งสองเหมือนกันหรือไม่ ค่าที่ต่ำกว่าเกณฑ์ที่กำหนดไว้ล่วงหน้าจะสอดคล้องกับความคล้ายคลึงกันสูงระหว่างรูปภาพทั้งสองและในทางกลับกันของวีซ่า
เมื่อรูปภาพถูกส่งผ่านชุดของเลเยอร์ Convolutional เลเยอร์รวมสูงสุด และเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ สิ่งที่เราบรรลุคือเวกเตอร์ที่เข้ารหัสคุณสมบัติของรูปภาพ เนื่องจากเราป้อนภาพสองภาพ เวกเตอร์สองภาพที่ครอบคลุมคุณลักษณะของภาพที่ป้อนจะถูกสร้างขึ้น ค่าที่เรากำลังพูดถึงคือระยะห่างระหว่างเวกเตอร์คุณลักษณะทั้งสองซึ่งสามารถคำนวณได้โดยการหาบรรทัดฐานของความแตกต่างระหว่างเวกเตอร์ทั้งสอง
ฟังก์ชันการสูญเสีย Triplet
ตามชื่อที่แนะนำ ในการฝึกโมเดล เราต้องการภาพสามภาพ - ภาพจุดยึด (A) ภาพหนึ่ง ภาพบวก (P) และภาพเชิงลบ (N) หนึ่งภาพ เนื่องจากโมเดลสามารถจัดเตรียมอินพุตได้ 2 รายการ จึงให้ภาพสมอที่มีภาพบวกหรือลบ ตัวแบบเรียนรู้พารามิเตอร์ในลักษณะที่ว่าระยะห่างระหว่างภาพจุดยึดกับภาพบวกจะต่ำ ขณะที่ระยะห่างระหว่างภาพจุดยึดกับภาพเนกาทีฟจะสูง
ฟังก์ชันการสูญเสียเชิงสร้างสรรค์จะลงโทษโมเดลหากระยะห่างระหว่าง A และ N ต่ำหรือ A และ P สูง ในขณะที่สนับสนุนโมเดลหรือเรียนรู้คุณลักษณะเมื่อระยะห่างระหว่าง A และ N สูงและ A และ P ต่ำ
เพื่อให้เข้าใจมากขึ้นเกี่ยวกับสมอ ภาพบวกและลบ ลองพิจารณาตัวอย่างก่อนหน้านี้ที่สนามบิน ในกรณีดังกล่าว ภาพสมอเรือจะเป็นภาพของคุณเมื่อคุณมองกล้อง ภาพบวกจะเป็นภาพบนหนังสือเดินทางของคุณ และภาพเชิงลบจะเป็นภาพสุ่มของผู้โดยสารที่อยู่ที่สนามบิน
เมื่อใดก็ตามที่เราฝึกอบรมเครือข่าย Siaseme เราจะจัดเตรียมรูปภาพ APN ทรีโอ (จุดยึด บวก และลบ) ให้กับเครือข่าย การสร้างชุดข้อมูลนี้ง่ายกว่ามากและต้องใช้รูปภาพในการฝึกน้อยลง
ข้อจำกัดของการเรียนรู้แบบนัดเดียว
การเรียนรู้แบบครั้งเดียวยังคงเป็นอัลกอริธึมแมชชีนเลิร์นนิงที่เติบโตเต็มที่และมีข้อจำกัดบางประการ ตัวอย่างเช่น โมเดลจะไม่ทำงานได้ดีหากภาพที่ป้อนมีการดัดแปลงบางอย่าง เช่น คนสวมหมวก แว่นกันแดด และอื่นๆ นอกจากนี้ โมเดลที่ได้รับการฝึกฝนสำหรับแอปพลิเคชันหนึ่งไม่สามารถทำให้เป็นแบบทั่วไปสำหรับแอปพลิเคชันอื่นได้
ต่อไปเรามาดูรูปแบบการเรียนรู้แบบ One-shot สองสามรูปแบบซึ่งประกอบไปด้วยการเรียนรู้แบบ Zero-shot และการเรียนรู้แบบไม่กี่ช็อต
การเรียนรู้แบบไม่มีช็อต
การเรียนรู้แบบ Zero-shot คือความสามารถของโมเดลในการระบุข้อมูลฉลากใหม่หรือที่มองไม่เห็น ในขณะที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เห็นและรู้คุณลักษณะทางความหมายของข้อมูลใหม่หรือข้อมูลที่มองไม่เห็น ตัวอย่างเช่น เด็กที่เห็นแมวสามารถระบุได้ด้วยลักษณะเฉพาะของมัน ยิ่งไปกว่านั้น หากเด็กรู้ว่าสุนัขเห่าและมีลักษณะที่แข็งกว่าแมว เด็กก็จะไม่มีปัญหาในการจดจำสุนัข
โดยสรุป เราสามารถพูดได้ว่าการรู้จำ ZSL ทำงานในลักษณะที่คำนึงถึงชุดการฝึกที่มีป้ายกำกับของคลาสที่มองเห็น ควบคู่ไปกับความรู้ที่ว่าแต่ละคลาสที่มองไม่เห็นนั้นสัมพันธ์กับคลาสที่เห็นอย่างไร
การเรียนรู้แบบ N-shot
ตามชื่อที่แนะนำ ในการเรียนรู้ N shot เราจะมีข้อมูลป้ายกำกับของแต่ละชั้นเรียนพร้อมสำหรับการฝึกอบรม โมเดลได้รับการฝึกอบรมในคลาส K ซึ่งแต่ละคลาสมีข้อมูลที่มีป้ายกำกับ n รายการ หลังจากแยกคุณลักษณะและรูปแบบที่เกี่ยวข้องแล้ว โมเดลจะต้องจัดหมวดหมู่รูปภาพที่ไม่มีป้ายกำกับใหม่ให้เป็นหนึ่งในคลาส K พวกเขาใช้เครือข่ายการจับคู่ที่ทำงานบนแนวทางเพื่อนบ้านที่ใกล้ที่สุดซึ่งได้รับการฝึกฝนอย่างเต็มที่จากต้นทางถึงปลายทาง
บทสรุป
โดยสรุป สาขาวิชา One-shot Learning และสาขาอื่นมีศักยภาพมหาศาลในการแก้ปัญหาที่ท้าทายบางอย่าง แม้ว่าจะเป็นงานวิจัยที่ค่อนข้างใหม่ แต่ก็มีความก้าวหน้าอย่างรวดเร็ว และนักวิจัยกำลังทำงานพยายามที่จะเชื่อมช่องว่างระหว่างเครื่องจักรกับมนุษย์
ด้วยเหตุนี้ เราจึงได้มาถึงจุดสิ้นสุดของโพสต์นี้ ฉันหวังว่าคุณจะสนุกกับการอ่าน
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
เรียนรู้ หลักสูตร ML จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว