การรู้จำเสียงใน AI: สิ่งที่คุณต้องรู้

เผยแพร่แล้ว: 2021-03-10

การรู้จำคำพูดหมายถึงคอมพิวเตอร์ที่ตีความคำที่พูดโดยบุคคลและแปลงเป็นรูปแบบที่เครื่องเข้าใจได้ จากนั้นจะแปลงเป็นข้อความหรือเสียงหรือรูปแบบอื่นตามเป้าหมาย ทั้งนี้ขึ้นอยู่กับเป้าหมายสุดท้าย

ตัวอย่างเช่น Siri ของ Apple และ Alexa ของ Google ใช้การรู้จำเสียงพูดที่ขับเคลื่อนโดย AI เพื่อให้รองรับเสียงหรือข้อความ ในขณะที่แอปพลิเคชันเสียงเป็นข้อความ เช่น Google Dictate จะถ่ายทอดคำที่คุณป้อนตามคำบอกเป็นข้อความ การรู้จำเสียงเป็นอีกรูปแบบหนึ่งของการรู้จำคำพูดที่ระบบจดจำเสียงต้นทางและจับคู่กับเสียงของบุคคล

แอปพลิเคชั่นการรู้จำเสียง AI มีจำนวนเพิ่มขึ้นอย่างมากในช่วงที่ผ่านมา เนื่องจากธุรกิจต่างๆ หันมาใช้ผู้ช่วยดิจิทัลและการสนับสนุนอัตโนมัติเพื่อปรับปรุงบริการของตนมากขึ้น ผู้ช่วยเสียง อุปกรณ์สมาร์ทโฮม เครื่องมือค้นหา ฯลฯ เป็นเพียงตัวอย่างบางส่วนที่การรู้จำคำพูดได้รับความนิยมอย่างมาก ตามการวิจัยและการตลาด ตลาด ทั่วโลกสำหรับการรู้จำคำพูด คาดว่าจะเติบโตที่ CAGR ที่ 17.2% และสูงถึง 26.8 พันล้านดอลลาร์ในปี 2568

เรียนรู้แมชชีนเลิ ร์นนิง จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

สารบัญ

การรู้จำเสียงและปัญญาประดิษฐ์
การรู้จำเสียงและการประมวลผลภาษาธรรมชาติ
กรณีการใช้งานของการรู้จำเสียง
ผลกระทบระดับโลกของการรู้จำเสียงในปัญญาประดิษฐ์
บทสรุป
ความยากลำบากในการรู้จำคำพูดใน AI คืออะไร?
การรู้จำคำพูดทำงานอย่างไร
จุดประสงค์ของการรู้จำคำพูดคืออะไร?

การรู้จำเสียงและปัญญาประดิษฐ์

การรู้จำคำพูดสามารถเอาชนะความท้าทายของอุปกรณ์บันทึกเสียงและการตัดเสียงรบกวนที่ไม่ดีได้อย่างรวดเร็ว ความผันแปรของเสียงคน สำเนียง ภาษาถิ่น ความหมาย บริบท ฯลฯ โดยใช้ปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง ซึ่งรวมถึงความท้าทายในการทำความเข้าใจนิสัยของมนุษย์ และองค์ประกอบภาษามนุษย์ที่แตกต่างกัน เช่น ภาษาพูด คำย่อ ฯลฯ เทคโนโลยีนี้สามารถให้ความแม่นยำ 95% ในขณะนี้ เมื่อเทียบกับรูปแบบการรู้จำคำพูดแบบดั้งเดิม ซึ่งเทียบเท่ากับการสื่อสารของมนุษย์ทั่วไป

นอกจากนี้ ปัจจุบันนี้เป็นรูปแบบการสื่อสารที่ยอมรับได้ เนื่องจากบริษัทขนาดใหญ่ที่รับรองและใช้การรู้จำเสียงพูดในการดำเนินงานเป็นประจำ คาดว่าเสิร์ชเอ็นจิ้นส่วนใหญ่จะนำเทคโนโลยีเสียงมาใช้เป็นส่วนสำคัญของกลไกการค้นหา

สิ่งนี้เกิดขึ้นได้เนื่องจากอัลกอริธึม AI และแมชชีนเลิร์นนิ่ง (ML) ที่ได้รับการปรับปรุง ซึ่งสามารถประมวลผลชุดข้อมูลขนาดใหญ่ได้อย่างมีนัยสำคัญ และให้ความแม่นยำมากขึ้นด้วยการเรียนรู้ด้วยตนเองและปรับให้เข้ากับการเปลี่ยนแปลงที่พัฒนาขึ้น เครื่องจักรได้รับการตั้งโปรแกรมให้ “ฟัง” สำเนียง ภาษาถิ่น บริบท อารมณ์ และประมวลผลข้อมูลที่ซับซ้อนและตามอำเภอใจที่เข้าถึงได้ง่ายเพื่อจุดประสงค์ในการขุดและการเรียนรู้ของเครื่อง

การรู้จำเสียงและการประมวลผลภาษาธรรมชาติ

การประมวลผลภาษาธรรมชาติ (NLP) เป็นแผนกหนึ่งของปัญญาประดิษฐ์ที่เกี่ยวข้องกับการวิเคราะห์ข้อมูลภาษาธรรมชาติและแปลงเป็นรูปแบบที่เครื่องอ่านได้ การรู้จำคำพูดและ AI มีบทบาทสำคัญในแบบจำลอง NLP ในการปรับปรุงความแม่นยำและประสิทธิภาพของการรู้จำภาษามนุษย์

ตั้งแต่อุปกรณ์และเครื่องใช้ในบ้านอัจฉริยะที่ทำตามคำแนะนำและสามารถเปิดและปิดจากระยะไกลได้ ผู้ช่วยดิจิทัลที่สามารถตั้งค่าการเตือนความจำ กำหนดเวลาการประชุม จดจำเพลงที่เล่นในผับ ไปจนถึงเครื่องมือค้นหาที่ตอบสนองต่อผลการค้นหาที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ การรู้จำคำพูดได้กลายเป็นส่วนสำคัญของชีวิตเรา

ธุรกิจจำนวนมากในขณะนี้ได้รวมซอฟต์แวร์แปลงเสียงพูดเป็นข้อความเพื่อปรับปรุงแอปพลิเคชันทางธุรกิจและปรับปรุงประสบการณ์ของลูกค้า การใช้การรู้จำคำพูดและการประมวลผลภาษาธรรมชาติ บริษัทสามารถถอดเสียงการโทร การประชุม และแม้แต่แปลได้ Apple, Google, Facebook, Microsoft และ Amazon เป็นหนึ่งในยักษ์ใหญ่ด้านเทคโนโลยีที่ยังคงใช้ประโยชน์จากแอปพลิเคชั่นการรู้จำคำพูดที่ได้รับการสนับสนุนจาก AI เพื่อมอบประสบการณ์การใช้งานที่เป็นแบบอย่างแก่ผู้ใช้

กรณีการใช้งานของการรู้จำเสียง

มาสำรวจการใช้แอปพลิเคชั่นการรู้จำเสียงในสาขาต่างๆ กัน:

ขณะนี้มีการใช้ซอฟต์แวร์การรู้จำเสียงพูดเพื่อเริ่มการซื้อ ส่งอีเมล ถอดเสียงการประชุม นัดพบแพทย์ และดำเนินการในศาล ฯลฯ
ผู้ช่วยเสมือนหรือผู้ช่วยดิจิทัลและอุปกรณ์สมาร์ทโฮมใช้ซอฟต์แวร์จดจำเสียงเพื่อตอบคำถาม แจ้งข่าวสภาพอากาศ เล่นเพลง ตรวจสอบสภาพการจราจร สั่งซื้อ และอื่นๆ
บริษัทอย่าง Venmo และ PayPal อนุญาตให้ลูกค้าทำธุรกรรมโดยใช้ผู้ช่วยเสียง ธนาคารหลายแห่งในอเมริกาเหนือและแคนาดายังให้บริการธนาคารออนไลน์โดยใช้ซอฟต์แวร์ที่ใช้เสียง
อีคอมเมิร์ซขับเคลื่อนโดยผู้ช่วยด้วยเสียงอย่างมาก และช่วยให้ผู้ใช้ทำการซื้อได้อย่างรวดเร็วและราบรื่น
การรู้จำเสียงพร้อมที่จะส่งผลกระทบต่อบริการขนส่ง และปรับปรุงการจัดกำหนดการ การกำหนดเส้นทาง และการนำทางในเมืองต่างๆ
พอดคาสต์ การประชุม และการสัมภาษณ์นักข่าวสามารถถอดเสียงได้โดยใช้การจดจำเสียง นอกจากนี้ยังใช้เพื่อให้คำบรรยายที่ถูกต้องกับวิดีโอ
มีผลกระทบอย่างมากต่อการรักษาความปลอดภัยผ่านชีวมิติเสียง โดยเทคโนโลยีจะวิเคราะห์ความถี่ โทนเสียง และระดับเสียงที่แตกต่างกันของแต่ละคนเพื่อสร้างโปรไฟล์เสียง ตัวอย่างนี้คือ Swisscom บริษัทโทรคมนาคมของสวิตเซอร์แลนด์ ซึ่งใช้เทคโนโลยีการตรวจสอบสิทธิ์ด้วยเสียงในคอลเซ็นเตอร์ของตน เพื่อป้องกันการละเมิดความปลอดภัย
บริการดูแลลูกค้ากำลังถูกติดตามโดยผู้ช่วยเสียงที่ใช้ AI และแชทบอทเพื่อทำงานซ้ำอัตโนมัติ

อุตสาหกรรมอื่นๆ ที่กำลังลงทุนอย่างแข็งขันในเทคโนโลยีการรู้จำคำพูดด้วยเสียง ได้แก่ การบังคับใช้กฎหมาย การตลาด การท่องเที่ยว การสร้างเนื้อหา และการแปล

ผลกระทบระดับโลกของการรู้จำเสียงในปัญญาประดิษฐ์

การรู้จำเสียงเป็นหนึ่งในผลิตภัณฑ์ที่ทรงพลังที่สุดของความก้าวหน้าทางเทคโนโลยี เช่นเดียวกับ Siri, Alexa, Echo Dot, Google Assistant และ Google Dictate ที่ทำให้ชีวิตประจำวันของเราง่ายขึ้น ความต้องการเทคโนโลยีอัตโนมัติดังกล่าวก็จะเพิ่มขึ้นเรื่อยๆ

ธุรกิจต่างๆ ทั่วโลกกำลังลงทุนในการทำให้บริการเป็นอัตโนมัติเพื่อปรับปรุงประสิทธิภาพการดำเนินงาน เพิ่มประสิทธิภาพและความแม่นยำ และตัดสินใจโดยใช้ข้อมูลเป็นหลักโดยการศึกษาพฤติกรรมของลูกค้าและพฤติกรรมการซื้อ

AI ได้อำนวยความสะดวกในการเติบโตแบบทวีคูณในภาคส่วนต่างๆ ของเศรษฐกิจโลก คาดว่า การมีส่วนร่วมของ AI ต่อเศรษฐกิจโลกจะแตะ 15.7 ล้านล้านดอลลาร์ในปี 2573 ซึ่งสูงกว่าผลผลิตรวมของจีนและอินเดียอย่างมีนัยสำคัญ

อนาคตของการรู้จำคำพูดเป็นสิ่งที่น่าสังเกตอย่างมาก ตามรายงาน Apple มีแผนจะเปิดตัว Apple TV ที่ควบคุมโดย Siri โดยจะมีอุปกรณ์สวมใส่อัจฉริยะเพิ่มขึ้น เช่น นาฬิกา เอียร์บัด อัญมณี และซอฟต์แวร์ที่ใช้เสียง ซึ่งถูกตั้งโปรแกรมให้ระบุบริบทคำขอของผู้ใช้ การสนับสนุนที่เพิ่มขึ้น

เนื่องจากการรู้จำคำพูดและ AI ส่งผลกระทบต่อทั้งชีวิตการทำงานและชีวิตส่วนตัวในที่ทำงานและที่บ้านตามลำดับ ความต้องการวิศวกรและนักพัฒนา AI ที่มีทักษะ นักวิทยาศาสตร์ข้อมูล และวิศวกรการเรียนรู้ของเครื่อง คาดว่าจะสูงเป็นประวัติการณ์

จะมีข้อกำหนดสำหรับผู้เชี่ยวชาญด้าน AI ที่มีทักษะในการปรับปรุงความสัมพันธ์ระหว่างมนุษย์และอุปกรณ์ดิจิทัล เมื่อมีการสร้างโอกาสในการทำงาน จะส่งผลให้ได้รับผลประโยชน์และผลประโยชน์เพิ่มขึ้นสำหรับผู้ที่อยู่ในสาขานี้

ตาม PayScale เงินเดือนเฉลี่ยสำหรับผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ในอินเดียในปัจจุบันคือ 15 แสนรูปี นอกจากนี้ สาขานี้ยังมีโอกาสก้าวหน้าในอาชีพที่ร่ำรวย ทั้งด้านการเงินและโปรไฟล์ อย่างไรก็ตาม สิ่งนี้ต้องการการลงทุนในหลักสูตรปัญญาประดิษฐ์เพื่อเชี่ยวชาญด้าน Data Science และเรียนรู้การสร้างโซลูชันซอฟต์แวร์ที่ใช้งานง่ายเหมือนมนุษย์โดยใช้ข้อมูลแบบเรียลไทม์

บทสรุป

หากคุณเห็นว่าตัวเองทำงานในสาขานี้ คุณอาจต้องการดู หลักสูตรปัญญาประดิษฐ์ ของ upGrad โปรแกรมและใบรับรอง PG ต่างๆ ได้รับการออกแบบสำหรับวิศวกรและซอฟต์แวร์/ไอที/ผู้เชี่ยวชาญด้านข้อมูลที่มีวุฒิปริญญาตรี 50% หรือเทียบเท่าเมื่อสำเร็จการศึกษา หากคุณไม่สามารถตัดสินใจได้ว่าหลักสูตรใดที่จะบรรลุเป้าหมายในอาชีพการงานของคุณ เราพร้อมให้ความช่วยเหลือ ติดต่อเราหรือขอให้โทรกลับตอนนี้ !

หากคุณมีความหลงใหลและต้องการเรียนรู้เพิ่มเติมเกี่ยวกับปัญญาประดิษฐ์ คุณสามารถเรียนหลักสูตร PG Diploma in Machine Learning และ Deep Learning ของ IIIT-B และ upGrad ที่มีการเรียนรู้มากกว่า 400 ชั่วโมง ภาคปฏิบัติ การช่วยเหลืองาน และอื่นๆ อีกมากมาย

ความยากลำบากในการรู้จำคำพูดใน AI คืออะไร?

การรู้จำคำพูดคือการแปลคำพูดเป็นลายลักษณ์อักษร ปัญหาของสิ่งนี้คือ มีภาษาที่แตกต่างกันไม่กี่ภาษาในโลก และทั้งหมดขึ้นอยู่กับระบบสัทศาสตร์ที่สร้างขึ้นเมื่อไม่มีเทคโนโลยีให้พึ่งพา วิธีที่เราพูดด้วยคำพูดที่เป็นธรรมชาติไม่ใช่ภาษาสัทศาสตร์ แต่เป็นระบบคำพูดที่ชัดเจน เสียงพูดสามารถซ้อนทับกันได้ และนั่นเป็นปัญหากับคอมพิวเตอร์ เพราะไม่เข้าใจว่าเกิดอะไรขึ้น พวกเขาถูกตั้งโปรแกรมโดยผู้คนเพื่อให้เข้าใจวิธีการพูดที่ไม่เหมือนใคร แต่วิธีนี้ไม่ได้ผล

การรู้จำคำพูดทำงานอย่างไร

การรู้จำเสียงเป็นกระบวนการแปลงคำพูดเป็นข้อมูลที่เครื่องอ่านได้ ซึ่งสามารถทำได้โดยใช้วิธีการแบบเก่าที่ดีหรือโดยการใช้เทคนิคการเรียนรู้ของเครื่อง วิธีการที่อิงตามกฎถูกนำมาใช้ในคอมพิวเตอร์เพื่อการรู้จำคำพูดตั้งแต่ช่วงทศวรรษที่ 60 พวกเขาได้รับการฝึกฝนด้วยมือในขั้นต้นและต้องใช้ความพยายามอย่างมากในการบำรุงรักษาเมื่อเวลาผ่านไป วิธีการเรียนรู้ของเครื่องได้รับการฝึกอบรมโดยอัตโนมัติจากชุดข้อมูลการฝึกอบรมและต้องการการบำรุงรักษาเพียงเล็กน้อยเมื่อเวลาผ่านไป ดังนั้นจึงมีประสิทธิภาพมากกว่าในตอนท้าย แม้ว่าการฝึกอบรมเบื้องต้นมักจะมีราคาแพงมาก

จุดประสงค์ของการรู้จำคำพูดคืออะไร?

จุดประสงค์ของการรู้จำคำพูดคือการเข้าใจเสียงของผู้พูดและความหมายของคำพูด การรู้จำเสียงมีศักยภาพในการเปลี่ยนแป้นพิมพ์และทำให้ไม่จำเป็นต้องพิมพ์บนคอมพิวเตอร์ เทคโนโลยีการรู้จำเสียงมีมาประมาณ 30 ปีแล้ว และมีการปรับปรุงอย่างต่อเนื่อง เทคโนโลยีการรู้จำเสียงเป็นที่นิยมมากขึ้นในปัจจุบัน เนื่องจากมีการรวมเข้ากับอุปกรณ์ต่างๆ มากขึ้นเรื่อยๆ ตัวอย่างเช่น คอมพิวเตอร์ตอนนี้มีซอฟต์แวร์การรู้จำเสียงที่ช่วยให้ผู้ใช้เขียนตามตัวอักษรและรายงานแทนการพิมพ์ ซึ่งช่วยประหยัดเวลาและพลังงาน และยังให้อุปกรณ์แฮนด์ฟรีสำหรับใช้งานด้วย