สมมติฐานในการเรียนรู้ของเครื่องคืออะไร? จะสร้างสมมติฐานได้อย่างไร?
เผยแพร่แล้ว: 2021-03-12การทดสอบสมมติฐานเป็นหัวข้อกว้างๆ ที่สามารถใช้ได้กับหลายสาขา เมื่อเราศึกษาสถิติ การทดสอบสมมติฐานนั้นเกี่ยวข้องกับข้อมูลจากหลาย ๆ ประชากร และการทดสอบคือเพื่อดูว่าผลกระทบที่มีต่อประชากรมีนัยสำคัญเพียงใด
สิ่งนี้เกี่ยวข้องกับการคำนวณค่า p และเปรียบเทียบกับค่าวิกฤตหรือค่าอัลฟ่า เมื่อพูดถึงแมชชีนเลิร์นนิง การทดสอบสมมติฐานเกี่ยวข้องกับการค้นหาฟังก์ชันที่ใกล้เคียงคุณลักษณะอิสระกับเป้าหมายได้ดีที่สุด แมปอินพุตกับเอาท์พุต
ในตอนท้ายของบทช่วยสอนนี้ คุณจะทราบสิ่งต่อไปนี้:
- สมมติฐานในสถิติเทียบกับการเรียนรู้ของเครื่องคืออะไร
- พื้นที่สมมุติฐานคืออะไร?
- กระบวนการสร้างสมมติฐาน
สารบัญ
สมมติฐานในสถิติ
สมมติฐานคือการสันนิษฐานของผลลัพธ์ที่ปลอมแปลงได้ หมายความว่าสามารถพิสูจน์ได้ว่าผิดด้วยหลักฐานบางอย่าง สมมติฐานสามารถถูกปฏิเสธหรือไม่ถูกปฏิเสธก็ได้ เราไม่เคยยอมรับสมมติฐานใด ๆ ในสถิติเพราะมันเป็นเรื่องของความน่าจะเป็นและเราไม่เคยแน่นอน 100% ก่อนเริ่มการทดสอบ เรากำหนดสมมติฐานสองข้อ:
1. Null Hypothesis บอกว่าไม่มีผลอย่างมีนัยสำคัญ
2. สมมติฐานทางเลือก: บอกว่ามีผลสำคัญบางอย่าง
ในสถิติ เราเปรียบเทียบค่า P (ซึ่งคำนวณโดยใช้การทดสอบทางสถิติประเภทต่างๆ) กับค่าวิกฤตหรืออัลฟ่า ยิ่งค่า P-value มาก โอกาสก็ยิ่งสูงขึ้น ซึ่งหมายความว่าผลกระทบไม่มีนัยสำคัญ และเราสรุปว่าเรา ล้มเหลวในการปฏิเสธสมมติฐาน ว่าง
กล่าวอีกนัยหนึ่ง ผลกระทบมีโอกาสเกิดขึ้นสูงโดยบังเอิญและไม่มีนัยสำคัญทางสถิติ ในทางกลับกัน หากเราได้ค่า P น้อยมาก แสดงว่ามีโอกาสน้อย นั่นหมายถึงความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นโดยบังเอิญนั้นต่ำมาก
เข้าร่วม หลักสูตร ML และ AI ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท โปรแกรม Executive Post Graduate และหลักสูตรประกาศนียบัตรขั้นสูงใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
ระดับความสำคัญ
มีการตั้งค่าระดับความสำคัญก่อนเริ่มการทดสอบ สิ่งนี้กำหนดว่าความทนทานต่อข้อผิดพลาดอยู่ที่ระดับใดและระดับใดที่สามารถพิจารณาผลกระทบที่มีนัยสำคัญได้ ค่าทั่วไปสำหรับระดับนัยสำคัญคือ 95% ซึ่งหมายความว่ามีโอกาส 5% ที่เราจะโดนการทดสอบหลอกและเกิดข้อผิดพลาด กล่าวอีกนัยหนึ่ง ค่าวิกฤตคือ 0.05 ซึ่งทำหน้าที่เป็นเกณฑ์ ในทำนองเดียวกัน หากกำหนดระดับนัยสำคัญไว้ที่ 99% ก็จะหมายถึงค่าวิกฤตที่ 0.01%
P-Value
การทดสอบทางสถิติดำเนินการกับประชากรและกลุ่มตัวอย่างเพื่อหาค่า P จากนั้นจึงนำไปเปรียบเทียบกับค่าวิกฤต หากค่า P ออกมาน้อยกว่าค่าวิกฤต เราก็สามารถสรุปได้ว่าผลกระทบนั้นมีนัยสำคัญ และด้วยเหตุนี้จึงปฏิเสธสมมติฐานว่าง (ที่กล่าวว่าไม่มีผลกระทบที่มีนัยสำคัญ) หากค่า P-Value ออกมามากกว่าค่าวิกฤต เราสามารถสรุปได้ว่าไม่มีผลกระทบที่มีนัยสำคัญและด้วยเหตุนี้จึงล้มเหลวในการปฏิเสธ Null Hypothesis
เนื่องจากเราไม่สามารถมั่นใจได้ 100% จึงมีโอกาสเสมอที่การทดสอบของเราจะถูกต้อง แต่ผลลัพธ์ก็ทำให้เข้าใจผิด ซึ่งหมายความว่าเราปฏิเสธค่า null เมื่อมันไม่ได้ผิดจริง นอกจากนี้ยังสามารถหมายความว่าเราไม่ปฏิเสธค่าว่างเมื่อเป็นเท็จจริงๆ นี่คือข้อผิดพลาดประเภทที่ 1 และประเภทที่ 2 ของการทดสอบสมมติฐาน
ตัวอย่าง
พิจารณาว่าคุณกำลังทำงานให้กับผู้ผลิตวัคซีน และทีมของคุณพัฒนาวัคซีนสำหรับ Covid-19 เพื่อพิสูจน์ประสิทธิภาพของวัคซีนนี้ จำเป็นต้องได้รับการพิสูจน์ทางสถิติว่ามีประสิทธิภาพในมนุษย์ ดังนั้นเราจึงนำคนสองกลุ่มที่มีขนาดและคุณสมบัติเท่ากัน เราให้วัคซีนแก่กลุ่ม A และให้ยาหลอกแก่กลุ่ม B เราทำการวิเคราะห์เพื่อดูว่าคนในกลุ่ม A ติดเชื้อกี่คน และในกลุ่ม B ติดเชื้อกี่คน
เราทดสอบหลายครั้งเพื่อดูว่ากลุ่ม A มีภูมิคุ้มกันที่มีนัยสำคัญต่อ Covid-19 หรือไม่ เราคำนวณค่า P สำหรับการทดสอบทั้งหมดเหล่านี้ และสรุปได้ว่าค่า P นั้นน้อยกว่าค่าวิกฤตเสมอ ดังนั้น เราจึงสามารถปฏิเสธสมมติฐานว่างได้อย่างปลอดภัยและสรุปได้ว่ามีผลที่สำคัญจริงๆ
อ่าน: อธิบายแบบจำลองการเรียนรู้ของเครื่อง
สมมติฐานในการเรียนรู้ของเครื่อง
สมมติฐานในการเรียนรู้ของเครื่องจะใช้เมื่ออยู่ในการเรียนรู้ของเครื่องภายใต้การดูแล เราจำเป็นต้องค้นหาฟังก์ชันที่จับคู่อินพุตกับเอาต์พุตได้ดีที่สุด นี่ยังสามารถเรียกว่าการประมาณฟังก์ชันได้ เนื่องจากเรากำลังประมาณฟังก์ชันเป้าหมายที่แมปคุณลักษณะกับเป้าหมายได้ดีที่สุด
1. สมมติฐาน (h): สมมติฐานอาจเป็นแบบจำลองเดียวที่จับคู่คุณลักษณะต่างๆ กับเป้าหมาย อย่างไรก็ตาม อาจเป็นผลลัพธ์/เมตริก สมมติฐานมีความหมายโดย " h "
2. Hypothesis Space(H): พื้นที่สมมุติฐานคือช่วงที่สมบูรณ์ของแบบจำลองและพารามิเตอร์ที่เป็นไปได้ของพวกมันที่สามารถนำมาใช้เพื่อสร้างแบบจำลองข้อมูลได้ มันมีความหมายโดย “ H ” กล่าวอีกนัยหนึ่ง สมมติฐานเป็นส่วนย่อยของพื้นที่สมมติฐาน
กระบวนการสร้างสมมติฐาน
โดยพื้นฐานแล้ว เรามีข้อมูลการฝึกอบรม (คุณสมบัติอิสระและเป้าหมาย) และฟังก์ชันเป้าหมายที่จับคู่คุณสมบัติกับเป้าหมาย จากนั้นจะรันบนอัลกอริธึมประเภทต่างๆ โดยใช้การกำหนดค่าประเภทต่างๆ ของพื้นที่พารามิเตอร์ไฮเปอร์พารามิเตอร์ เพื่อตรวจสอบว่าการกำหนดค่าใดให้ผลลัพธ์ที่ดีที่สุด ข้อมูลการฝึกอบรมใช้เพื่อกำหนดและค้นหาสมมติฐานที่ดีที่สุดจากพื้นที่สมมติฐาน ข้อมูลการทดสอบใช้เพื่อตรวจสอบหรือตรวจสอบผลลัพธ์ที่เกิดจากสมมติฐาน
ลองพิจารณาตัวอย่างที่เรามีชุดข้อมูล 10,000 อินสแตนซ์พร้อม 10 คุณสมบัติและหนึ่งเป้าหมาย เป้าหมายคือไบนารี ซึ่งหมายความว่าเป็นปัญหาการจำแนกประเภทไบนารี สมมติว่าเราจำลองข้อมูลนี้โดยใช้ Logistic Regression และได้รับความแม่นยำ 78% เราสามารถวาดเส้นการถดถอยที่แยกชั้นทั้งสองออกจากกัน นี่คือสมมติฐาน (h) จากนั้นเราทดสอบสมมติฐานนี้กับข้อมูลการทดสอบและได้คะแนน 74%
ทีนี้ สมมติอีกครั้งว่าเราใส่โมเดล RandomForests เข้ากับข้อมูลเดียวกันและได้รับคะแนนความแม่นยำ 85% นี่เป็นการปรับปรุงที่ดีกว่า Logistic Regression แล้ว ตอนนี้เราตัดสินใจที่จะปรับไฮเปอร์พารามิเตอร์ของ RandomForests เพื่อให้ได้คะแนนที่ดีขึ้นในข้อมูลเดียวกัน เราทำการค้นหาตารางและเรียกใช้โมเดล RandomForest หลายตัวกับข้อมูลและตรวจสอบประสิทธิภาพ ในขั้นตอนนี้ เรากำลังค้นหา Hypothesis Space(H) เพื่อหาฟังก์ชันที่ดีกว่า หลังจากเสร็จสิ้นการค้นหาตาราง เราได้คะแนนที่ดีที่สุด 89% และสิ้นสุดการค้นหา
ตอนนี้ เรายังลองใช้โมเดลอื่นๆ เช่น XGBoost, Support Vector Machine และ Naive Bayes theorem เพื่อทดสอบการแสดงบนข้อมูลเดียวกัน จากนั้นเราเลือกแบบจำลองที่มีประสิทธิภาพดีที่สุดและทดสอบกับข้อมูลการทดสอบเพื่อตรวจสอบประสิทธิภาพและได้คะแนน 87%
ชำระเงิน: โปรเจ็กต์และหัวข้อแมชชีนเลิร์นนิง
ก่อนที่คุณจะไป
สมมติฐานเป็นส่วนสำคัญของการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล มีอยู่ในทุกโดเมนของการวิเคราะห์และเป็นปัจจัยในการตัดสินใจว่าควรทำการเปลี่ยนแปลงหรือไม่ ไม่ว่าจะเป็นยา ซอฟต์แวร์ การขาย ฯลฯ สมมติฐานครอบคลุมชุดข้อมูลการฝึกอบรมที่สมบูรณ์เพื่อตรวจสอบประสิทธิภาพของแบบจำลองจากพื้นที่สมมติฐาน
สมมติฐานต้องสามารถปลอมแปลงได้ ซึ่งหมายความว่าจะต้องสามารถทดสอบและพิสูจน์ได้ว่าผิดหากผลลัพธ์ไม่เป็นไปตามนั้น ขั้นตอนการค้นหาการกำหนดค่าที่ดีที่สุดของแบบจำลองนั้นใช้เวลานานเมื่อต้องตรวจสอบการกำหนดค่าที่แตกต่างกันจำนวนมาก มีวิธีทำให้กระบวนการนี้เร็วขึ้นด้วยโดยใช้เทคนิคต่างๆ เช่น Random Search of hyperparameters
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's Executive PG Program in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT -B สถานะศิษย์เก่า 5+ โครงการหลักที่ปฏิบัติได้จริง & ความช่วยเหลืองานกับ บริษัท ชั้นนำ
ทำไมเราควรทำโครงการโอเพ่นซอร์ส?
มีหลายเหตุผลที่ต้องทำโครงการโอเพ่นซอร์ส คุณกำลังเรียนรู้สิ่งใหม่ คุณกำลังช่วยเหลือผู้อื่น คุณกำลังสร้างเครือข่ายกับผู้อื่น คุณกำลังสร้างชื่อเสียง และอื่นๆ อีกมากมาย โอเพ่นซอร์สนั้นสนุก และในที่สุด คุณจะได้บางสิ่งกลับมา เหตุผลที่สำคัญที่สุดประการหนึ่งก็คือ การสร้างผลงานที่ยอดเยี่ยมที่คุณสามารถนำเสนอต่อบริษัทและว่าจ้างได้ โครงการโอเพ่นซอร์สเป็นวิธีที่ยอดเยี่ยมในการเรียนรู้สิ่งใหม่ คุณอาจเพิ่มพูนความรู้ด้านการพัฒนาซอฟต์แวร์หรืออาจเรียนรู้ทักษะใหม่ ไม่มีวิธีใดที่จะดีไปกว่าการสอน
ฉันสามารถสนับสนุนโอเพ่นซอร์สในฐานะผู้เริ่มต้นได้หรือไม่?
ใช่. โครงการโอเพ่นซอร์สไม่เลือกปฏิบัติ ชุมชนโอเพ่นซอร์สสร้างขึ้นจากคนที่รักการเขียนโค้ด มีที่สำหรับมือใหม่อยู่เสมอ คุณจะได้เรียนรู้มากมายและมีโอกาสเข้าร่วมในโครงการโอเพนซอร์ซที่หลากหลาย คุณจะได้เรียนรู้ว่าอะไรใช้ได้ผลและอะไรใช้ไม่ได้ และคุณยังมีโอกาสที่จะทำให้โค้ดของคุณถูกใช้โดยชุมชนนักพัฒนาขนาดใหญ่ มีรายชื่อโครงการโอเพนซอร์ซที่มองหาผู้ร่วมให้ข้อมูลรายใหม่อยู่เสมอ
โครงการ GitHub ทำงานอย่างไร
GitHub เสนอวิธีให้นักพัฒนาจัดการโครงการและทำงานร่วมกัน นอกจากนี้ยังทำหน้าที่เป็นเรซูเม่สำหรับนักพัฒนา โดยมีผู้ร่วมสนับสนุน เอกสาร และการเผยแพร่ของโปรเจ็กต์อยู่ในรายการ การมีส่วนร่วมในโครงการแสดงให้เห็นนายจ้างที่มีศักยภาพว่าคุณมีทักษะและแรงจูงใจในการทำงานเป็นทีม โปรเจ็กต์มักเป็นมากกว่าโค้ด ดังนั้น GitHub มีวิธีที่คุณสามารถจัดโครงสร้างโปรเจ็กต์ได้เหมือนกับที่คุณจัดโครงสร้างเว็บไซต์ คุณสามารถจัดการเว็บไซต์ของคุณกับสาขา สาขาเป็นเหมือนการทดลองหรือสำเนาเว็บไซต์ของคุณ เมื่อคุณต้องการทดสอบคุณลักษณะใหม่หรือแก้ไขบางอย่าง คุณต้องสร้างสาขาและทดลองที่นั่น หากการทดลองสำเร็จ คุณสามารถรวมสาขากลับเข้าไปในเว็บไซต์เดิมได้