สถิติสำหรับแมชชีนเลิร์นนิง: ทุกสิ่งที่คุณจำเป็นต้องรู้

เผยแพร่แล้ว: 2021-03-12

สถิติและความน่าจะเป็นเป็นแกนหลักของการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล มันคือการวิเคราะห์ทางสถิติควบคู่ไปกับพลังการประมวลผลและการเพิ่มประสิทธิภาพที่ Machine Learning สามารถบรรลุสิ่งที่บรรลุในวันนี้ได้ ตั้งแต่พื้นฐานของความน่าจะเป็นไปจนถึงสถิติเชิงพรรณนาและเชิงอนุมาน หัวข้อเหล่านี้ทำให้เป็นพื้นฐานของแมชชีนเลิร์นนิง

ในตอนท้ายของบทช่วยสอนนี้ คุณจะทราบสิ่งต่อไปนี้:

  • ข้อมูลเบื้องต้นเกี่ยวกับความน่าจะเป็น
  • การแจกแจงความน่าจะเป็น
  • การกระจายแบบปกติ
  • มาตรการแนวโน้มส่วนกลาง
  • ทฤษฎีบทขีด จำกัด กลาง
  • ค่าเบี่ยงเบนมาตรฐาน & ข้อผิดพลาดมาตรฐาน
  • ความเบ้ & Kurtosis

สารบัญ

ข้อมูลเบื้องต้นเกี่ยวกับความน่าจะเป็น

เหตุการณ์อิสระและขึ้นต่อกัน

ลองพิจารณา 2 เหตุการณ์ เหตุการณ์ A และเหตุการณ์ B เมื่อความน่าจะเป็นของการเกิดเหตุการณ์ A ไม่ได้ขึ้นอยู่กับการเกิดของเหตุการณ์ B แล้ว A และ B เป็นเหตุการณ์ที่ไม่ขึ้นต่อกัน ตัวอย่างเช่น หากคุณมี 2 เหรียญที่ยุติธรรม ความน่าจะเป็นที่จะได้หัวทั้งสองเหรียญจะเป็น 0.5 สำหรับทั้งคู่ ดังนั้นเหตุการณ์จึงเป็นอิสระ

ตอนนี้พิจารณากล่องที่มี 5 ลูก — 2 สีดำและ 3 สีแดง ความน่าจะเป็นในการจั่วลูกบอลสีดำก่อนจะเป็น 2/5 ตอนนี้ความน่าจะเป็นที่จะดึงลูกบอลสีดำอีกครั้งจาก 4 ลูกที่เหลือจะเป็น 1/4 ในกรณีนี้ ทั้งสองเหตุการณ์ขึ้นอยู่กับความน่าจะเป็นของการจับลูกบอลสีดำเป็นครั้งที่สองขึ้นอยู่กับว่าลูกบอลใดถูกดึงออกมาในครั้งแรก

ความน่าจะเป็นเล็กน้อย

เป็นความน่าจะเป็นของเหตุการณ์โดยไม่คำนึงถึงผลลัพธ์ของตัวแปรสุ่มอื่นๆ เช่น P(A) หรือ P(B)

ความน่าจะเป็นร่วม

เป็นความน่าจะเป็นของเหตุการณ์ที่แตกต่างกันสองเหตุการณ์ที่เกิดขึ้นพร้อมกัน กล่าวคือ สองเหตุการณ์ (หรือมากกว่า) พร้อมกัน เช่น P(A และ B) หรือ P(A, B)

ความน่าจะเป็นแบบมีเงื่อนไข

คือความน่าจะเป็นของเหตุการณ์หนึ่ง (หรือมากกว่า) เมื่อพิจารณาจากเหตุการณ์อื่นหรือกล่าวอีกนัยหนึ่ง มันคือความน่าจะเป็นของเหตุการณ์ A ที่เกิดขึ้นเมื่อเหตุการณ์รอง B เป็นจริง เช่น P(A ให้ B) หรือ P(A | B)

เข้าร่วม หลักสูตร ML ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท โปรแกรม Executive Post Graduate และหลักสูตรประกาศนียบัตรขั้นสูงใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

การแจกแจงความน่าจะเป็น

การแจกแจงความน่าจะเป็นแสดงการกระจายของจุดข้อมูลในพื้นที่ตัวอย่าง ช่วยให้เราเห็นความน่าจะเป็นของการสุ่มตัวอย่างจุดข้อมูลบางจุดเมื่อสุ่มตัวอย่างจากประชากร ตัวอย่างเช่น หากประชากรประกอบด้วยคะแนนของนักเรียนในโรงเรียน การแจกแจงความน่าจะเป็นจะมีเครื่องหมายบนแกน X และจำนวนนักเรียนที่มีเครื่องหมายเหล่านั้นบนแกน Y ซึ่งเรียกอีกอย่างว่า ฮิ โตแกรม ฮิสโตแกรมเป็นประเภทของการ กระจายความน่าจะเป็นแบบไม่ต่อ เนื่อง ประเภทหลักของการกระจายแบบแยกส่วน ได้แก่ การกระจายแบบทวินาม การกระจายแบบปัวซอง และการกระจายแบบสม่ำเสมอ

ในทางกลับกัน การ แจกแจงความน่าจะเป็นแบบต่อเนื่อง ถูกสร้างขึ้นสำหรับข้อมูลที่มีค่าต่อเนื่อง กล่าวอีกนัยหนึ่ง เมื่อมันสามารถมีชุดค่าอนันต์ เช่น ความสูง ความเร็ว อุณหภูมิ ฯลฯ การแจกแจงความน่าจะเป็นอย่างต่อเนื่องมีประโยชน์อย่างมากใน Data Science และการวิเคราะห์ทางสถิติสำหรับการตรวจสอบความสำคัญของคุณลักษณะ การกระจายข้อมูล การทดสอบทางสถิติ ฯลฯ

อ่านคณิตศาสตร์เบื้องหลังการเรียนรู้ของเครื่องด้วย

การกระจายแบบปกติ

การแจกแจงแบบต่อเนื่องที่รู้จักกันดีที่สุดคือการแจกแจงแบบปกติซึ่งเรียกอีกอย่างว่าการแจกแจงแบบเกาส์เซียนหรือ "Bell Curve"

พิจารณาการกระจายส่วนสูงของคนตามปกติ ความสูงส่วนใหญ่จะกระจุกตัวอยู่ตรงกลางซึ่งสูงกว่าและค่อยๆ ลดระดับไปทางซ้ายสุดและสุดทางขวา ซึ่งแสดงถึงความน่าจะเป็นที่ต่ำกว่าที่จะได้รับค่านั้นแบบสุ่ม

ส่วนโค้งนี้มีศูนย์กลางอยู่ที่ค่าเฉลี่ย และอาจสูงและบางก็ได้ หรือจะสั้นและกางออกก็ได้ ค่าที่บางเฉียบแสดงว่ามีค่าที่แตกต่างกันน้อยกว่าที่เราสามารถสุ่มตัวอย่างได้ และเส้นโค้งที่แผ่ออกไปมากขึ้นแสดงว่ามีค่าช่วงที่กว้างกว่าเปรดนี้กำหนดโดย ค่าเบี่ยงเบน มาตรฐาน

ยิ่งค่าเบี่ยงเบนมาตรฐานมากขึ้น ข้อมูลของคุณก็จะกระจายมากขึ้น ค่าเบี่ยงเบนมาตรฐานเป็นเพียงผลมาทางคณิตศาสตร์ของคุณสมบัติอื่นที่เรียกว่าความแปรปรวน ซึ่งกำหนดว่าข้อมูล 'แปรผัน' มากเพียงใด และความแปรปรวนคือสิ่งที่เกี่ยวกับข้อมูล ความแปรปรวนคือข้อมูล ไม่มีความแปรปรวนไม่มีข้อมูล การแจกแจงแบบปกติมีบทบาทสำคัญในสถิติ – The Central Limit Theorem

มาตรการแนวโน้มส่วนกลาง

การวัดแนวโน้มศูนย์กลางเป็นวิธีที่เราสามารถสรุปชุดข้อมูลโดยใช้ค่าเดียว การวัดแนวโน้มมี 3 แบบหลักๆ คือ

1. ค่าเฉลี่ย: ค่าเฉลี่ยเป็นเพียงค่าเฉลี่ยเลขคณิตหรือค่าเฉลี่ยของค่าในข้อมูล/คุณลักษณะ ผลรวมของค่าทั้งหมดหารด้วยจำนวนค่าจะได้ค่าเฉลี่ย ค่าเฉลี่ยเป็นวิธีที่ใช้กันทั่วไปในการวัดศูนย์กลางของข้อมูลใดๆ แต่อาจทำให้เข้าใจผิดได้ในบางกรณี ตัวอย่างเช่น เมื่อมีค่าผิดปกติจำนวนมาก ค่าเฉลี่ยจะเริ่มเปลี่ยนไปสู่ค่าผิดปกติและเป็นตัวชี้วัดที่ไม่ดีสำหรับศูนย์กลางของข้อมูลของคุณ

2. ค่ามัธยฐาน : ค่ามัธยฐานคือจุดข้อมูลที่อยู่ตรงกลางพอดีเมื่อมีการจัดเรียงข้อมูลตามลำดับที่เพิ่มขึ้นหรือลดลง เมื่อจำนวนจุดข้อมูลเป็นเลขคี่ ค่ามัธยฐานจะถูกเลือกเป็นจุดศูนย์กลางอย่างง่ายดาย เมื่อจำนวนจุดข้อมูลเป็นเลขคู่ ค่ามัธยฐานจะถูกคำนวณเป็นค่าเฉลี่ยของจุดข้อมูลส่วนใหญ่ 2 จุดในศูนย์กลาง

3. โหมด: โหมดคือจุดข้อมูลที่มีบ่อยที่สุดในชุดข้อมูล โหมดนี้ยังคงแข็งแกร่งที่สุดสำหรับค่าผิดปกติ เนื่องจากโหมดดังกล่าวจะคงที่ที่จุดที่ใช้บ่อยที่สุด

ทฤษฎีบทขีด จำกัด กลาง

ทฤษฎีบทขีดจำกัดกลางในสถิติระบุว่า เมื่อให้ตัวอย่างขนาดใหญ่เพียงพอ การกระจายตัวตัวอย่างจะประมาณการแจกแจงแบบปกติโดยไม่คำนึงถึงการกระจายของตัวแปรนั้น ข้าพเจ้าขอนำสาระสำคัญของข้อความข้างต้นมาพูดง่ายๆ

ข้อมูลอาจมีการกระจายใด ๆ มันอาจจะสมบูรณ์แบบหรือเบ้ปกติก็ได้ มันอาจจะเป็นเลขชี้กำลังหรือ (เกือบ) การแจกแจงใดๆ ที่คุณคิด อย่างไรก็ตาม หากคุณสุ่มตัวอย่างจากประชากรซ้ำแล้วซ้ำเล่า และวางแผนฮิสโตแกรมของค่าเฉลี่ยต่อไป ในที่สุด คุณจะพบว่าการกระจายตัวของวิธีการทั้งหมดนี้คล้ายกับการแจกแจงแบบปกติ!

โดยพื้นฐานแล้ว ไม่สำคัญว่าข้อมูลของคุณอยู่ในการกระจายแบบใด การกระจายของวิธีการนั้นเป็นเรื่องปกติเสมอ

แต่จำเป็นต้องมีตัวอย่างกี่ตัวอย่างเพื่อให้ CLT เป็นจริง กฎทั่วไปบอกว่าควรเป็น >30 ดังนั้นหากคุณนำตัวอย่าง 30 ตัวอย่างขึ้นไปจากการแจกแจงใดๆ ค่าเฉลี่ยก็จะถูกแจกแจงตามปกติไม่ว่าประเภทการแจกแจงจะเป็นอย่างไรก็ตาม

ค่าเบี่ยงเบนมาตรฐาน & ข้อผิดพลาดมาตรฐาน

ค่าเบี่ยงเบนมาตรฐานและข้อผิดพลาดมาตรฐานมักสับสนระหว่างกัน ค่าเบี่ยงเบนมาตรฐาน ดังที่คุณอาจทราบ อธิบายหรือหาค่าความผันแปรของข้อมูลทั้งสองด้านของการแจกแจง - ต่ำกว่าค่าเฉลี่ยและมากกว่าค่าเฉลี่ย หากจุดข้อมูลของคุณถูกกระจายไปทั่วช่วงของค่าต่างๆ ค่าเบี่ยงเบนมาตรฐานจะสูง

ดังที่เราได้กล่าวไว้ข้างต้น โดยทฤษฎีบทขีด จำกัด ศูนย์กลาง ถ้าเราพลอตค่าเฉลี่ยของกลุ่มตัวอย่างทั้งหมดจากประชากร การกระจายตัวของค่าเฉลี่ยเหล่านั้น จะเป็นการกระจายแบบปกติอีกครั้ง มันจะมีค่าเบี่ยงเบนมาตรฐานของมันเอง จริงไหม?

ค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ยของกลุ่มตัวอย่างทั้งหมดจากประชากรเรียกว่า ข้อผิดพลาดมาตรฐาน ค่าของข้อผิดพลาดมาตรฐานมักจะน้อยกว่าค่าเบี่ยงเบนมาตรฐาน เนื่องจากคุณกำลังคำนวณค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ย และค่าของค่าเฉลี่ยจะกระจายน้อยกว่าจุดข้อมูลแต่ละรายการเนื่องจากการรวมกลุ่ม

คุณยังสามารถคำนวณค่าเบี่ยงเบนมาตรฐานของค่ามัธยฐาน โหมด หรือแม้แต่ค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐาน!

ก่อนที่คุณจะไป

แนวคิดทางสถิติเป็นแกนหลักของ Data Science และ ML เพื่อให้สามารถหักเงินได้อย่างถูกต้องและเข้าใจข้อมูลที่มีอยู่อย่างมีประสิทธิภาพ คุณต้องมีความเข้าใจอย่างถ่องแท้เกี่ยวกับแนวคิดทางสถิติและความน่าจะเป็นที่กล่าวถึงในบทช่วยสอนนี้

upGrad จัดให้มี Executive PG Program ใน Machine Learning & AI และ Master of Science in Machine Learning & AI ที่อาจแนะนำคุณสู่การสร้างอาชีพ หลักสูตรเหล่านี้จะอธิบายความจำเป็นในการเรียนรู้ของเครื่องและขั้นตอนเพิ่มเติมในการรวบรวมความรู้ในโดเมนนี้ ซึ่งครอบคลุมแนวคิดที่หลากหลายตั้งแต่ Gradient Descent ไปจนถึง Machine Learning

ความรู้ด้านสถิติจำเป็นสำหรับการทำดีในการเรียนรู้ของเครื่องหรือไม่?

สถิติเป็นสาขาที่กว้างใหญ่มาก ในการเรียนรู้ของเครื่อง สถิติโดยพื้นฐานแล้วช่วยในการทำความเข้าใจข้อมูลอย่างลึกซึ้ง แนวคิดทางสถิติบางอย่าง เช่น ความน่าจะเป็น การตีความข้อมูล ฯลฯ มีความจำเป็นในอัลกอริธึมการเรียนรู้ของเครื่องหลายตัว อย่างไรก็ตาม คุณไม่จำเป็นต้องเป็นผู้เชี่ยวชาญในหัวข้อสถิติทั้งหมดจึงจะทำได้ดีในการเรียนรู้ของเครื่อง เมื่อรู้เพียงแนวคิดพื้นฐาน คุณก็จะสามารถดำเนินการได้อย่างมีประสิทธิภาพ

การรู้รหัสล่วงหน้าจะเป็นประโยชน์ในการเรียนรู้ของเครื่องหรือไม่

การเข้ารหัสเป็นหัวใจของการเรียนรู้ของเครื่อง และโปรแกรมเมอร์ที่เข้าใจวิธีเขียนโค้ดเป็นอย่างดีจะมีความเข้าใจอย่างลึกซึ้งถึงวิธีการทำงานของอัลกอริทึม และด้วยเหตุนี้จึงจะสามารถตรวจสอบและเพิ่มประสิทธิภาพอัลกอริทึมเหล่านั้นได้อย่างมีประสิทธิภาพมากขึ้น คุณไม่จำเป็นต้องเป็นผู้เชี่ยวชาญในภาษาการเขียนโปรแกรมใดๆ แม้ว่าความรู้เดิมจะเป็นประโยชน์ก็ตาม หากคุณเป็นมือใหม่ Python เป็นตัวเลือกที่ดีเนื่องจากเรียนรู้ได้ง่ายและมีไวยากรณ์ที่ใช้งานง่าย

เราใช้แคลคูลัสในชีวิตประจำวันอย่างไร?

การพยากรณ์อากาศขึ้นอยู่กับตัวแปรหลายอย่าง เช่น ความเร็วลม ปริมาณความชื้น และอุณหภูมิ ซึ่งสามารถคำนวณได้โดยใช้แคลคูลัสเท่านั้น การใช้แคลคูลัสอาจพบเห็นได้ในวิศวกรรมการบินในหลากหลายรูปแบบ แคลคูลัสยังใช้ในอุตสาหกรรมยานยนต์เพื่อปรับปรุงและรับรองความปลอดภัยที่ดีของยานพาหนะ บริษัทบัตรเครดิตยังใช้เพื่อวัตถุประสงค์ในการชำระเงินอีกด้วย