ฟังก์ชันมวลความน่าจะเป็น: การกระจายและคุณสมบัติไม่ต่อเนื่อง

เผยแพร่แล้ว: 2021-02-08

สารบัญ

บทนำ

ความน่าจะเป็นเป็นสิ่งสำคัญเมื่อพูดถึงสาขา Data Science มีบทบาทสำคัญในชีวิตของนักวิเคราะห์ข้อมูลและนักวิทยาศาสตร์ด้านข้อมูล แนวคิดที่ใช้ในทฤษฎีความน่าจะเป็นเป็นสิ่งที่ต้องรู้สำหรับผู้ที่อยู่ในโดเมน Data Science วิธีการทางสถิติที่ใช้สำหรับการคาดคะเนบางอย่างขึ้นอยู่กับทฤษฎีความน่าจะเป็นและสถิติ ซึ่งทำให้ความน่าจะเป็นเป็นส่วนสำคัญของโดเมนวิทยาศาสตร์ข้อมูล

ความน่าจะเป็นให้ข้อมูลเกี่ยวกับการเกิดขึ้นของเหตุการณ์บางอย่างภายใต้สมมติฐานบางอย่าง เช่น บ่งชี้ถึงความเป็นไปได้ของเหตุการณ์ที่เกิดขึ้น เพื่อแสดงค่าที่เป็นไปได้ต่างๆ ที่ตัวแปรสุ่มสามารถรับได้ เราใช้การกระจายความน่าจะเป็น

ตัวแปรสุ่มสามารถเรียกได้ว่าเป็นผลต่าง ๆ ที่เป็นไปได้ในสถานการณ์ที่กำหนด เพื่อแสดงให้เห็น หากมีการทอยลูกเต๋า ผลลัพธ์ที่เป็นไปได้สำหรับสถานการณ์นี้คือค่าตั้งแต่ 1 ถึง 6 ซึ่งจะกลายเป็นค่าของตัวแปรสุ่ม

การแจกแจงความน่าจะเป็นมีสองประเภท: – แบบไม่ต่อเนื่องและต่อเนื่อง การแจกแจงแบบแยกส่วนมีไว้สำหรับตัวแปรที่ใช้ค่าจำนวนจำกัดในช่วงหนึ่งเท่านั้น การแจกแจงแบบต่อเนื่องมีไว้สำหรับตัวแปรที่สามารถรับค่าได้ไม่จำกัดภายในช่วง ในบทความนี้ เราจะมาศึกษาเพิ่มเติมเกี่ยวกับการแจกแจงแบบแยกส่วนและต่อมาใน Probability Mass Function

การกระจายแบบแยกส่วน

การแจกแจงแบบไม่ต่อเนื่องแสดงถึงความน่าจะเป็นของผลลัพธ์ที่แตกต่างกันสำหรับตัวแปรสุ่มแบบไม่ต่อเนื่อง พูดง่ายๆ ก็คือ ช่วยให้เราเข้าใจรูปแบบของผลลัพธ์ที่แตกต่างกันในตัวแปรสุ่ม มันไม่ใช่อะไรอื่นนอกจากการแสดงความน่าจะเป็นทั้งหมดของตัวแปรสุ่มที่ประกอบเข้าด้วยกัน

ในการสร้างการแจกแจงความน่าจะเป็นสำหรับตัวแปรสุ่ม เราจำเป็นต้องมีผลลัพธ์ของตัวแปรสุ่มพร้อมกับความน่าจะเป็นที่เกี่ยวข้อง จากนั้นเราสามารถคำนวณฟังก์ชันการแจกแจงความน่าจะเป็นได้

การแจกแจงแบบไม่ต่อเนื่องบางประเภทมีการระบุไว้ดังนี้: –

  1. การกระจายแบบทวินาม: – จำนวนผลลัพธ์ในการทดลองหนึ่งครั้งสามารถเป็นได้เพียงสองรายการเท่านั้น (ใช่หรือไม่ใช่ สำเร็จหรือล้มเหลว เป็นต้น) ตัวอย่าง: – การโยนเหรียญ
  2. การกระจายของเบอร์นูลลี: – เวอร์ชันพิเศษของการแจกแจงแบบทวินามซึ่งจำนวนการทดลองที่ดำเนินการในการทดลองจะเท่ากับ 1 เสมอ
  3. การแจกแจงแบบปัวซอง: – แสดงความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นเป็นจำนวนครั้งในช่วงเวลาหนึ่งในช่วงเวลาหนึ่ง ตัวอย่าง: – จำนวนครั้งที่มีการสตรีมภาพยนตร์ในคืนวันเสาร์
  4. การแจกแจงแบบสม่ำเสมอ: – การแจกแจงนี้ถือว่าความน่าจะเป็นสำหรับผลลัพธ์ทั้งหมดในตัวแปรสุ่มจะเท่ากัน ตัวอย่าง: – การกลิ้งลูกเต๋า (เนื่องจากทุกด้านมีโอกาสปรากฏเท่ากัน)

คุณสามารถอ้างอิงถึง ลิงค์ นี้ สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับประเภทของการแจกแจงแบบต่อเนื่องและแบบไม่ต่อเนื่อง ในการคำนวณความน่าจะเป็นของตัวแปรสุ่มที่มีค่าเท่ากับค่าบางค่าภายในช่วง จะใช้ฟังก์ชันมวลความน่าจะเป็น (PMF) สำหรับการแจกแจงแต่ละครั้ง สูตรของฟังก์ชันมวลความน่าจะเป็นจะแตกต่างกันไปตามนั้น

เพื่อความชัดเจนที่ดีขึ้นเกี่ยวกับฟังก์ชันมวลของความน่าจะเป็น เรามาดูตัวอย่างกัน สมมติว่าเราต้องหาว่าตำแหน่งแม่นในคริกเก็ตใดมีโอกาสทำคะแนนในหนึ่งศตวรรษในทีมมากกว่า หากเรามีข้อมูลที่เกี่ยวข้อง เนื่องจากตอนนี้สามารถเล่นได้เพียง 11 ตำแหน่งในทีม ตัวแปรสุ่มจะใช้ค่าตั้งแต่ 1 ถึง 11

Probability Mass Function หรือที่เรียกว่า Discrete Density Function จะช่วยให้เราสามารถหาความน่าจะเป็นที่จะให้คะแนนหนึ่งศตวรรษสำหรับแต่ละตำแหน่ง เช่น P(X=1), P(X=2)….P(X=11) หลังจากคำนวณความน่าจะเป็นทั้งหมดแล้ว เราสามารถคำนวณการกระจายความน่าจะเป็นของตัวแปรสุ่มนั้นได้

สูตรทั่วไปสำหรับฟังก์ชันมวลความน่าจะเป็นมีดังนี้: –

P X (x k ) = P(X = x k ) สำหรับ k = 1,2,…k

ที่ไหน,

X = ตัวแปรสุ่มแบบไม่ต่อเนื่อง

x k = ค่าที่เป็นไปได้ของตัวแปรสุ่ม

P = ความน่าจะเป็นของตัวแปรสุ่มเมื่อเท่ากับ x k

หลายคนสับสนระหว่าง Probability Mass Function (PMF) กับ Probability Density Function (PDF) เพื่อล้างสิ่งนี้ ฟังก์ชันมวลความน่าจะเป็นสำหรับตัวแปรสุ่มที่ไม่ต่อเนื่อง เช่น ตัวแปรที่สามารถรับค่าจำนวนจำกัดภายในช่วงหนึ่งๆ

ฟังก์ชันความหนาแน่นของความน่าจะเป็นใช้สำหรับตัวแปรสุ่มต่อเนื่อง กล่าวคือ ตัวแปรที่สามารถรับค่าได้เป็นจำนวนอนันต์ในช่วง ฟังก์ชันมวลของความน่าจะเป็นช่วยในการคำนวณสถิติทั่วไป เช่น ค่าเฉลี่ยและความแปรปรวนของการแจกแจงแบบไม่ต่อเนื่อง

รับ ใบรับรองวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก เข้าร่วมโปรแกรม Executive PG, Advanced Certificate Programs หรือ Masters Programs ของเราเพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

สมบัติของฟังก์ชันมวลความน่าจะเป็น

  1. ความน่าจะเป็นของค่าที่เป็นไปได้ทั้งหมดของตัวแปรสุ่มควรรวมเป็น 1 [ ∑P X (x k ) = 1]
  2. ความน่าจะเป็นทั้งหมดต้องเป็น 0 หรือมากกว่า 0 ก็ได้ [P(x k ) ≥ 0]
  3. ความน่าจะเป็นของแต่ละเหตุการณ์ที่เกิดขึ้นมีตั้งแต่ 0 ถึง 1 [1 ≥ P(x k ) ≥ 0]

บทสรุป

แนวคิดของความน่าจะเป็นเช่น Probability Mass Function มีประโยชน์มากในโดเมนวิทยาศาสตร์ข้อมูล แนวคิดเหล่านี้ไม่สามารถใช้ในทุกแง่มุมของโครงการวิทยาศาสตร์ข้อมูลหรือสำหรับเรื่องนั้นในโครงงานทั้งหมดเช่นกัน แต่สิ่งนี้ไม่ได้ดูถูกความสำคัญของทฤษฎีความน่าจะเป็นในโดเมนนี้

การประยุกต์ใช้ทฤษฎีความน่าจะเป็นได้ให้ผลลัพธ์ที่ยอดเยี่ยม ไม่เพียงแต่ในโดเมนวิทยาศาสตร์ข้อมูลเท่านั้น แต่ในโดเมนอื่นๆ ของอุตสาหกรรมด้วย เนื่องจากสามารถช่วยในการทำความเข้าใจและการตัดสินใจที่น่าสนใจ ซึ่งคุ้มค่าที่จะลองเสมอ

บทความนี้ให้ภาพรวมของความสำคัญของความน่าจะเป็นในสาขาวิทยาศาสตร์ข้อมูล นำเสนอแนวคิดพื้นฐานของความน่าจะเป็น เช่น การแจกแจงความน่าจะเป็นและฟังก์ชันมวลของความน่าจะเป็น บทความนี้เน้นที่เงื่อนไขตัวแปรที่ไม่ต่อเนื่องเป็นหลัก เนื่องจากมีการใช้ฟังก์ชันมวลของความน่าจะเป็นสำหรับพวกเขา คำศัพท์ที่ใช้สำหรับตัวแปรต่อเนื่องนั้นแตกต่างกัน แต่อุดมการณ์โดยรวมของแนวคิดเหล่านี้ยังคงคล้ายกับที่อธิบายไว้ในบทความนี้

การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องแตกต่างจากการแจกแจงความน่าจะเป็นแบบต่อเนื่องอย่างไร

การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องหรือการแจกแจงแบบไม่ต่อเนื่องจะคำนวณความน่าจะเป็นของตัวแปรสุ่มที่สามารถแยกส่วนได้ ตัวอย่างเช่น ถ้าเราโยนเหรียญสองครั้ง ค่าที่น่าจะเป็นของตัวแปรสุ่ม X ซึ่งระบุจำนวนหัวทั้งหมดจะเป็น {0, 1, 2} และไม่ใช่ค่าสุ่มใดๆ
Bernoulli, Binomial, Hypergeometric คือตัวอย่างบางส่วนของการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง
ในทางกลับกัน การแจกแจงความน่าจะเป็นแบบต่อเนื่องจะให้ความน่าจะเป็นของค่าสุ่มที่สามารถเป็นตัวเลขสุ่มใดๆ ก็ได้ ตัวอย่างเช่น ค่าของตัวแปรสุ่ม X ซึ่งแสดงถึงความสูงของพลเมืองในเมืองอาจเป็นตัวเลขใดๆ เช่น 161.2, 150.9 เป็นต้น
Normal, Student's T, Chi-square คือตัวอย่างบางส่วนของการแจกแจงแบบต่อเนื่อง

อธิบายการแจกแจงแบบไฮเปอร์จีโอเมตริก?

การแจกแจงแบบไฮเปอร์จีโอเมตริกเป็นการแจกแจงแบบไม่ต่อเนื่อง ซึ่งเราพิจารณาจำนวนความสำเร็จมากกว่าจำนวนการทดลองใช้โดยไม่มีการแทนที่ใดๆ การแจกแจงประเภทนี้มีประโยชน์ในกรณีที่เราจำเป็นต้องค้นหาความน่าจะเป็นของบางสิ่งโดยไม่ต้องแทนที่
สมมติว่าเรามีลูกบอลสีแดงและสีเขียวเต็มถุง และเราต้องหาความน่าจะเป็นที่จะหยิบลูกบอลสีเขียวใน 5 ครั้ง แต่ทุกครั้งที่เราหยิบลูกบอล เราจะไม่ส่งคืนกลับเข้าไปในกระเป๋า นี่เป็นตัวอย่างที่เหมาะสมของการแจกแจงแบบไฮเปอร์จีโอเมตริก

ความสำคัญของความน่าจะเป็นใน Data Science คืออะไร?

เนื่องจากวิทยาศาสตร์ข้อมูลเป็นเรื่องเกี่ยวกับการศึกษาข้อมูล ความน่าจะเป็นจึงมีบทบาทสำคัญที่นี่ เหตุผลต่อไปนี้อธิบายว่าความน่าจะเป็นเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูลอย่างไร:
1. ช่วยให้นักวิเคราะห์และนักวิจัยคาดการณ์จากชุดข้อมูล ผลลัพธ์โดยประมาณเหล่านี้เป็นพื้นฐานสำหรับการวิเคราะห์ข้อมูลต่อไป
2 ความน่าจะเป็นยังใช้ในขณะที่พัฒนาอัลกอริทึมที่ใช้ในแบบจำลองการเรียนรู้ของเครื่อง ช่วยในการวิเคราะห์ชุดข้อมูลที่ใช้ในการฝึกอบรมแบบจำลอง
3. ช่วยให้คุณวัดปริมาณข้อมูลและได้ผลลัพธ์ เช่น อนุพันธ์ ค่าเฉลี่ย และการแจกแจง
4. ผลลัพธ์ทั้งหมดที่ทำได้โดยใช้ความน่าจะเป็นจะสรุปข้อมูลในที่สุด ข้อมูลสรุปนี้ยังช่วยในการระบุค่าผิดปกติที่มีอยู่ในชุดข้อมูล