การกระจายทวินามใน Python พร้อมตัวอย่างในโลกแห่งความจริง [2022]

เผยแพร่แล้ว: 2021-01-09

คุณค่าของความน่าจะเป็นและสถิติในสาขาวิทยาศาสตร์ข้อมูลนั้นมีมากมายมหาศาล โดยที่ปัญญาประดิษฐ์และการเรียนรู้ของเครื่องจักรต้องพึ่งพาสิ่งเหล่านี้เป็นอย่างมาก เราใช้แบบจำลองกระบวนการของการแจกแจงแบบปกติทุกครั้งที่เราทำการทดสอบ A/B และการสร้างแบบจำลองการลงทุน

อย่างไรก็ตาม การ แจกแจงทวินามใน Python ถูกนำไปใช้ในหลายวิธีเพื่อดำเนินการหลายขั้นตอน แต่ก่อนจะเริ่มต้นการ แจกแจงทวินามใน Python คุณต้องรู้เกี่ยวกับการแจกแจงทวินามโดยทั่วไปและการใช้งานในชีวิตประจำวัน หากคุณเป็นมือใหม่และสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิทยาศาสตร์ข้อมูล โปรดดูการฝึกอบรมด้านวิทยาศาสตร์ข้อมูลของเราจากมหาวิทยาลัยชั้นนำ

สารบัญ

การกระจายทวินามคืออะไร?
การกระจายทวินามใน Python
ตัวอย่างจริงของการแจกแจงทวินามใน Python
อะไรต่อไป?
- อะไรคือความแตกต่างระหว่างการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องและการแจกแจงความน่าจะเป็นแบบต่อเนื่อง?
- ความสำคัญของความน่าจะเป็นในวิทยาศาสตร์ข้อมูลคืออะไร?
- อธิบายการแจกแจงแบบไฮเปอร์จีโอเมตริก ในกรณีใดที่มีแนวโน้มว่าจะเป็นการแจกแจงแบบทวินาม?

การกระจายทวินาม คือ อะไร ?

คุณเคยพลิกเหรียญหรือไม่? หากคุณมี คุณต้องรู้เกี่ยวกับความน่าจะเป็นที่จะได้หัวหรือก้อยเท่ากัน แต่ความน่าจะเป็นที่จะได้เจ็ดหางรวมสิบพลิกเหรียญล่ะ? นี่คือจุดที่ การแจกแจงทวินาม สามารถช่วยในการคำนวณผลลัพธ์ของการพลิกแต่ละครั้ง และด้วยเหตุนี้จึงค้นหาความน่าจะเป็นที่จะได้เจ็ดหางจากการพลิกเหรียญสิบครั้ง

ปมของการแจกแจงความน่าจะเป็นมาจากความแปรปรวนของเหตุการณ์ใดๆ สำหรับแต่ละชุดการโยนเหรียญสิบครั้ง ความน่าจะเป็นที่จะได้หัวและก้อยสามารถอยู่ที่ใดก็ได้ระหว่างหนึ่งถึงสิบครั้ง เท่าๆ กันและมีแนวโน้ม ความไม่แน่นอนในผลลัพธ์ (หรือที่เรียกว่าความแปรปรวน) ช่วยในการสร้างการกระจายผลลัพธ์ที่เกิดขึ้น

กล่าวอีกนัยหนึ่ง การ แจกแจงทวินาม เป็นกระบวนการที่มีผลลัพธ์ที่เป็นไปได้เพียงสองอย่างเท่านั้น: จริงหรือเท็จ ดังนั้นจึงมีความน่าจะเป็นเท่ากันของทั้งสองผลลัพธ์ในทุกเหตุการณ์ เนื่องจากมีการดำเนินการแบบเดียวกันในแต่ละครั้ง มีข้อแม้เพียงข้อเดียว… ขั้นตอนต้องไม่กระทบกระทั่งกันโดยสิ้นเชิง และผลลัพธ์ที่ได้อาจจะเท่ากันหรือไม่เท่ากันก็ได้

ดังนั้น ฟังก์ชันความน่าจะเป็นของการแจกแจงทวินามคือ:

f f( k k , n n, p p) = P r Pr( k k; n n, p p) = P r Pr ( X X= k k) =

แหล่งที่มา

ที่ไหน,

= น น! k k !( nn n!- k k!)

โดยที่ n = จำนวนการทดลองทั้งหมด

p = ความน่าจะเป็นที่ประสบความสำเร็จ

k = จำนวนเป้าหมายของความสำเร็จ

การกระจายทวินามใน Python

สำหรับการแจกแจงทวินามผ่าน Python คุณสามารถสร้างตัวแปรสุ่มที่แตกต่างจากฟังก์ชัน binom.rvs () โดยที่ 'n' ถูกกำหนดเป็นความถี่ทั้งหมดของการทดลอง และ 'p' เท่ากับความน่าจะเป็นที่ประสบความสำเร็จ

คุณยังสามารถย้ายการแจกแจงโดยใช้ฟังก์ชัน loc และขนาดจะกำหนดความถี่ของการดำเนินการที่เกิดซ้ำในชุดข้อมูล การเพิ่ม random_state สามารถช่วยรักษาความสามารถในการทำซ้ำได้

แหล่งที่มา

ตัวอย่างจริงของการแจกแจงทวินามใน Python

มีเหตุการณ์อีกมากมาย (มากกว่าการโยนเหรียญ) ที่สามารถแก้ไขได้โดยการกระจายทวินามใน Python กรณีการใช้งานบางกรณีสามารถช่วยติดตามและปรับปรุง ROI (ผลตอบแทนจากการลงทุน) สำหรับบริษัทขนาดใหญ่และขนาดเล็ก โดยใช้วิธีดังนี้:

ลองนึกถึงคอลเซ็นเตอร์ที่พนักงานแต่ละคนได้รับมอบหมายโดยเฉลี่ย 50 สายต่อวัน
ความน่าจะเป็นของ Conversion ในการโทรแต่ละครั้งเท่ากับ 4%
การสร้างรายได้เฉลี่ยสำหรับบริษัทตามการแปลงแต่ละครั้งคือ 20 ดอลลาร์สหรัฐ
หากคุณวิเคราะห์พนักงาน 100 คน ซึ่งได้รับเงิน 200 ดอลลาร์สหรัฐฯ ต่อวัน แล้ว

n = 50

พี = 4%

รหัสสามารถสร้างผลลัพธ์ดังต่อไปนี้:

อัตราการแปลงเฉลี่ยของพนักงานแต่ละคน = 2.13
ค่าเบี่ยงเบนมาตรฐานของ Conversion สำหรับเจ้าหน้าที่คอลเซ็นเตอร์แต่ละคน = 1.48
การแปลงรวม = 213
การสร้างรายได้รวม = USD 21,300
ค่าใช้จ่ายรวม = USD 20,000
กำไรขั้นต้น = USD 1,300

แบบจำลองการแจกแจงแบบทวินาม และการแจกแจงความน่าจะเป็นอื่นๆ สามารถคาดการณ์ได้เฉพาะค่าประมาณที่สามารถเข้าใกล้โลกแห่งความจริงในแง่ของพารามิเตอร์การดำเนินการ 'n' และ 'p' ช่วยให้เราเข้าใจและระบุประเด็นที่มุ่งเน้น และปรับปรุงโอกาสโดยรวมของประสิทธิภาพและประสิทธิผลที่ดีขึ้น

อ่านเพิ่มเติม: 13 แนวคิดและหัวข้อโครงการโครงสร้างข้อมูลที่น่าสนใจสำหรับผู้เริ่มต้น

อะไรต่อไป?

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดู โปรแกรม Executive PG ของ IIIT-B & upGrad ใน Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

อะไรคือความแตกต่างระหว่างการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องและการแจกแจงความน่าจะเป็นแบบต่อเนื่อง?

การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องหรือการแจกแจงแบบไม่ต่อเนื่องจะคำนวณความน่าจะเป็นของตัวแปรสุ่มที่สามารถแยกส่วนได้ ตัวอย่างเช่น ถ้าเราโยนเหรียญสองครั้ง ค่าที่น่าจะเป็นของตัวแปรสุ่ม X ซึ่งระบุจำนวนหัวทั้งหมดจะเป็น {0, 1, 2} และไม่ใช่ค่าสุ่มใดๆ Bernoulli, Binomial, Hypergeometric คือตัวอย่างบางส่วนของการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง ในทางกลับกัน การแจกแจงความน่าจะเป็นแบบต่อเนื่องจะให้ความน่าจะเป็นของค่าสุ่มที่สามารถเป็นตัวเลขสุ่มใดๆ ก็ได้ ตัวอย่างเช่น ค่าของตัวแปรสุ่ม X ที่แสดงถึงความสูงของพลเมืองในเมืองอาจเป็นตัวเลขใดๆ เช่น 161.2, 150.9 เป็นต้น ปกติ, T ของนักเรียน, Chi-square คือตัวอย่างบางส่วนของการแจกแจงแบบต่อเนื่อง

ความสำคัญของความน่าจะเป็นในวิทยาศาสตร์ข้อมูลคืออะไร?

เนื่องจากวิทยาศาสตร์ข้อมูลเป็นเรื่องเกี่ยวกับการศึกษาข้อมูล ความน่าจะเป็นจึงมีบทบาทสำคัญที่นี่ เหตุผลต่อไปนี้อธิบายว่าความน่าจะเป็นเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูลอย่างไร: ช่วยให้นักวิเคราะห์และนักวิจัยคาดการณ์จากชุดข้อมูล ผลลัพธ์โดยประมาณเหล่านี้เป็นพื้นฐานสำหรับการวิเคราะห์ข้อมูลต่อไป ความน่าจะเป็นยังใช้ในขณะที่พัฒนาอัลกอริทึมที่ใช้ในแบบจำลองการเรียนรู้ของเครื่อง ช่วยในการวิเคราะห์ชุดข้อมูลที่ใช้ในการฝึกอบรมแบบจำลอง ช่วยให้คุณวัดปริมาณข้อมูลและได้ผลลัพธ์ เช่น อนุพันธ์ ค่าเฉลี่ย และการแจกแจง ผลลัพธ์ทั้งหมดที่ได้รับโดยใช้ความน่าจะเป็นจะสรุปข้อมูลในที่สุด ข้อมูลสรุปนี้ยังช่วยในการระบุค่าผิดปกติที่มีอยู่ในชุดข้อมูล

อธิบายการแจกแจงแบบไฮเปอร์จีโอเมตริก ในกรณีใดที่มีแนวโน้มว่าจะเป็นการแจกแจงแบบทวินาม?

ประสบความสำเร็จมากกว่าจำนวนการทดลองใช้โดยไม่มีการทดแทน สมมติว่าเรามีลูกบอลสีแดงและสีเขียวเต็มถุง และเราต้องหาความน่าจะเป็นที่จะหยิบลูกบอลสีเขียวใน 5 ครั้ง แต่ทุกครั้งที่เราหยิบลูกบอล เราจะไม่ส่งคืนกลับเข้าไปในกระเป๋า นี่เป็นตัวอย่างที่เหมาะสมของการแจกแจงแบบไฮเปอร์จีโอเมตริก
สำหรับ N ที่ใหญ่กว่า การคำนวณการแจกแจงแบบไฮเปอร์จีโอเมตริกเป็นเรื่องยากมาก แต่เมื่อ N มีค่าน้อย มันมักจะมีแนวโน้มในการแจกแจงแบบทวินามในกรณีนี้