Olasılık Kütle Fonksiyonu: Ayrık Dağılım ve Özellikler

Yayınlanan: 2021-02-08

İçindekiler

Tanıtım

Veri Bilimi alanında olasılık önemli bir husus olmuştur. Veri analistlerinin ve veri bilimcilerinin yaşamlarında çok önemli bir rol oynamıştır. Olasılık teorisinde kullanılan kavramlar, Veri Bilimi alanındaki kişilerin bilmesi gereken bir kavramdır. Belirli tahminler yapmak için kullanılan istatistiksel yöntemler, olasılık ve istatistik teorilerine dayanır, bu nedenle olasılığı veri bilimi alanının çok önemli bir parçası haline getirir.

Olasılık, bazı varsayımlar altında belirli bir olayın meydana gelmesi hakkında bilgi verir, yani bir olayın meydana gelme olasılığını gösterir. Rastgele bir değişkenin alabileceği farklı olası değerleri temsil etmek için olasılık dağılımını kullanırız.

Rastgele bir değişken, belirli bir durumda mümkün olan farklı sonuçlar olarak adlandırılabilir. Örnek vermek gerekirse, bir zar atılırsa, bu durum için olası sonuçlar, rastgele değişkenin değerleri haline gelen 1 ile 6 arasında değişen değerlerdir.

Olasılık Dağılımı iki tür olabilir: – Ayrık ve Sürekli. Kesikli dağılımlar, bir aralık içinde yalnızca sınırlı sayıda değer alan değişkenler içindir. Sürekli dağılımlar, bir aralık içinde sonsuz sayıda değer alabilen değişkenler içindir. Bu makalede, ayrık dağılımı ve daha sonra Olasılık Kütle Fonksiyonunu daha fazla keşfedeceğiz.

Ayrık Dağıtım

Ayrık dağılım, ayrı bir rastgele değişken için farklı sonuçların olasılıklarını temsil eder. Basit bir ifadeyle, rastgele değişkendeki farklı sonuçların modelini anlamamızı sağlar. Rastgele bir değişkenin tüm olasılıklarının bir araya getirilmesinden başka bir şey değildir.

Rastgele bir değişken için bir olasılık dağılımı oluşturmak için, rasgele değişkenin sonuçlarını, ilişkili olasılıklarıyla birlikte almamız gerekir ve ardından olasılık dağılım fonksiyonunu hesaplayabiliriz.

Ayrık dağıtım türlerinden bazıları aşağıda listelenmiştir: –

  1. Binom Dağılımı: – Tek bir denemedeki sonuçların sayısı yalnızca iki olabilir (evet veya hayır, başarı veya başarısızlık vb.). Örnek: – Yazı tura atmak
  2. Bernoulli Dağılımı: – Deneyde yürütülen deneme sayısının her zaman 1'e eşit olduğu Binom dağılımının özel bir versiyonu.
  3. Poisson Dağılımı: – Bir olayın belirli bir zaman diliminde belirli sayıda meydana gelme olasılığını sağlar. Örnek: – Bir filmin Cumartesi gecesi yayınlanma sayısı.
  4. Düzgün Dağılım: – Bu dağılım, rastgele bir değişkendeki tüm sonuçların olasılığının aynı olduğunu varsayar. Örnek: – Bir zarın yuvarlanması (çünkü tüm tarafların ortaya çıkma olasılığı eşittir).

Sürekli ve ayrık dağıtım türleri hakkında daha fazla ayrıntı için bu bağlantıya başvurabilirsiniz . Değeri aralık içindeki bir değere eşit olan bir rastgele değişkenin olasılığını hesaplamak için Olasılık Kütle Fonksiyonu (PMF) kullanılır. Her dağılım için, olasılık kütle fonksiyonunun formülü buna göre değişir.

Olasılık kütle fonksiyonunu daha iyi anlamak için bir örnek üzerinden gidelim. Bazı ilgili verilerimiz olması koşuluyla, kriketteki hangi vuruş pozisyonlarının bir takımda bir asırlık gol atma olasılığının daha yüksek olduğunu bulmamız gerektiğini varsayalım. Artık takımda sadece 11 oyun pozisyonu olabileceğinden, rastgele değişken 1 ile 11 arasında değişen değerler alacaktır.

Ayrık Yoğunluk Fonksiyonu olarak da adlandırılan Olasılık Kütle Fonksiyonu, her bir pozisyon için bir yüzyıl puanlama olasılığını bulmamızı sağlar, yani P(X=1), P(X=2)….P(X=11). Tüm olasılıkların hesaplanmasından sonra, o rastgele değişkenin olasılık dağılımını hesaplayabiliriz.

Olasılık kütle fonksiyonu için genel formül aşağıdaki gibidir: –

k = 1,2,…k için P X (x k ) = P(X = x k )

nerede,

X = Ayrık rastgele değişken.

x k = Rastgele değişkenin olası değeri.

P = Rastgele değişkenin x k'ye eşit olma olasılığı .

Birçoğu, Olasılık Kütle Fonksiyonu (PMF) ve Olasılık Yoğunluk Fonksiyonu (PDF) arasındaki kafa karışıklığına kapılır. Bunu açıklığa kavuşturmak için, olasılık kütle fonksiyonu kesikli rastgele değişkenler içindir, yani bir aralık içinde sınırlı sayıda değer alabilen değişkenler.

Sürekli rastgele değişkenler için olasılık yoğunluk fonksiyonu kullanılır. yani bir aralıkta sonsuz sayıda değer alabilen değişkenler. Olasılık kütle fonksiyonu, ayrık dağılımın ortalaması ve varyansı gibi genel istatistiklerin hesaplanmasına yardımcı olur.

Dünyanın en iyi Üniversitelerinden veri bilimi sertifikası kazanın . Kariyerinizi hızlandırmak için Yönetici PG Programlarımıza, İleri Düzey Sertifika Programlarımıza veya Yüksek Lisans Programlarımıza katılın.

Olasılık Kütle Fonksiyonunun Özellikleri

  1. Rastgele değişkenin tüm olası değerlerinin olasılıklarının toplamı 1 olmalıdır. [ ∑P X (x k ) = 1]
  2. Tüm olasılıklar 0 veya 0'dan büyük olmalıdır. [P(x k ) ≥ 0]
  3. Her olayın meydana gelme olasılığı 0 ile 1 arasındadır. [1 ≥ P(x k ) ≥ 0]

Çözüm

Olasılık Kütle Fonksiyonu gibi olasılık kavramları, veri bilimi alanında çok faydalı olmuştur. Bu kavramlar, bir veri bilimi projesinin her alanında veya bu nedenle tüm projede de kullanılamaz. Ancak bu, olasılık teorisinin bu alandaki önemini küçümsemez.

Olasılık teorisinin uygulamaları, yalnızca veri bilimi alanında değil, endüstrinin diğer alanlarında da harika sonuçlar sağlamıştır, çünkü her zaman denemeye değer kılan ilginç içgörüler ve karar vermede yardımcı olabilir.

Bu makale, veri bilimi alanında olasılığın önemine genel bir bakış sağladı, olasılık dağılımı ve olasılık kütle fonksiyonu gibi temel olasılık kavramlarını tanıttı. Makale esas olarak ayrık değişken terimlerine odaklanmıştır, çünkü onlar için olasılık kütle fonksiyonu kullanılır. Sürekli değişkenler için kullanılan terminolojiler farklıdır, ancak bu kavramların genel ideolojisi bu makalede açıklanana benzer kalır.

Kesikli bir olasılık dağılımının sürekli bir olasılık dağılımından farkı nedir?

Ayrık olasılık dağılımı veya basitçe ayrık dağılım, ayrık olabilen rastgele bir değişkenin olasılıklarını hesaplar. Örneğin, iki kez yazı tura atarsak, toplam tura sayısını gösteren rastgele bir X değişkeninin olası değerleri {0, 1, 2} olur ve herhangi bir rastgele değer olmaz.
Bernoulli, Binomial, Hypergeometric, kesikli olasılık dağılımının bazı örnekleridir.
Öte yandan, sürekli olasılık dağılımı, herhangi bir rastgele sayı olabilen rastgele bir değerin olasılıklarını sağlar. Örneğin, bir şehrin vatandaşlarının boyunu gösteren rastgele bir X değişkeninin değeri, 161.2, 150,9 gibi herhangi bir sayı olabilir.
Normal, Student's T, Ki-kare sürekli dağılım örneklerinden bazılarıdır.

Hipergeometrik dağılımı açıklar mısınız?

Hipergeometrik dağılım, başarı sayısını herhangi bir değiştirme olmaksızın deneme sayısı üzerinden değerlendirdiğimiz kesikli bir dağılımdır. Böyle bir dağıtım türü, bir şeyin olasılığını değiştirmeden bulmamız gereken durumlarda yararlıdır.
Diyelim ki kırmızı ve yeşil toplarla dolu bir çantamız var ve 5 denemede yeşil top alma olasılığını bulmamız gerekiyor ama her top aldığımızda tekrar torbaya geri vermiyoruz. Bu hipergeometrik dağılımın uygun bir örneğidir.

Veri Biliminde olasılığın önemi nedir?

Veri bilimi tamamen verileri incelemekle ilgili olduğundan, burada olasılık önemli bir rol oynar. Aşağıdaki nedenler, olasılığın veri biliminin vazgeçilmez bir parçası olduğunu açıklar:
1. Analistlerin ve araştırmacıların veri kümelerinden tahminler yapmasına yardımcı olur. Bu tür tahmini sonuçlar, verilerin daha fazla analizi için temel oluşturur.
2. Makine öğrenmesi modellerinde kullanılan algoritmalar geliştirilirken de olasılıktan yararlanılır. Modelleri eğitmek için kullanılan veri setlerinin analizine yardımcı olur.
3. Verileri nicelleştirmenize ve türevler, ortalama ve dağılım gibi sonuçlar türetmenize olanak tanır.
4. Olasılık kullanılarak elde edilen tüm sonuçlar sonunda verileri özetler. Bu özet aynı zamanda veri kümelerindeki mevcut aykırı değerlerin belirlenmesine de yardımcı olur.