確率質量関数:離散分布とプロパティ

公開: 2021-02-08

目次

序章

データサイエンスの分野では、確率が重要な側面になっています。 これは、データアナリストやデータサイエンティストの生活において極めて重要な役割を果たしてきました。 確率論で使用される概念は、データサイエンスドメインの人々にとって必見です。 特定の予測を行うために使用される統計手法は、確率論と統計に基づいているため、確率はデータサイエンスドメインの重要な部分になります。

確率は、いくつかの仮定の下で特定のイベントの発生に関する情報を提供します。つまり、イベントが発生する可能性を示します。 確率変数がとることができるさまざまな可能な値を表すために、確率分布を利用します。

確率変数は、特定の状況で発生する可能性のあるさまざまな結果と呼ばれることがあります。 たとえば、サイコロを振った場合、この状況で考えられる結果は1から6の範囲の値であり、これが確率変数の値になります。

確率分布には、次の2つのタイプがあります。–離散と連続。 離散分布は、範囲内の限られた数の値のみをとる変数用です。 連続分布は、範囲内で無限の数の値をとることができる変数用です。 この記事では、離散分布についてさらに詳しく調べ、後で確率質量関数について詳しく説明します。

離散分布

離散分布は、離散確率変数のさまざまな結果の確率を表します。 簡単に言えば、確率変数のさまざまな結果のパターンを理解することができます。 これは、確率変数をまとめたすべての確率の表現に他なりません。

確率変数の確率分布を作成するには、確率変数の結果とそれに関連する確率を取得する必要があります。これにより、確率分布関数を計算できます。

離散分布のタイプのいくつかを以下にリストします。–

  1. 二項分布:– 1回の試行での結果の数は2つだけです(はいまたはいいえ、成功または失敗など)。 例:–コインを投げる
  2. ベルヌーイ分布:–実験で実行された試行の数が常に1に等しい二項分布の特別なバージョン。
  3. ポアソン分布:–特定の期間に特定の回数発生するイベントの確率を提供します。 例:–土曜日の夜に映画がストリーミングされる回数。
  4. 一様分布:–この分布は、確率変数のすべての結果の確率が同じであることを前提としています。 例:–サイコロを振る(すべての面が現れる確率が等しいため)。

連続分布と離散分布のタイプの詳細については、このリンクを参照してください。 その値が範囲内のある値に等しい確率変数の確率を計算するために、確率質量関数(PMF)が使用されます。 すべての分布について、確率質量関数の式はそれに応じて異なります。

確率質量関数をより明確にするために、例を見ていきましょう。 関連するデータがあれば、クリケットのどのバッティングポジションがチーム内で1世紀を記録する可能性が高いかを把握する必要があるとします。 チームには11のプレイポジションしか存在できないため、確率変数は1から11の範囲の値を取ります。

離散密度関数とも呼ばれる確率質量関数を使用すると、各位置、つまりP(X = 1)、P(X = 2)….P(X = 11)の1世紀をスコアリングする確率を見つけることができます。 すべての確率を計算した後、その確率変数の確率分布を計算できます。

確率質量関数の一般式は次のとおりです。–

P X (x k )= P(X = x k )for k = 1,2、…k

どこ、

X=離散確率変数。

xk =確率変数の可能な値。

P =xkに等しい場合の確率変数の確率

多くの人が、確率質量関数(PMF)と確率密度関数(PDF)の間の混乱に陥ります。 これを明確にするために、確率質量関数は、離散確率変数、つまり範囲内の限られた数の値を取ることができる変数に対するものです。

確率密度関数は、連続確率変数に使用されます。 つまり、範囲内で無限の数の値を取ることができる変数。 確率質量関数は、離散分布の平均や分散などの一般的な統計の計算に役立ちます。

世界のトップ大学からデータサイエンス認定を取得します。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムに参加して、キャリアを早めに進めましょう。

確率質量関数の特性

  1. 確率変数のすべての可能な値の確率は、合計で1になるはずです。[∑P X (x k )= 1]
  2. すべての確率は0または0より大きい必要があります。[P(x k )≥0]
  3. 各イベントが発生する確率は0から1の範囲です。[1≥P(x k )≥0]

結論

確率質量関数のような確率の概念は、データサイエンスの分野で非常に役立ちました。 これらの概念は、データサイエンスプロジェクトのすべての側面で使用されるわけではなく、プロジェクト全体でも使用されるとは限りません。 しかし、これはこの領域における確率論の重要性を軽視するものではありません。

確率論の応用は、データサイエンスの分野だけでなく、業界の他の分野でも素晴らしい結果をもたらしました。これは、興味深い洞察や意思決定に役立ち、常に試してみる価値があります。

この記事では、データサイエンスの分野における確率の重要性の概要を説明し、確率分布や確率質量関数などの確率の基本概念を紹介しました。 この記事では、確率質量関数が使用されるため、主に離散変数項に焦点を当てています。 連続変数に使用される用語は異なりますが、これらの概念の全体的なイデオロギーは、この記事で説明したものと同じままです。

離散確率分布は連続確率分布とどのように異なりますか?

離散確率分布または単純な離散分布は、離散する可能性のある確率変数の確率を計算します。 たとえば、コインを2回投げた場合、頭の総数を表す確率変数Xの推定値は{0、1、2}になり、ランダムな値にはなりません。
ベルヌーイ、二項、超幾何分布は、離散確率分布のいくつかの例です。
一方、連続確率分布は、任意の乱数にすることができるランダム値の確率を提供します。 たとえば、都市の市民の身長を表す確率変数Xの値は、161.2、150.9などの任意の数値にすることができます。
通常、スチューデントのT、カイ2乗は、連続分布の例の一部です。

超幾何分布を説明しますか?

超幾何分布は離散分布であり、置換なしの試行回数に対する成功数を考慮します。 このようなタイプの分布は、何かを置き換えることなく確率を見つける必要がある場合に役立ちます。
赤と緑のボールでいっぱいのバッグがあり、5回の試行で緑のボールを選ぶ確率を見つける必要があるとしましょう。しかし、ボールを選ぶたびに、ボールをバッグに戻すことはありません。 これは、超幾何分布の適切な例です。

データサイエンスにおける確率の重要性は何ですか?

データサイエンスはデータの研究がすべてであるため、ここでは確率が重要な役割を果たします。 次の理由は、確率がデータサイエンスの不可欠な部分である方法を説明しています。
1.アナリストや研究者がデータセットから予測を行うのに役立ちます。 これらの種類の推定結果は、データをさらに分析するための基盤となります。
2.確率は、機械学習モデルで使用されるアルゴリズムを開発する際にも使用されます。 これは、モデルのトレーニングに使用されるデータセットの分析に役立ちます。
3.データを定量化し、導関数、平均、分布などの結果を導き出すことができます。
4.確率を使用して達成されたすべての結果は、最終的にデータを要約します。 この要約は、データセット内の既存の外れ値の識別にも役立ちます。