Функция массы вероятности: дискретное распределение и свойства

Опубликовано: 2021-02-08

Оглавление

Введение

Вероятность была важным аспектом, когда речь шла о науке о данных. Он сыграл ключевую роль в жизни аналитиков данных и специалистов по данным. Понятия, используемые в теории вероятностей, необходимо знать людям, занимающимся наукой о данных. Статистические методы, используемые для определенных прогнозов, основаны на теориях вероятности и статистике, что делает вероятность важной частью области науки о данных.

Вероятность дает информацию о возникновении определенного события при некоторых предположениях, т.е. указывает на вероятность возникновения события. Чтобы представить различные возможные значения, которые может принимать случайная величина, мы используем распределение вероятностей.

Случайной величиной можно назвать различные исходы, возможные в данной ситуации. Чтобы проиллюстрировать, если бросается кубик, то возможными результатами для этой ситуации являются значения от 1 до 6, которые становятся значениями случайной величины.

Вероятностное распределение может быть двух типов: – дискретное и непрерывное. Дискретные распределения предназначены для переменных, которые принимают только ограниченное число значений в пределах диапазона. Непрерывные распределения предназначены для переменных, которые могут принимать бесконечное число значений в пределах диапазона. В этой статье мы будем больше изучать дискретное распределение, а затем и функцию массы вероятности.

Дискретное распределение

Дискретное распределение представляет вероятности различных результатов для дискретной случайной величины. Проще говоря, это позволяет нам понять закономерность различных результатов в случайной величине. Это не что иное, как представление всех вероятностей случайной величины, вместе взятых.

Чтобы создать распределение вероятностей для случайной величины, нам нужно иметь результаты случайной величины вместе со связанными с ней вероятностями, а затем мы можем вычислить ее функцию распределения вероятностей.

Некоторые из типов дискретных распределений перечислены ниже:

  1. Биномиальное распределение: – количество результатов в одном испытании может быть только два (да или нет, успех или неудача и т. д.). Пример: – Подбрасывание монеты.
  2. Распределение Бернулли: специальный вариант биномиального распределения, в котором количество испытаний, проводимых в эксперименте, всегда равно 1.
  3. Распределение Пуассона: – оно обеспечивает вероятность того, что событие произойдет определенное количество раз в определенный период времени. Пример: – Сколько раз фильм будет транслироваться в субботу вечером.
  4. Равномерное распределение: это распределение предполагает, что вероятность всех результатов в случайной величине одинакова. Пример: – Бросание игральной кости (поскольку все стороны имеют одинаковую вероятность выпадения).

Вы можете обратиться к этой ссылке для получения более подробной информации о типах непрерывного и дискретного распределения. Для расчета вероятности случайной величины, значение которой равно некоторому значению в пределах диапазона, используется функция массы вероятности (PMF). Для каждого распределения формула функции массы вероятности изменяется соответственно.

Чтобы лучше понять функцию массы вероятности, давайте рассмотрим пример. Предположим, нам нужно выяснить, какая из позиций в крикете имеет больше шансов забить столетие в команде, при условии, что у нас есть соответствующие данные. Теперь, поскольку в команде может быть только 11 игровых позиций, случайная величина будет принимать значения от 1 до 11.

Функция массы вероятности, также называемая дискретной функцией плотности, позволит нам узнать вероятность выигрыша столетия для каждой позиции, т.е. P(X=1), P(X=2)….P(X=11). После вычисления всех вероятностей мы можем вычислить распределение вероятностей этой случайной величины.

Общая формула для функции массы вероятности выглядит следующим образом: –

P X (x k ) = P(X = x k ) для k = 1,2,…k

куда,

X = дискретная случайная величина.

x k = возможное значение случайной величины.

P = вероятность случайной величины, когда она равна x k .

Многие путают функцию массы вероятности (PMF) и функцию плотности вероятности (PDF). Чтобы прояснить это, функция массы вероятности предназначена для дискретных случайных величин, т. е. переменных, которые могут принимать ограниченное число значений в пределах диапазона.

Функция плотности вероятности используется для непрерывных случайных величин. т.е. переменные, которые могут принимать бесконечное число значений в диапазоне. Функция массы вероятности помогает в расчете общей статистики, такой как среднее значение и дисперсия дискретного распределения.

Получите сертификат по науке о данных от лучших университетов мира. Присоединяйтесь к нашим программам Executive PG, Advanced Certificate Programs или Masters Programs, чтобы ускорить свою карьеру.

Свойства функции массы вероятности

  1. Вероятности всех возможных значений случайной величины должны в сумме равняться 1. [∑P X (x k ) = 1]
  2. Все вероятности должны быть равны 0 или больше 0. [P(x k ) ≥ 0]
  3. Вероятность каждого события колеблется от 0 до 1. [1 ≥ P(x k ) ≥ 0]

Заключение

Понятия вероятности, такие как функция массы вероятности, были очень полезны в области науки о данных. Эти концепции могут не использоваться в каждом аспекте проекта по науке о данных или, если уж на то пошло, во всем проекте. Но это не умаляет значения теории вероятностей в этой области.

Применение теории вероятностей дало отличные результаты не только в области науки о данных, но и в других областях отрасли, поскольку она может помочь в интересных выводах и принятии решений, что всегда стоит попробовать.

В этой статье представлен обзор важности вероятности в области науки о данных, представлены основные понятия вероятности, такие как распределение вероятностей и функция массы вероятностей. В статье основное внимание уделялось терминам дискретной переменной, поскольку для них используется функция массы вероятности. Терминология, используемая для непрерывных переменных, отличается, но общая идеология этих понятий остается похожей на ту, что объясняется в этой статье.

Чем дискретное распределение вероятностей отличается от непрерывного распределения вероятностей?

Дискретное распределение вероятностей или просто дискретное распределение вычисляет вероятности случайной величины, которая может быть дискретной. Например, если мы подбросим монету дважды, вероятные значения случайной величины X, обозначающей общее количество выпавших орлов, будут {0, 1, 2}, а не любое случайное значение.
Бернулли, биномиальное, гипергеометрическое — вот некоторые примеры дискретного распределения вероятностей.
С другой стороны, непрерывное распределение вероятностей обеспечивает вероятность случайного значения, которое может быть любым случайным числом. Например, значение случайной величины X, обозначающей рост жителей города, может быть любым числом, например 161,2, 150,9 и т. д.
Нормальный, Т Стьюдента, хи-квадрат - вот некоторые из примеров непрерывного распределения.

Объясните гипергеометрическое распределение?

Гипергеометрическое распределение — это дискретное распределение, в котором мы рассматриваем количество успехов по количеству испытаний без какой-либо замены. Такой тип распределения полезен в тех случаях, когда нам нужно найти вероятность чего-то, не заменяя его.
Допустим, у нас есть сумка, полная красных и зеленых шаров, и мы должны найти вероятность вытащить зеленый шар за 5 попыток, но каждый раз, когда мы выбираем мяч, мы не возвращаем его обратно в мешок. Это удачный пример гипергеометрического распределения.

Какова важность вероятности в науке о данных?

Поскольку наука о данных занимается изучением данных, вероятность играет здесь ключевую роль. Следующие причины описывают, как вероятность является неотъемлемой частью науки о данных:
1. Это помогает аналитикам и исследователям делать прогнозы на основе наборов данных. Такого рода оценочные результаты являются основой для дальнейшего анализа данных.
2. Вероятность также используется при разработке алгоритмов, используемых в моделях машинного обучения. Это помогает анализировать наборы данных, используемые для обучения моделей.
3. Это позволяет вам количественно оценивать данные и получать такие результаты, как производные, среднее значение и распределение.
4. Все результаты, полученные с помощью вероятности, в конечном итоге суммируют данные. Эта сводка также помогает выявить существующие выбросы в наборах данных.