Изучите байесовскую классификацию в интеллектуальном анализе данных [2022]

Опубликовано: 2021-03-10

Если вы какое-то время изучали интеллектуальный анализ данных, вы наверняка слышали термин «байесовская классификация». Вы задаетесь вопросом, что это значит и насколько важно это понятие в интеллектуальном анализе данных?

Эта статья ответит на эти вопросы, поскольку вы будете изучать, что такое байесовская классификация в интеллектуальном анализе данных. Давай начнем:

Оглавление

Что такое байесовская классификация?

Во время интеллектуального анализа данных вы обнаружите, что связь между переменной класса и набором атрибутов не является детерминированной. Это означает, что мы не можем принять метку класса тестовой записи с абсолютной уверенностью, даже если набор атрибутов такой же, как в обучающих примерах.

Это может произойти из-за наличия определенных влияющих факторов или зашумленных данных. Предположим, вы хотите предсказать, подвержен ли человек риску сердечных заболеваний, исходя из его привычек в еде. В то время как пищевые привычки человека являются огромным фактором, определяющим, будут ли они страдать от проблем с сердцем или нет, могут быть и другие причины их возникновения, такие как генетика или инфекция.

Таким образом, ваш анализ при определении того, будет ли человек подвергаться риску сердечных заболеваний, основанный только на его привычках в еде, будет ошибочным и может вызвать множество проблем.

Тогда возникает вопрос: «Как вы решаете эту проблему в интеллектуальном анализе данных?» Ответ — байесовская классификация.

Вы можете использовать байесовскую классификацию в интеллектуальном анализе данных, чтобы решить эту проблему и предсказать возникновение любого события. Байесовские классификаторы состоят из статистических классификаторов, использующих понимание байесовской вероятности.

Чтобы понять работу байесовской классификации в интеллектуальном анализе данных, вам придется начать с теоремы Байеса.

Теорема Байеса

Заслуга в теореме Байеса принадлежит Томасу Байесу, который использовал условную вероятность для создания алгоритма, использующего доказательства для вычисления пределов неизвестных параметров. Он был первым, кто придумал это решение.

Математически теорема Байеса выглядит так:

Р(А/В) = Р(В/А)Р(А) Р(В)

Здесь A и B представляют события, а P(B) не может быть равно нулю.

П(Б) 0

P(B/A) — условная вероятность, которая объясняет возникновение события B, когда A истинно. Точно так же P(A/B) — это условная вероятность, которая объясняет возникновение события A, когда B истинно.

P(B) и P(A) — это вероятности наблюдения B и A независимо друг от друга, и они называются пограничными вероятностями.

Байесовская интерпретация

В байесовской интерпретации вероятность вычисляет степень доверия. Согласно теореме Байеса, степень веры в гипотезу до рассмотрения доказательств связана со степенью веры в гипотезу после ее рассмотрения.

Предположим, у вас есть монета. Если вы подбросите монету один раз, выпадет либо орел, либо решка, и вероятность того, что они выпадут, составляет 50%. Однако, если вы подбросите монету несколько раз и понаблюдаете за результатами, степень веры может увеличиться, уменьшиться или остаться неизменной в зависимости от результатов.

Если у вас есть утверждение А и свидетельство Б, то:

P(A) — первичная степень уверенности в A. P(A/B) — апостериорная степень уверенности после учета B. Отношение P(B/A)/P(B) показывает поддержку, которую B предлагает для A. .

Вы можете вывести теорему Байеса из условной вероятности:

P(A/B) = P(A B) P(B) , если P(B) 0

P(B/A) = P(BA ) P(A) , если P(A) 0

Здесь P( AB) — это совместная вероятность того, что и A, и B верны, потому что:

Р (В А) = Р (А В)

ИЛИ, P(A B) = P( A B )P(B) = P( B A )P(A)

ИЛИ, P( A B ) = P( B A )P(A) P(B) , ЕСЛИ P(B) 0

Байесовская сеть

Мы используем байесовские сети (также известные как сети доверия) для отображения неопределенностей с помощью DAG (направленных ациклических графов). Направленный ациклический график показывает байесовскую сеть, как и любой другой статистический график. Он содержит группу узлов и ссылок, где ссылки обозначают соединение между соответствующими узлами.

Каждый узел в направленном ациклическом графе представляет собой случайную величину. Переменные могут быть непрерывными или дискретными значениями и могут соответствовать фактическим атрибутам данных.

Байесовская сеть позволяет определить условную независимость класса между подмножествами переменных. Это дает вам графическую модель отношения, на которой вы будете выполнять реализации.

Помимо DAG, байесовская сеть также имеет набор таблиц условной вероятности.

Заключение

К настоящему времени вы должны быть знакомы с основами байесовской классификации в интеллектуальном анализе данных. Понимание теоремы, лежащей в основе применения реализаций интеллектуального анализа данных, жизненно важно для достижения прогресса.

Что вы думаете о байесовской классификации в интеллектуальном анализе данных? Вы пробовали его реализовать? Поделитесь своими ответами в комментариях. Мы хотели бы услышать от вас.

Если вам интересно узнать о науке о данных, ознакомьтесь с дипломом IIIT-B & upGrad PG в области науки о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Что такое классификация и регрессия в машинном обучении?

Классификация и регрессия — это разновидности алгоритмов обучения с учителем, используемые в машинном обучении. Но между этими алгоритмами есть определенные явные различия. Алгоритм регрессии в машинном обучении используется для оценки непрерывного значения переменной на основе определенных входных переменных. Этот алгоритм используется для вычисления непрерывных переменных, таких как рост, доход, вес, баллы, погода и т. д. То есть его можно использовать только для вычисления дискретных значений целочисленного формата. Алгоритм классификации используется для вычисления значений дискретных переменных. Интересно, что методы классификации могут иметь дело как с дискретными, так и с действительными переменными, но они должны быть отнесены к отдельным классифицированным или маркированным категориям.

Являются ли интеллектуальный анализ данных и машинное обучение одним и тем же?

Каковы преимущества интеллектуального анализа данных?

Интеллектуальный анализ данных эффективно предлагает средства для решения проблем, связанных с данными или информацией в этом мире, ориентированном на данные. Это помогает предприятиям собирать полезную и надежную информацию. В результате компании могут основывать свои решения или изменять операции, которые в конечном итоге приносят больше прибыли. Интеллектуальный анализ данных играет решающую роль, помогая компаниям принимать обоснованные решения, выявлять и снижать риски и минимизировать случаи мошенничества. Специалисты по данным могут быстро просматривать огромные объемы ежедневных данных, используя экономичные и эффективные методы интеллектуального анализа данных.