Статистика для машинного обучения: все, что вам нужно знать
Опубликовано: 2021-03-12Статистика и вероятность составляют основу машинного обучения и науки о данных. Именно статистический анализ в сочетании с вычислительной мощностью и оптимизацией позволяет машинному обучению достичь того, чего он достигает сегодня. Эти темы, от основ вероятности до описательной и логической статистики, составляют основу машинного обучения.
К концу этого урока вы будете знать следующее:
- Основы вероятности
- Распределения вероятностей
- Нормальное распределение
- Меры центральной тенденции
- Центральная предельная теорема
- Стандартное отклонение и стандартная ошибка
- Асимметрия и эксцесс
Оглавление
Основы вероятности
Независимые и зависимые события
Рассмотрим 2 события, событие А и событие В. Когда вероятность наступления события А не зависит от наступления события В, то А и В являются независимыми событиями. Например, если у вас есть 2 честные монеты, то вероятность выпадения орла на обеих монетах будет равна 0,5 для обеих. Следовательно, события независимы.
Теперь рассмотрим коробку с 5 шарами — 2 черными и 3 красными. Вероятность того, что первым вытащит черный шар, будет равна 2/5. Теперь вероятность снова вытащить черный шар из оставшихся 4 шаров будет равна 1/4. В этом случае два события являются зависимыми, так как вероятность извлечения черного шара во второй раз зависит от того, какой шар был извлечен в первый раз.
Предельная вероятность
Это вероятность события независимо от результатов других случайных величин, например P(A) или P(B).
Совместная вероятность
Это вероятность того, что два разных события произойдут одновременно, т. е. два (или более) одновременных события, например P(A и B) или P(A, B).
Условная возможность
Это вероятность одного (или нескольких) событий при наличии другого события, или, другими словами, это вероятность того, что событие A произойдет, когда истинно вторичное событие B. например, P(A при заданном B) или P(A | B).
Присоединяйтесь к онлайн- курсу машинного обучения в ведущих университетах мира — магистерским программам, программам последипломного образования для руководителей и продвинутой сертификационной программе в области машинного обучения и искусственного интеллекта, чтобы ускорить свою карьеру.
Распределения вероятностей
Распределения вероятностей отображают распределение точек данных в выборочном пространстве. Это помогает нам увидеть вероятность выборки определенных точек данных при случайной выборке из населения. Например, если совокупность состоит из оценок учеников школы, то распределение вероятностей будет иметь оценки по оси X и количество учеников с этими оценками по оси Y. Это также называется гистограммой . Гистограмма представляет собой разновидность дискретного распределения вероятностей . Основными типами дискретного распределения являются биномиальное распределение, распределение Пуассона и равномерное распределение.
С другой стороны, непрерывное распределение вероятностей выполняется для данных, которые имеют непрерывную ценность. Другими словами, когда он может иметь бесконечный набор значений, таких как высота, скорость, температура и т. Д. Непрерывные распределения вероятностей имеют огромное применение в науке о данных и статистическом анализе для проверки важности функций, распределения данных, статистических тестов и т. д.
Также прочитайте математику, стоящую за машинным обучением.
Нормальное распределение
Наиболее известным непрерывным распределением является нормальное распределение, также известное как распределение Гаусса или «кривая Белла».
Рассмотрим нормальное распределение роста людей. Большинство высот сгруппированы в средней части, которая выше и постепенно уменьшается к левому и правому краям, что означает более низкую вероятность случайного получения этого значения.
Эта кривая находится в центре своего среднего значения и может быть высокой и тонкой, а может быть короткой и растянутой. Тонкий означает, что существует меньшее количество различных значений, которые мы можем выбрать. А более широкая кривая показывает, что существует более широкий диапазон значений. Этот спред определяется его стандартным отклонением .
Чем больше стандартное отклонение, тем больше будет разброс ваших данных. Стандартное отклонение — это просто математический вывод другого свойства, называемого дисперсией, которое определяет, насколько данные «изменяются». И дисперсия — это то, что касается данных. Дисперсия — это информация. Нет дисперсии, нет информации. Нормальное распределение играет решающую роль в статистике — Центральная предельная теорема.
Меры центральной тенденции
Показатели центральной тенденции — это способы, с помощью которых мы можем обобщить набор данных, взяв одно значение. Есть 3 меры тенденции в основном:
1. Среднее: среднее значение — это просто среднее арифметическое или среднее значение данных/функции. Сумма всех значений, деленная на количество значений, дает нам среднее значение. Среднее обычно является наиболее распространенным способом измерения центра любых данных, но в некоторых случаях может вводить в заблуждение. Например, когда имеется много выбросов, среднее значение начнет смещаться в сторону выбросов и будет плохой мерой центра ваших данных.
2. Медиана : Медиана — это точка данных, которая находится точно в центре, когда данные сортируются в порядке возрастания или убывания. Когда количество точек данных нечетное, медиану легко выбрать как самую центральную точку. Когда количество точек данных четное, медиана рассчитывается как среднее значение двух центральных точек данных.
3. Режим: режим — это точка данных, которая чаще всего присутствует в наборе данных. Режим остается наиболее устойчивым к выбросам, поскольку он по-прежнему остается фиксированным в наиболее часто встречающейся точке.
Центральная предельная теорема
Центральная предельная теорема в статистике утверждает, что при достаточно большом размере выборки распределение выборки будет приближаться к нормальному распределению независимо от распределения этой переменной. Позвольте мне изложить суть вышеприведенного утверждения простыми словами.
Данные могут иметь любое распределение. Оно может быть идеальным или асимметрично-нормальным, оно может быть экспоненциальным или (почти) любым распределением, которое вы можете себе представить. Однако, если вы неоднократно берете выборки из населения и продолжаете строить гистограммы их средних значений, вы в конечном итоге обнаружите, что это новое распределение всех средних значений напоминает нормальное распределение!
По сути, не имеет значения, в каком распределении находятся ваши данные, распределение их средних значений всегда будет нормальным.
Но сколько выборок необходимо, чтобы считать CLT верным? Эмпирическое правило гласит, что оно должно быть >30. Таким образом, если вы возьмете 30 или более образцов из любого дистрибутива, средние значения будут распределены нормально, независимо от базового типа дистрибутива.
Стандартное отклонение и стандартная ошибка
Стандартное отклонение и стандартную ошибку часто путают друг с другом. Стандартное отклонение, как вы, возможно, знаете, описывает или количественно оценивает вариацию данных по обеим сторонам распределения — ниже среднего и выше среднего. Если ваши точки данных разбросаны по большому диапазону значений, стандартное отклонение будет высоким.
Теперь, как мы обсуждали выше, согласно центральной предельной теореме, если мы нанесем на график средние значения всех выборок из совокупности, распределение этих средних снова будет нормальным распределением. Так что у него будет свое собственное стандартное отклонение, верно?
Стандартное отклонение средних значений всех выборок из совокупности называется стандартной ошибкой. Значение стандартной ошибки обычно будет меньше стандартного отклонения, так как вы вычисляете стандартное отклонение средних значений, а значение средних значений будет меньше разброса, чем отдельные точки данных, из-за агрегирования.
Вы даже можете рассчитать стандартное отклонение медиан, режим или даже стандартное отклонение стандартных отклонений!
Прежде чем ты уйдешь
Статистические концепции составляют основу Data Science и ML. Чтобы иметь возможность делать правильные выводы и эффективно понимать имеющиеся данные, вам необходимо иметь четкое представление о статистических и вероятностных концепциях, обсуждаемых в этом руководстве.
upGrad предлагает программу Executive PG в области машинного обучения и искусственного интеллекта и степень магистра наук в области машинного обучения и искусственного интеллекта , которые могут помочь вам построить карьеру. Эти курсы объяснят необходимость машинного обучения и дальнейшие шаги по сбору знаний в этой области, охватывающие различные концепции, от градиентного спуска до машинного обучения.
Обязательно ли знание статистики для успешного машинного обучения?
Статистика — очень обширная область. В машинном обучении статистика в основном помогает глубже понять данные. Некоторые статистические понятия, такие как вероятность, интерпретация данных и т. д., необходимы в нескольких алгоритмах машинного обучения. Однако вам не обязательно быть экспертом во всех темах статистики, чтобы преуспеть в машинном обучении. Зная только основные понятия, вы сможете работать эффективно.
Поможет ли предварительное знание кода в машинном обучении?
Кодирование — это сердце машинного обучения, и программисты, которые понимают, как хорошо кодировать, будут иметь глубокое понимание того, как работают алгоритмы, и, таким образом, смогут более эффективно отслеживать и оптимизировать эти алгоритмы. Вам не нужно быть экспертом в каком-либо языке программирования, хотя любые предварительные знания будут полезны. Если вы новичок, Python — хороший выбор, поскольку он прост в освоении и имеет удобный синтаксис.
Как мы используем вычисления в повседневной жизни?
Прогнозы погоды основаны на ряде переменных, таких как скорость ветра, влажность и температура, которые можно рассчитать только с помощью исчисления. Использование исчисления также можно увидеть в авиационной технике по-разному. Расчет также используется в автомобильной промышленности для улучшения и обеспечения безопасности транспортных средств. Он также используется компаниями-эмитентами кредитных карт для оплаты.