Estadísticas para el aprendizaje automático: todo lo que necesita saber

Publicado: 2021-03-12

Las estadísticas y la probabilidad forman el núcleo del aprendizaje automático y la ciencia de datos. Es el análisis estadístico junto con el poder de cómputo y la optimización que Machine Learning es capaz de lograr lo que está logrando hoy. Desde los conceptos básicos de probabilidad hasta estadísticas descriptivas e inferenciales, estos temas constituyen la base del aprendizaje automático.

Al final de este tutorial, sabrá lo siguiente:

Conceptos básicos de probabilidad
Distribuciones de probabilidad
Distribución normal
Medidas de tendencia central
Teorema del límite central
Desviación estándar y error estándar
Asimetría y curtosis

Tabla de contenido

Conceptos básicos de probabilidad

Eventos independientes y dependientes

Consideremos 2 eventos, el evento A y el evento B. Cuando la probabilidad de ocurrencia del evento A no depende de la ocurrencia del evento B, entonces A y B son eventos independientes. Por ejemplo, si tiene 2 monedas justas, entonces la probabilidad de obtener cara en ambas monedas será de 0,5 para ambas. Por lo tanto, los eventos son independientes.

Ahora considere una caja que contiene 5 bolas: 2 negras y 3 rojas. La probabilidad de sacar primero una bola negra será de 2/5. Ahora la probabilidad de volver a sacar una bola negra de las 4 bolas restantes será 1/4. En este caso, los dos eventos son dependientes ya que la probabilidad de sacar una bola negra por segunda vez depende de qué bola se sacó en la primera vez.

Probabilidad marginal

Es la probabilidad de un evento independientemente de los resultados de otras variables aleatorias, por ejemplo, P(A) o P(B).

Probabilidad conjunta

Es la probabilidad de que ocurran dos eventos diferentes al mismo tiempo, es decir, dos (o más) eventos simultáneos, por ejemplo, P(A y B) o P(A, B).

La probabilidad condicional

Es la probabilidad de que ocurra uno (o más) eventos, dada la ocurrencia de otro evento o, en otras palabras, es la probabilidad de que ocurra un evento A cuando un evento secundario B es verdadero. por ejemplo, P(A dado B) o P(A | B).

Únase al curso ML en línea de las mejores universidades del mundo: maestrías, programas ejecutivos de posgrado y programa de certificado avanzado en ML e IA para acelerar su carrera.

Distribuciones de probabilidad

Las distribuciones de probabilidad representan la distribución de puntos de datos en un espacio de muestra. Nos ayuda a ver la probabilidad de muestrear ciertos puntos de datos cuando se muestrean al azar de la población. Por ejemplo, si una población consta de calificaciones de estudiantes de una escuela, la distribución de probabilidad tendrá Marcas en el eje X y el número de estudiantes con esas calificaciones en el eje Y. Esto también se llama Histograma . El histograma es un tipo de distribución de probabilidad discreta . Los principales tipos de distribución discreta son la distribución binomial, la distribución de Poisson y la distribución uniforme.

Por otro lado, se realiza una Distribución de Probabilidad Continua para datos que tienen valor continuo. En otras palabras, cuando puede tener un conjunto infinito de valores como altura, velocidad, temperatura, etc. Las distribuciones de probabilidad continua tienen un uso tremendo en la ciencia de datos y el análisis estadístico para verificar la importancia de las características, las distribuciones de datos, las pruebas estadísticas, etc.

Lea también las matemáticas detrás del aprendizaje automático

Distribución normal

La distribución continua más conocida es la distribución normal, que también se conoce como distribución gaussiana o "curva de campana".

Considere una distribución normal de las alturas de las personas. La mayoría de las alturas se agrupan en la parte media, que es más alta y se reduce gradualmente hacia los extremos izquierdo y derecho, lo que denota una menor probabilidad de obtener ese valor al azar.

Esta curva está centrada en su media y puede ser alta y delgada o puede ser corta y extendida. Uno delgado denota que hay menos cantidad de valores distintos que podemos muestrear. Y una curva más extendida muestra que hay un mayor rango de valores. Este diferencial se define por su Desviación Estándar .

Cuanto mayor sea la desviación estándar, más dispersos serán sus datos. La Desviación Estándar es solo una derivación matemática de otra propiedad llamada Varianza, que define cuánto 'varían' los datos. Y la varianza es de lo que se tratan los datos, la varianza es información. Sin variación, sin información. La distribución normal tiene un papel crucial en las estadísticas: el teorema del límite central.

Medidas de tendencia central

Las medidas de tendencia central son las formas en que podemos resumir un conjunto de datos tomando un solo valor. Existen 3 Medidas de Tendencia principalmente:

1. Media: la media es solo la media aritmética o el promedio de los valores en los datos/característica. La suma de todos los valores dividida por el número de valores nos da la media. La media suele ser la forma más común de medir el centro de cualquier dato, pero puede ser engañosa en algunos casos. Por ejemplo, cuando hay muchos valores atípicos, la media comenzará a desplazarse hacia los valores atípicos y será una mala medida del centro de sus datos.

2. Mediana : la mediana es el punto de datos que se encuentra exactamente en el centro cuando los datos se ordenan en orden creciente o decreciente. Cuando el número de puntos de datos es impar, la mediana se elige fácilmente como el punto más central. Cuando el número de puntos de datos es par, la mediana se calcula como la media de los 2 puntos de datos más centrales.

3. Moda: La moda es el punto de datos que está presente con mayor frecuencia en un conjunto de datos. La moda sigue siendo más robusta para los valores atípicos, ya que permanecerá fija en el punto más frecuente.

Teorema del límite central

El teorema del límite central en estadística establece que, dado un tamaño de muestra suficientemente grande, la distribución muestral se aproximará a una distribución normal, independientemente de la distribución de esa variable. Permítanme traer la esencia de la declaración anterior en palabras sencillas.

Los datos pueden ser de cualquier distribución. Podría ser perfecta o normal sesgada, podría ser exponencial o (casi) cualquier distribución que se te ocurra. Sin embargo, si toma muestras repetidamente de la población y sigue trazando el histograma de sus medias, eventualmente encontrará que esta nueva distribución de todas las medias se parece a la distribución normal.

En esencia, no importa en qué distribución se encuentren sus datos, la distribución de sus medios siempre será normal.

Pero, ¿cuántas muestras se necesitan para que CLT sea cierto? La regla general dice que debe ser >30. Entonces, si toma 30 o más muestras de cualquier distribución, los medios se distribuirán normalmente sin importar el tipo de distribución subyacente.

Desviación estándar y error estándar

La desviación estándar y el error estándar a menudo se confunden entre sí. La desviación estándar, como sabrá, describe o cuantifica la variación en los datos en ambos lados de la distribución: inferior a la media y superior a la media. Si sus puntos de datos se distribuyen en un amplio rango de valores, la desviación estándar será alta.

Ahora, como discutimos anteriormente, por el Teorema del Límite Central, si graficamos las medias de todas las muestras de una población, la distribución de esas medias volverá a ser una distribución normal. Entonces tendrá su propia desviación estándar, ¿verdad?

La desviación estándar de las medias de todas las muestras de una población se llama error estándar. El valor del error estándar generalmente será menor que la desviación estándar a medida que calcula la desviación estándar de las medias, y el valor de las medias estaría menos disperso que los puntos de datos individuales debido a la agregación.

¡Incluso puede calcular la desviación estándar de las medianas, la moda o incluso la desviación estándar de las desviaciones estándar!

Antes de que te vayas

Los conceptos estadísticos forman el núcleo real de Data Science y ML. Para poder hacer deducciones válidas y comprender los datos disponibles de manera efectiva, debe tener una comprensión sólida de los conceptos estadísticos y de probabilidad discutidos en este tutorial.

upGrad ofrece un Programa PG Ejecutivo en Aprendizaje Automático e IA y una Maestría en Ciencias en Aprendizaje Automático e IA que pueden guiarlo hacia la construcción de una carrera. Estos cursos explicarán la necesidad de Machine Learning y los pasos adicionales para recopilar conocimientos en este dominio que abarcan conceptos variados que van desde Gradient Descent hasta Machine Learning.

¿Es obligatorio el conocimiento de las estadísticas para obtener buenos resultados en el aprendizaje automático?

La estadística es un campo muy amplio. En el aprendizaje automático, las estadísticas básicamente ayudan a comprender los datos en profundidad. Algunos conceptos estadísticos como probabilidad, interpretación de datos, etc. son necesarios en varios algoritmos de aprendizaje automático. Sin embargo, no es necesario ser un experto en todos los temas de estadística para tener éxito en el aprendizaje automático. Al conocer solo los conceptos fundamentales, podrá desempeñarse de manera eficiente.

¿Será útil saber algo de codificación de antemano en el aprendizaje automático?

La codificación es el corazón del aprendizaje automático, y los programadores que entienden cómo codificar bien tendrán una comprensión profunda de cómo funcionan los algoritmos y, por lo tanto, podrán monitorear y optimizar esos algoritmos de manera más efectiva. No es necesario ser un experto en ningún lenguaje de programación, aunque cualquier conocimiento previo será beneficioso. Si es un principiante, Python es una buena opción, ya que es fácil de aprender y tiene una sintaxis fácil de usar.

¿Cómo usamos el cálculo en la vida cotidiana?

Las previsiones meteorológicas se basan en una serie de variables, como la velocidad del viento, el contenido de humedad y la temperatura, que solo se pueden calcular mediante cálculo. El uso del cálculo también puede verse en la ingeniería aeronáutica de diversas formas. Las industrias de vehículos también utilizan el cálculo para mejorar y garantizar una buena seguridad de los vehículos. También es utilizado por las compañías de tarjetas de crédito para fines de pago.