¿Qué es la hipótesis en el aprendizaje automático? ¿Cómo formular una hipótesis?

Publicado: 2021-03-12

La prueba de hipótesis es un tema amplio que es aplicable a muchos campos. Cuando estudiamos estadísticas, la prueba de hipótesis involucra datos de múltiples poblaciones y la prueba es para ver qué tan significativo es el efecto en la población.

Esto implica calcular el valor p y compararlo con el valor crítico o alfa. Cuando se trata de aprendizaje automático, la prueba de hipótesis trata de encontrar la función que mejor se aproxima a las características independientes del objetivo. En otras palabras, asigne las entradas a las salidas.

Al final de este tutorial, sabrá lo siguiente:

¿Qué es la hipótesis en estadística vs aprendizaje automático?
¿Qué es el espacio de hipótesis?
Proceso de formación de una hipótesis

Tabla de contenido

Hipótesis en Estadística

Una hipótesis es una suposición de un resultado que es falsable, lo que significa que se puede demostrar que es incorrecto mediante alguna evidencia. Una Hipótesis puede ser rechazada o no ser rechazada. Nunca aceptamos ninguna hipótesis en estadística porque se trata de probabilidades y nunca estamos 100% seguros. Antes del inicio del experimento, definimos dos hipótesis:

1. Hipótesis Nula: dice que no hay efecto significativo

2. Hipótesis alternativa: dice que hay algún efecto significativo

En estadística, comparamos el valor P (que se calcula utilizando diferentes tipos de pruebas estadísticas) con el valor crítico o alfa. Cuanto mayor sea el valor P, mayor será la probabilidad, lo que a su vez significa que el efecto no es significativo y concluimos que no podemos rechazar la hipótesis nula .

En otras palabras, es muy probable que el efecto haya ocurrido por casualidad y no tiene significación estadística. Por otro lado, si obtenemos un valor P muy pequeño, significa que la probabilidad es pequeña. Eso significa que la probabilidad de que el evento ocurra por casualidad es muy baja.

Únase al curso de ML e IA en línea de las mejores universidades del mundo: maestrías, programas ejecutivos de posgrado y programa de certificado avanzado en ML e IA para acelerar su carrera.

Nivel significativo

El nivel de significación se establece antes de comenzar el experimento. Esto define cuánto es la tolerancia de error y en qué nivel el efecto puede considerarse significativo. Un valor común para el nivel de significación es 95%, lo que también significa que hay un 5% de posibilidades de que la prueba nos engañe y cometamos un error. En otras palabras, el valor crítico es 0,05 que actúa como umbral. Del mismo modo, si el nivel de significancia se fijase en el 99%, supondría un valor crítico del 0,01%.

Valor P

Se lleva a cabo una prueba estadística sobre la población y la muestra para averiguar el valor P que luego se compara con el valor crítico. Si el valor P resulta ser menor que el valor crítico, entonces podemos concluir que el efecto es significativo y, por lo tanto, rechazar la hipótesis nula (que dice que no hay efecto significativo). Si el valor P resulta ser mayor que el valor crítico, podemos concluir que no hay un efecto significativo y, por lo tanto, no podemos rechazar la hipótesis nula.

Ahora, como nunca podemos estar 100% seguros, siempre existe la posibilidad de que nuestras pruebas sean correctas pero los resultados sean engañosos. Esto significa que o bien rechazamos el valor nulo cuando en realidad no está mal. También puede significar que no rechazamos el nulo cuando en realidad es falso. Estos son los errores de tipo 1 y tipo 2 de la prueba de hipótesis.

Ejemplo

Considere que está trabajando para un fabricante de vacunas y su equipo desarrolla la vacuna para Covid-19. Para probar la eficacia de esta vacuna, es necesario demostrar estadísticamente que es efectiva en humanos. Por lo tanto, tomamos dos grupos de personas de igual tamaño y propiedades. Le damos la vacuna al grupo A y le damos un placebo al grupo B. Hacemos un análisis para ver cuántas personas del grupo A se infectaron y cuántas del grupo B se infectaron.

Probamos esto varias veces para ver si el grupo A desarrolló alguna inmunidad significativa contra Covid-19 o no. Calculamos el valor P para todas estas pruebas y concluimos que los valores P siempre son menores que el valor crítico. Por lo tanto, podemos rechazar con seguridad la hipótesis nula y concluir que efectivamente hay un efecto significativo.

Leer: Explicación de los modelos de aprendizaje automático

Hipótesis en Machine Learning

La hipótesis en el aprendizaje automático se usa cuando en un aprendizaje automático supervisado, necesitamos encontrar la función que mejor asigna la entrada a la salida. Esto también se puede llamar aproximación de función porque estamos aproximando una función de destino que mejor asigna la característica al destino.

1. Hipótesis (h): una hipótesis puede ser un modelo único que asigna características al objetivo; sin embargo, puede ser el resultado o la métrica. Una hipótesis se representa con “ h ”.

2. Espacio de hipótesis (H): un espacio de hipótesis es una gama completa de modelos y sus posibles parámetros que se pueden usar para modelar los datos. Se representa con “ H ”. En otras palabras, la Hipótesis es un subconjunto del Espacio de Hipótesis.

Proceso de formación de una hipótesis

En esencia, tenemos los datos de entrenamiento (características independientes y el objetivo) y una función de destino que asigna características al objetivo. Luego, se ejecutan en diferentes tipos de algoritmos utilizando diferentes tipos de configuración de su espacio de hiperparámetros para verificar qué configuración produce los mejores resultados. Los datos de entrenamiento se utilizan para formular y encontrar la mejor hipótesis del espacio de hipótesis. Los datos de prueba se utilizan para validar o verificar los resultados producidos por la hipótesis.

Considere un ejemplo donde tenemos un conjunto de datos de 10000 instancias con 10 funciones y un objetivo. El objetivo es binario, lo que significa que es un problema de clasificación binaria. Ahora, digamos, modelamos estos datos usando Regresión Logística y obtenemos una precisión del 78%. Podemos dibujar la línea de regresión que separa ambas clases. Esta es una Hipótesis(h). Luego probamos esta hipótesis con datos de prueba y obtenemos una puntuación del 74 %.

Ahora, supongamos nuevamente que ajustamos un modelo RandomForests en los mismos datos y obtenemos una puntuación de precisión del 85 %. Esta es una buena mejora con respecto a la regresión logística. Ahora decidimos ajustar los hiperparámetros de RandomForests para obtener una mejor puntuación con los mismos datos. Hacemos una búsqueda en cuadrícula y ejecutamos múltiples modelos RandomForest en los datos y verificamos su rendimiento. En este paso, estamos esencialmente buscando en el espacio de hipótesis (H) para encontrar una mejor función. Después de completar la búsqueda en cuadrícula, obtenemos la mejor puntuación del 89 % y finalizamos la búsqueda.

Ahora también probamos más modelos como XGBoost, Support Vector Machine y el teorema de Naive Bayes para probar su rendimiento con los mismos datos. Luego, elegimos el modelo con mejor rendimiento y lo probamos en los datos de prueba para validar su rendimiento y obtener una puntuación del 87 %.

Pago: proyectos y temas de aprendizaje automático

Antes de que te vayas

La hipótesis es un aspecto crucial del aprendizaje automático y la ciencia de datos. Está presente en todos los dominios de la analítica y es el factor decisivo de si se debe introducir o no un cambio. Ya sea farmacéutica, software, ventas, etc. Una hipótesis cubre el conjunto de datos de entrenamiento completo para comprobar el rendimiento de los modelos del espacio de hipótesis.

Una hipótesis debe ser falsable, lo que significa que debe ser posible probarla y demostrar que es incorrecta si los resultados van en su contra. El proceso de búsqueda de la mejor configuración del modelo requiere mucho tiempo cuando es necesario verificar muchas configuraciones diferentes. También hay formas de acelerar este proceso mediante el uso de técnicas como la búsqueda aleatoria de hiperparámetros.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Programa PG Ejecutivo en Aprendizaje Automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT -Estado de exalumno B, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Por qué deberíamos hacer proyectos de código abierto?

Hay muchas razones para hacer proyectos de código abierto. Estás aprendiendo cosas nuevas, estás ayudando a otros, te estás relacionando con otros, estás creando una reputación y mucho más. El código abierto es divertido y eventualmente obtendrá algo a cambio. Una de las razones más importantes es que crea una cartera de gran trabajo que puede presentar a las empresas y ser contratado. Los proyectos de código abierto son una manera maravillosa de aprender cosas nuevas. Podría estar mejorando su conocimiento del desarrollo de software o podría estar aprendiendo una nueva habilidad. No hay mejor manera de aprender que enseñar.

¿Puedo contribuir al código abierto como principiante?

Si. Los proyectos de código abierto no discriminan. Las comunidades de código abierto están formadas por personas a las que les encanta escribir código. Siempre hay un lugar para un novato. Aprenderá mucho y también tendrá la oportunidad de participar en una variedad de proyectos de código abierto. Aprenderá qué funciona y qué no, y también tendrá la oportunidad de hacer que su código sea utilizado por una gran comunidad de desarrolladores. Hay una lista de proyectos de código abierto que siempre están buscando nuevos colaboradores.

¿Cómo funcionan los proyectos de GitHub?

GitHub ofrece a los desarrolladores una forma de administrar proyectos y colaborar entre ellos. También sirve como una especie de currículum para los desarrolladores, con una lista de los colaboradores, la documentación y los lanzamientos de un proyecto. Las contribuciones a un proyecto muestran a los empleadores potenciales que tienes las habilidades y la motivación para trabajar en equipo. Los proyectos a menudo son más que código, por lo que GitHub tiene una manera en la que puede estructurar su proyecto tal como estructuraría un sitio web. Puede administrar su sitio web con una sucursal. Una sucursal es como un experimento o una copia de su sitio web. Cuando desea experimentar con una nueva función o arreglar algo, crea una rama y experimenta allí. Si el experimento tiene éxito, puede volver a fusionar la sucursal con el sitio web original.