Todo lo que necesita saber sobre la función de activación en ML

Publicado: 2022-11-08

Tabla de contenido

¿Qué es la función de activación en el aprendizaje automático?

Las funciones de activación de Machine Learning demuestran ser elementos cruciales en un modelo de ML que comprende todos sus pesos y sesgos. Son un tema de investigación que se desarrolla continuamente y han jugado un papel importante para hacer realidad el entrenamiento de redes neuronales profundas. En esencia, determinan la decisión de estimular una neurona. Si la información que recibe una neurona es pertinente a la información ya presente o si debe ser descartada. La modificación no lineal que aplicamos a la señal de entrada se llama función de activación. La siguiente capa de neuronas recibe esta salida alterada como entrada.

Dado que las funciones de activación realizan cálculos no lineales en la entrada de una red neuronal, le permiten aprender y realizar tareas más complicadas sin ellas, lo que es esencialmente un modelo de regresión lineal en Machine Learning.

Es esencial comprender las aplicaciones de las funciones de activación y sopesar las ventajas y desventajas de cada función de activación para seleccionar el tipo apropiado de función de activación que pueda ofrecer no linealidad y precisión en un modelo de red neuronal particular.

Inscríbase en el curso de aprendizaje automático de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.

Los modelos de función de activación de Machine Learning son básicamente de dos tipos:

  • Capas ocultas
  • Capas de salida

Capas ocultas

Las funciones de activación utilizadas en las capas ocultas de los modelos neuronales tienen como función principal proporcionar la no linealidad que requieren las redes neuronales para simular interacciones no lineales.

Capas de salida

Los métodos de activación empleados por las capas de salida de los modelos de Machine Learning tienen un objetivo principal particular: comprimir el valor dentro de un rango restringido, como 0 a 1.

Primero comprendamos los diferentes tipos de funciones de activación en el aprendizaje automático :

1. Función de paso binario

Un clasificador basado en el umbral, que determina si la neurona debe activarse o no, es lo primero que viene a la mente cuando tenemos una función de activación. La neurona se activa si el valor Y es mayor que un valor de umbral especificado; de lo contrario, se deja latente.

A menudo se define como:

f(x) = 1, x>=0

f(x) = 0, x<0

La función binaria es sencilla. Es aplicable mientras se desarrolla un clasificador binario. Se necesitan evaluaciones, que son las opciones ideales cuando solo necesitamos responder sí o no para una sola clase ya que o encienden la neurona o la dejan en cero.

2. Función lineal

Una pendiente positiva puede provocar un aumento en la tasa de disparo a medida que aumenta la tasa de entrada. Las funciones de activación lineal son superiores para proporcionar una amplia gama de activaciones.

La función es precisamente proporcional a la combinación ponderada de neuronas o entrada en nuestra sencilla función de activación horizontal.

Una neurona puede dispararse o no dispararse en binario. Puede notar que la derivada de esta función es constante si está familiarizado con el descenso de gradiente en el aprendizaje automático.

Los mejores cursos de aprendizaje automático y cursos de inteligencia artificial en línea

Maestría en Ciencias en Aprendizaje Automático e IA de LJMU Programa Ejecutivo de Postgrado en Aprendizaje Automático e IA del IIITB
Programa de Certificado Avanzado en Aprendizaje Automático y PNL de IIITB Programa de Certificado Avanzado en Aprendizaje Automático y Aprendizaje Profundo de IIITB Programa ejecutivo de posgrado en ciencia de datos y aprendizaje automático de la Universidad de Maryland
Para explorar todos nuestros cursos, visite nuestra página a continuación.
Cursos de aprendizaje automático

3. Función no lineal

  1. ReLU

En cuanto a funciones de activación, la Unidad Lineal Rectificada es la mejor. Esta es la función de activación predeterminada y más popular para la mayoría de los problemas. Cuando es negativo, se limita a 0, mientras que cuando se vuelve positivo, no tiene límites. Una red neuronal profunda puede beneficiarse de la regularización intrínseca creada por esta combinación de acotación e ilimitación. La regularización crea una representación escasa que hace que el entrenamiento y la inferencia sean computacionalmente efectivos.

La ilimitación positiva mantiene la simplicidad computacional mientras acelera la convergencia de la regresión lineal. ReLU tiene solo un inconveniente importante: las neuronas muertas. Algunas neuronas muertas se apagan temprano en la fase de entrenamiento y se unen negativamente a 0 y nunca se reactivan. Debido a que la función pasa rápidamente de no acotada cuando x > 0 a acotada cuando x ≤ 0, no se puede diferenciar continuamente. Sin embargo, en la práctica, esto puede superarse sin efectos duraderos en el desempeño si hay una tasa de aprendizaje baja y un sesgo negativo significativo.

Ventajas:

  • ReLU requiere menos procesos matemáticos que otras funciones no lineales, lo que la hace menos costosa computacionalmente y lineal.
  • Previene y soluciona el problema del gradiente de fuga.

Usar:

  • Se utiliza en RNN, CNN y otros modelos de aprendizaje automático.

Diferentes modificaciones de ReLU –

ReLU con fugas

Una mejor variante de la función ReLU es la función Leaky ReLU. Dado que el gradiente de la función ReLU es 0, donde x<0, las activaciones en esa región llevaron a la muerte de las neuronas, y ReLU con fugas demuestra ser el más beneficioso para resolver estos problemas. Definimos la función ReLU como un pequeño componente lineal de x en lugar de como 0, donde x<0.

Se puede ver como -

f(x)=ax, x<0

f(x)=x, x>=0

Pros –

  • Leaky ReLU, que tiene una pequeña pendiente negativa, fue un intento de abordar el problema de "morir ReLU" (de 0,01 más o menos).

Usar -

  • Se utiliza en tareas que involucran gradientes como GAN.

ReLU paramétrico

Esta es una mejora con respecto a Leaky ReLU, donde el múltiplo escalar se entrena en los datos en lugar de seleccionarse al azar. Debido a que el modelo se entrenó con datos, es sensible al parámetro de escala (a) y se contrarresta de manera diferente según el valor de a.

Usar -

  • Cuando el Leaky ReLU falla, se puede utilizar un Parametric ReLU para resolver el problema de las neuronas muertas.

GeLU (Unidad lineal de error gaussiano)

El chico más nuevo en el bloque e, indiscutiblemente, el vencedor de las tareas relacionadas con PNL (Procesamiento del lenguaje natural) es la Unidad lineal de error gaussiano, que se utiliza en sistemas basados ​​​​en transformadores y algoritmos SOTA como GPT-3 y BERT. GeLU combina ReLU, Zone Out y Dropout (que pone a cero aleatoriamente las neuronas para una red escasa). ReLU se suaviza con GeLU, ya que pondera las entradas por percentil en lugar de por puertas.

Usar -

  • Visión artificial, PNL, Reconocimiento de voz

ELU (Unidad Lineal Exponencial)

El ELU introducido en 2015 es positivamente ilimitado y emplea una curva logarítmica para valores negativos. En comparación con Leaky y Parameter ReLU, esta estrategia para resolver el problema de las neuronas muertas es ligeramente diferente. A diferencia de ReLU, los valores negativos se suavizan gradualmente y se limitan para evitar las neuronas muertas. Sin embargo, es costoso ya que se usa una función exponencial para describir la pendiente negativa. Cuando se utiliza una técnica de inicio menos que ideal, la función exponencial ocasionalmente da como resultado un gradiente en expansión.

Silbido

Los pequeños valores negativos de Swish, que se introdujeron por primera vez en 2017, siguen siendo útiles para capturar patrones subyacentes, mientras que los valores negativos grandes tendrán una derivada de 0. Swish puede usarse para reemplazar a ReLU con facilidad debido a su forma intrigante.

Pros –

  • El resultado es una solución alternativa entre la función Sigmoid y RELU que ayuda a normalizar el resultado.
  • Tiene la capacidad de lidiar con el problema del gradiente de fuga.

Usar -

  • En términos de categorización de imágenes y traducción automática, está a la par o incluso es superior a ReLU.

Habilidades de aprendizaje automático bajo demanda

Cursos de Inteligencia Artificial Cursos de Tableau
Cursos de PNL Cursos de aprendizaje profundo

4. Función de activación Softmax

Al igual que las funciones de activación sigmoidea, softmax se utiliza principalmente en la capa final, o capa de salida, para tomar decisiones. El softmax simplemente asigna valores a las variables de entrada en función de sus pesos, y el total de estos pesos finalmente es igual a uno.

Pros –

  • Cuando se compara con la función RELU, la convergencia de gradiente es más suave en Softmax.
  • Tiene la capacidad de manejar el problema del gradiente de fuga.

Usar -

  • Clasificación Multiclase y Multinomina.

5. Sigmoide

La función sigmoidea en el aprendizaje automático es una de las funciones de activación más populares. la ecuacion es -

f(x)=1/(1+e^-x)

Estas funciones de activación tienen la ventaja de reducir las entradas a un valor que oscila entre 0 y 1, lo que las hace ideales para modelar la probabilidad. Cuando se aplica a una red neuronal profunda, la función se vuelve diferenciable pero se satura rápidamente debido a la delimitación, lo que da como resultado un gradiente decreciente. El costo de la computación exponencial aumenta cuando se necesita entrenar un modelo con cientos de capas y neuronas.

La derivada está restringida entre -3 y 3, mientras que la función está restringida entre 0 y 1. No es ideal para entrenar capas ocultas ya que la salida no es simétrica alrededor de cero, lo que haría que todas las neuronas adoptaran el mismo signo durante el entrenamiento. .

Pros –

  • Proporciona un gradiente suave durante la convergencia.
  • A menudo da una clasificación precisa de predicción con 0 y 1.

Usar -

  • La función Sigmoid en Machine Learning se utiliza normalmente en la clasificación binaria y los modelos de regresión logística en la capa de salida.

Blogs populares sobre aprendizaje automático e inteligencia artificial

IoT: Historia, Presente y Futuro Tutorial de aprendizaje automático: Aprenda ML ¿Qué es Algoritmo? Simplemente fácil
Salario del ingeniero de robótica en la India: todos los roles Un día en la vida de un ingeniero de aprendizaje automático: ¿qué hacen? ¿Qué es IoT (Internet de las Cosas)?
Permutación vs Combinación: Diferencia entre Permutación y Combinación Las 7 principales tendencias en inteligencia artificial y aprendizaje automático Aprendizaje automático con R: todo lo que necesita saber

6. Tanh - Función de activación de tangente hiperbólica

Similar a la función sigmoidea en el aprendizaje automático , esta función de activación se utiliza para pronosticar o distinguir entre dos clases, excepto que transfiere exclusivamente la entrada negativa a cantidades negativas y tiene un rango de -1 a 1.

tanh(x)=2sigmoide(2x)-1

o

tanh(x)=2/(1+e^(-2x)) -1

Esencialmente resuelve nuestro problema con los valores que tienen el mismo signo. Otras características son idénticas a las de la función sigmoidea. En cualquier punto, es continuo y distinto.

Pros –

  • A diferencia del sigmoide, tiene una función centrada en cero.
  • Esta función también tiene un gradiente suave.

Aunque las funciones Tahn y Sigmoid en Machine Learning se pueden usar en capas ocultas debido a su delimitación positiva, las redes neuronales profundas no pueden emplearlas debido a la saturación del entrenamiento y a la desaparición de los gradientes.

Comience su carrera de aprendizaje automático con el curso correcto

¿Está interesado en profundizar en las funciones de activación y su ayuda para mejorar el aprendizaje automático? Obtenga una descripción general de Machine Learning con todos los detalles como AI, Deep Learning, NLP y Reinforcement Learning con un curso UpGrad reconocido por WES Masters of Science en Machine Learning e AI . Este curso brinda experiencias prácticas mientras trabaja en más de 12 proyectos, realiza investigaciones, clases de alta codificación y capacitación con algunos de los mejores profesores.

¡ Regístrese para obtener más información!

Conclusión

Las operaciones críticas conocidas como funciones de activación alteran la entrada de forma no lineal, permitiéndole comprender y llevar a cabo tareas más complicadas. Abordamos las funciones de activación más populares y sus usos que pueden aplicarse; estas funciones de activación proporcionan la misma función pero se aplican en diversas circunstancias.

¿Cómo puede decidir qué función de activación es la mejor?

Elegir una función de activación es una decisión compleja que depende completamente del problema en cuestión. Sin embargo, es posible que desee comenzar con la función sigmoide si es nuevo en el aprendizaje automático antes de continuar con otros.

¿La función de activación debe ser lineal o no lineal?

No importa cuán complicado sea el diseño, una función de activación lineal solo es efectiva hasta una capa de profundidad. Por lo tanto, la capa de activación no puede ser lineal. Además, el mundo de hoy y sus desafíos son muy no lineales.

¿Qué función de activación se puede aprender fácilmente?

Tanh. Al ampliar el rango para cubrir -1 a 1, se soluciona el inconveniente de la función de activación sigmoidea. Esto da como resultado un centrado cero, lo que hace que la media de los pesos de la capa oculta se acerque a 0. Como resultado, el aprendizaje se vuelve más rápido y más fácil.