Tudo o que você precisa saber sobre a função de ativação no ML

Publicados: 2022-11-08

Índice

O que é função de ativação no aprendizado de máquina?

As funções de ativação do Machine Learning provam ser elementos cruciais em um modelo de ML que compreende todos os seus pesos e vieses. Eles são um objeto de pesquisa que está em constante desenvolvimento e têm desempenhado um papel significativo para tornar o treinamento de Deep Neural Network uma realidade. Em essência, eles determinam a decisão de estimular um neurônio. Se a informação que um neurônio recebe é pertinente à informação já presente ou se deve ser desconsiderada. A modificação não linear que aplicamos ao sinal de entrada é chamada de função de ativação. A camada seguinte de neurônios recebe essa saída alterada como entrada.

Como as funções de ativação realizam cálculos não lineares na entrada de uma Rede Neural, elas permitem que ela aprenda e faça tarefas mais complicadas sem elas, o que é essencialmente um modelo de regressão linear em Machine Learning.

É essencial compreender as aplicações das funções de ativação e pesar as vantagens e desvantagens de cada função de ativação para selecionar o tipo apropriado de função de ativação que pode oferecer não linearidade e precisão em um determinado modelo de Rede Neural.

Inscreva-se no curso de aprendizado de máquina das melhores universidades do mundo. Ganhe Masters, Executive PGP ou Advanced Certificate Programs para acelerar sua carreira.

Os modelos de função de ativação do Machine Learning são basicamente de dois tipos –

  • Camadas ocultas
  • Camadas de saída

Camadas ocultas

As funções de ativação usadas nas camadas ocultas dos modelos neurais têm como principal função fornecer a não linearidade que as redes neurais exigem para simular interações não lineares.

Camadas de saída

Os métodos de ativação empregados pelas camadas de saída dos modelos de Machine Learning têm um objetivo principal específico: comprimir o valor dentro de um intervalo restrito, como 0 a 1.

Vamos primeiro entender os diferentes tipos de Funções de Ativação em Machine Learning

1. Função de Etapa Binária

Um classificador baseado em limiar, que determina se o neurônio deve ou não ser engajado, é a primeira coisa que vem à mente quando temos uma função de ativação. O neurônio é acionado se o valor Y for maior que um valor limite especificado; caso contrário, é deixado adormecido.

Muitas vezes é definido como –

f(x) = 1, x>=0

f(x) = 0, x<0

A função binária é simples. É aplicável durante o desenvolvimento de um classificador binário. As avaliações são necessárias, que são as opções ideais quando precisamos apenas responder sim ou não para uma única aula, pois elas ligam o neurônio ou o deixam nulo.

2. Função Linear

Uma inclinação positiva pode causar um aumento na taxa de disparo à medida que a taxa de entrada aumenta. As funções de ativação linear são superiores em fornecer uma ampla gama de ativações.

A função é precisamente proporcional à combinação ponderada de neurônios ou entrada em nossa função de ativação horizontal direta.

Um neurônio pode estar disparando ou não disparando em binário. Você pode notar que a derivada dessa função é constante se estiver familiarizado com a descida do gradiente no aprendizado de máquina.

Melhores cursos de aprendizado de máquina e cursos de IA on-line

Master of Science em Machine Learning & AI pela LJMU Programa de Pós-Graduação Executiva em Aprendizado de Máquina e IA do IIITB
Programa de Certificado Avançado em Aprendizado de Máquina e PNL do IIITB Programa de Certificação Avançado em Aprendizado de Máquina e Aprendizado Profundo do IIITB Programa Executivo de Pós-Graduação em Ciência de Dados e Aprendizado de Máquina da Universidade de Maryland
Para explorar todos os nossos cursos, visite nossa página abaixo.
Cursos de aprendizado de máquina

3. Função Não Linear

  1. ReLU

Em termos de funções de ativação, a Unidade Linear Retificada é a melhor. Esta é a função de ativação mais popular e padrão para a maioria dos problemas. Quando é negativo, está confinado a 0, enquanto que quando se torna positivo, é ilimitado. Uma rede neural profunda pode se beneficiar da regularização intrínseca criada por essa combinação de limitação e não limitação. A regularização cria uma representação esparsa que torna o treinamento e a inferência computacionalmente eficazes.

A desvinculação positiva mantém a simplicidade computacional enquanto acelera a convergência da regressão linear. ReLU tem apenas uma desvantagem significativa: neurônios mortos. Alguns neurônios mortos desligados no início da fase de treinamento e negativamente ligados a 0 nunca se reativam. Como a função transita rapidamente de ilimitada quando x > 0 para limitada quando x ≤ 0, ela não pode ser continuamente diferenciada. No entanto, na prática, isso pode ser superado sem efeitos duradouros no desempenho se houver uma baixa taxa de aprendizado e um viés negativo significativo.

Prós:

  • ReLU requer menos processos matemáticos do que outras funções não lineares, tornando-a menos dispendiosa computacionalmente e linear.
  • Previne e corrige o problema de Vanishing Gradient.

Usar:

  • Usado em RNN, CNN e outros modelos de aprendizado de máquina.

Diferentes modificações do ReLU -

ReLU com vazamento

Uma variante melhor da função ReLU é a função Leaky ReLU. Como o gradiente da função ReLU é 0, onde x<0, as ativações nessa região levaram os neurônios a morrer, e o leaky ReLU se mostra o mais benéfico para resolver tais problemas. Definimos a função ReLU como um pequeno componente linear de x em vez de 0, onde x<0.

Pode ser visto como –

f(x)=ax, x<0

f(x)=x, x>=0

Prós -

  • Leaky ReLU, que tem uma pequena inclinação negativa, foi uma tentativa de resolver o problema do “morrendo ReLU” (de 0,01 ou mais).

Usar -

  • Usado em tarefas que envolvem gradientes, como GAN.

ReLU paramétrico

Esta é uma melhoria em relação ao Leaky ReLU, onde o múltiplo escalar é treinado nos dados em vez de ser selecionado aleatoriamente. Como o modelo foi treinado usando dados, ele é sensível ao parâmetro de escala (a) e conta de forma diferente dependendo do valor de a.

Usar -

  • Quando o Leaky ReLU falha, um Parametric ReLU pode ser utilizado para resolver o problema de neurônios mortos.

GeLU (Unidade Linear de Erro Gaussiano)

O mais novo garoto do bloco e, sem dúvida, o vencedor das tarefas relacionadas ao NLP (Natural Language Processing) é a Unidade Linear de Erro Gaussiano, que é utilizada em sistemas baseados em transformadores e algoritmos SOTA, como GPT-3 e BERT. GeLU combina ReLU, Zone Out e Dropout (que zera aleatoriamente os neurônios para uma rede esparsa). O ReLU é mais suave com o GeLU, pois pesa as entradas por percentil em vez de portas.

Usar -

  • Visão Computacional, PNL, Reconhecimento de Fala

ELU (Unidade Linear Exponencial)

A ELU introduzida em 2015 é positivamente ilimitada e emprega uma curva logarítmica para valores negativos. Em comparação com Leaky e Parameter ReLU, essa estratégia para resolver o problema do neurônio morto é um pouco diferente. Em contraste com ReLU, os valores negativos gradualmente suavizam e tornam-se restritos para evitar neurônios mortos. No entanto, é caro, pois uma função exponencial é usada para descrever a inclinação negativa. Ao usar uma técnica de partida abaixo do ideal, a função exponencial ocasionalmente resulta em um gradiente de expansão.

Swish

Os pequenos valores negativos do Swish, que foram introduzidos pela primeira vez em 2017, ainda são úteis na captura de padrões subjacentes, enquanto os grandes valores negativos terão uma derivada de 0. O Swish pode ser usado para substituir ReLU com facilidade devido à sua forma intrigante.

Prós -

  • O resultado é uma solução alternativa entre a função Sigmoid e RELU que ajuda a normalizar o resultado.
  • Tem a capacidade de lidar com o Problema do Gradiente Desaparecido.

Usar -

  • Em termos de categorização de imagens e tradução automática, está a par ou mesmo superior ao ReLU.

Habilidades de aprendizado de máquina sob demanda

Cursos de Inteligência Artificial Cursos do Tableau
Cursos de PNL Cursos de Aprendizagem Profunda

4. Função de Ativação Softmax

Assim como as funções de ativação sigmóide, o softmax é utilizado principalmente na camada final, ou camada de saída, para a tomada de decisões. O softmax simplesmente atribui valores às variáveis ​​de entrada com base em seus pesos, e o total desses pesos eventualmente é igual a um.

Prós -

  • Quando comparada com a função RELU, a convergência do gradiente é mais suave no Softmax.
  • Ele tem a capacidade de lidar com o problema Vanishing Gradient.

Usar -

  • Classificação multiclasse e multinomina.

5. Sigmóide

Função Sigmoid em Machine Learning é uma das funções de ativação mais populares. A equação é –

f(x)=1/(1+e^-x)

Essas funções de ativação têm o benefício de reduzir as entradas para um valor que varia de 0 a 1, o que as torna ideais para modelagem de probabilidade. Quando aplicada a uma rede neural profunda, a função se torna diferenciável, mas satura rapidamente devido à limitação, resultando em um gradiente decrescente. O custo da computação exponencial aumenta quando um modelo com centenas de camadas e neurônios precisa ser treinado.

A derivada é restrita entre -3 e 3, enquanto a função é restrita entre 0 e 1. Não é ideal para treinar camadas ocultas, pois a saída não é simétrica em torno de zero, o que faria com que todos os neurônios adotassem o mesmo sinal durante o treinamento .

Prós -

  • Fornece um gradiente suave durante a convergência.
  • Muitas vezes dá uma classificação precisa de previsão com 0 e 1.

Usar -

  • A função Sigmoid em Machine Learning é normalmente utilizada em modelos de classificação binária e regressão logística na camada de saída.

Blogs populares de aprendizado de máquina e inteligência artificial

IoT: História, Presente e Futuro Tutorial de aprendizado de máquina: aprender ML O que é Algoritmo? Simples e fácil
Salário de engenheiro de robótica na Índia: todas as funções Um dia na vida de um engenheiro de aprendizado de máquina: o que eles fazem? O que é IoT (Internet das Coisas)
Permutação vs Combinação: Diferença entre Permutação e Combinação As 7 principais tendências em inteligência artificial e aprendizado de máquina Aprendizado de máquina com R: tudo o que você precisa saber

6. Tanh – Função de Ativação da Tangente Hiperbólica

Semelhante à Função Sigmoid em Machine Learning , esta função de ativação é utilizada para prever ou distinguir entre duas classes, exceto que transfere exclusivamente a entrada negativa para quantidades negativas e tem um intervalo de -1 a 1.

tanh(x)=2sigmoide(2x)-1

ou

tanh(x)=2/(1+e^(-2x)) -1

Essencialmente, resolve nosso problema com os valores com o mesmo sinal. Outras características são idênticas às da função sigmóide. Em qualquer ponto, é contínua e distinta.

Prós -

  • Ao contrário do sigmóide, tem uma função centrada em zero.
  • Esta função também possui um gradiente suave.

Embora as funções Tahn e Sigmoid em Machine Learning possam ser usadas em camadas ocultas devido à sua limitação positiva, as redes neurais profundas não podem empregá-las devido à saturação de treinamento e gradientes de fuga.

Comece sua carreira de aprendizado de máquina com o curso certo

Interessado em aprofundar as funções de ativação e sua assistência para aprimorar o Machine Learning? Obtenha uma visão geral do Machine Learning com todos os detalhes, como IA, Deep Learning, NLP e Reinforcement Learning com um curso UpGrad reconhecido pelo WES Masters of Science in Machine Learning and AI . Este curso oferece experiências práticas ao trabalhar em mais de 12 projetos, realizando pesquisas, aulas de alta codificação e coaching com alguns dos melhores professores.

Inscreva-se para saber mais!

Conclusão

As operações críticas conhecidas como funções de ativação alteram a entrada de forma não linear, permitindo que ela compreenda e execute tarefas mais complicadas. Abordamos as funções de ativação mais populares e seus usos que podem ser aplicados; essas funções de ativação fornecem a mesma função, mas são aplicadas em várias circunstâncias.

Como você pode decidir qual função de ativação é melhor?

Escolher uma função de ativação é uma decisão complexa inteiramente dependente do problema em questão. No entanto, você pode querer começar com a função sigmoid se você é novo no aprendizado de máquina antes de continuar com outros.

A função de ativação deve ser linear ou não linear?

Não importa quão complicado seja o projeto, uma função de ativação linear só é efetiva até uma camada de profundidade. Portanto, a camada de ativação não pode ser linear. Além disso, o mundo de hoje e seus desafios são muito não lineares.

Qual função de ativação pode ser aprendida facilmente?

Tanh. Ao ampliar o intervalo para cobrir -1 a 1, ele aborda a desvantagem da função de ativação sigmóide. Isso resulta em centralização zero, o que faz com que a média dos pesos da camada oculta fique próxima de 0. Como resultado, o aprendizado se torna mais rápido e fácil.