ML의 활성화 기능에 대해 알아야 할 모든 것

게시 됨: 2022-11-08

목차

기계 학습에서 활성화 기능이란 무엇입니까?

기계 학습 활성화 함수 는 모든 가중치와 편향으로 구성된 ML 모델에서 중요한 요소임이 입증되었습니다. 그것들은 지속적으로 발전하고 있는 연구 주제이며 Deep Neural Network 훈련을 현실로 만드는 데 중요한 역할을 했습니다. 본질적으로 그들은 뉴런을 자극하기로 결정합니다. 뉴런이 수신하는 정보가 이미 존재하는 정보와 관련이 있거나 무시되어야 하는 경우. 입력 신호에 적용하는 비선형 수정을 활성화 함수라고 합니다. 다음 뉴런 레이어는 이 변경된 출력을 입력으로 받습니다.

활성화 함수는 신경망의 입력에 대해 비선형 계산을 수행하기 때문에 신경망 없이도 학습하고 더 복잡한 작업을 수행할 수 있습니다. 이는 본질적으로 기계 학습의 선형 회귀 모델입니다.

특정 신경망 모델에서 비선형성과 정밀도를 제공할 수 있는 적절한 유형의 활성화 함수를 선택하려면 활성화 함수의 적용을 이해하고 각 활성화 함수의 장단점을 비교하는 것이 중요합니다.

세계 최고의 대학에서 기계 학습 과정 에 등록하십시오 . 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.

기계 학습 활성화 함수 모델은 기본적으로 두 가지 유형이 있습니다.

  • 숨겨진 레이어
  • 출력 레이어

숨겨진 레이어

신경망 모델의 주요 역할의 숨겨진 계층에서 사용되는 활성화 함수는 신경망이 비선형 상호 작용을 시뮬레이션하는 데 필요한 비선형성을 제공하는 것입니다.

출력 레이어

머신 러닝 모델의 출력 레이어에서 사용하는 활성화 방법에는 0에서 1과 같은 제한된 범위 내에서 값을 압축하는 특정 주요 목표가 있습니다.

먼저 기계 학습 에서 다양한 유형의 활성화 기능을 이해하겠습니다.

1. 이진 단계 함수

뉴런이 참여해야 하는지 여부를 결정하는 임계값 기반 분류기는 활성화 기능이 있을 때 가장 먼저 떠오르는 것입니다. Y 값이 지정된 임계값보다 크면 뉴런이 트리거됩니다. 그렇지 않으면 휴면 상태로 남습니다.

종종 다음과 같이 정의됩니다.

f(x) = 1, x>=0

f(x) = 0, x<0

이진 함수는 간단합니다. 이진 분류기를 개발할 때 적용할 수 있습니다. 평가가 필요합니다. 평가는 뉴런을 켜거나 아예 남겨두지 않기 때문에 단일 클래스에 대해 예 또는 아니오로 대답해야 할 때 이상적인 옵션입니다.

2. 선형 함수

양의 기울기는 입력 속도가 증가함에 따라 발사 속도의 증가를 유발할 수 있습니다. 선형 활성화 함수는 광범위한 활성화를 제공하는 데 탁월합니다.

함수는 우리의 간단한 수평 활성화 함수의 입력 또는 뉴런의 가중치 조합에 정확히 비례합니다.

뉴런은 이진법으로 실행되거나 실행되지 않을 수 있습니다. 기계 학습의 경사하강법에 익숙하다면 이 함수의 도함수가 일정하다는 것을 알 수 있습니다.

최고의 기계 학습 과정 및 AI 과정 온라인

LJMU의 기계 학습 및 AI 과학 석사 IIITB의 기계 학습 및 AI 대학원 대학원 프로그램
IIITB의 기계 학습 및 NLP 고급 인증 프로그램 IIITB의 머신 러닝 및 딥 러닝 고급 인증 프로그램 메릴랜드 대학교 데이터 과학 및 머신 러닝의 경영자 포스트 대학원 프로그램
모든 과정을 살펴보려면 아래 페이지를 방문하십시오.
기계 학습 과정

3. 비선형 함수

  1. 릴루

활성화 함수 측면에서는 Rectified Linear Unit이 최고입니다. 이것은 대부분의 문제에 대해 가장 많이 사용되는 기본 활성화 기능입니다. 음수이면 0으로 제한되고 양수이면 무제한입니다. 심층 신경망은 이러한 경계와 무한의 조합으로 생성된 고유한 정규화의 이점을 얻을 수 있습니다. 정규화는 훈련 및 추론을 계산적으로 효과적으로 만드는 희소 표현을 생성합니다.

양의 무한성은 선형 회귀의 수렴을 가속화하면서 계산 단순성을 유지합니다. ReLU에는 단 한 가지 중요한 단점이 있습니다. 바로 죽은 뉴런입니다. 일부 죽은 뉴런은 훈련 단계 초기에 꺼지고 0에 음수로 바인딩되어 다시 활성화되지 않습니다. 함수는 x > 0일 때 무한대에서 x ≤ 0일 때 경계로 빠르게 전환되기 때문에 연속적으로 미분할 수 없습니다. 그러나 실제로는 학습률이 낮고 부정적인 편향이 심한 경우 성능에 지속적인 영향을 미치지 않고 극복할 수 있습니다.

장점:

  • ReLU는 다른 비선형 함수보다 더 적은 수학적 프로세스가 필요하므로 계산 비용이 적게 들고 선형이 됩니다.
  • Vanishing Gradient 문제를 방지하고 수정합니다.

사용:

  • RNN, CNN 및 기타 기계 학습 모델에서 사용됩니다.

ReLU의 다른 수정 –

새는 ReLU

ReLU 함수의 더 나은 변형은 Leaky ReLU 함수입니다. ReLU 함수의 기울기가 0(여기서 x<0)이므로 해당 영역의 활성화로 인해 뉴런이 죽고 누출 ReLU가 이러한 문제를 해결하는 데 가장 유익한 것으로 판명되었습니다. ReLU 함수를 x<0인 0이 아닌 x의 작은 선형 구성요소로 정의합니다.

다음과 같이 볼 수 있습니다.

f(x)=ax, x<0

f(x)=x, x>=0

장점 -

  • 약간의 음의 기울기를 갖는 Leaky ReLU는 "죽어가는 ReLU" 문제(0.01 정도)를 해결하기 위한 시도였습니다.

사용 -

  • GAN과 같은 그래디언트를 포함하는 작업에 사용됩니다.

파라메트릭 ReLU

이것은 스칼라 배수가 무작위로 선택되지 않고 데이터에 대해 훈련되는 Leaky ReLU보다 개선된 것입니다. 모델은 데이터를 사용하여 훈련되었기 때문에 스케일링 매개변수(a)에 민감하고 의 값에 따라 다르게 대응합니다.

사용 -

  • Leaky ReLU가 실패하면 Parametric ReLU를 사용하여 죽은 뉴런 문제를 해결할 수 있습니다.

GeLU(가우스 오차 선형 단위)

블록의 가장 새로운 아이이자 의심할 여지 없이 NLP(자연어 처리)의 승자 – 관련 작업은 GPT-3 및 BERT와 같은 변환기 기반 시스템 및 SOTA 알고리즘에서 사용되는 가우시안 오류 선형 단위입니다. GeLU는 ReLU, Zone Out 및 Dropout(희소 네트워크의 경우 뉴런을 무작위로 0으로 설정)을 결합합니다. ReLU는 게이트가 아닌 백분위수로 입력에 가중치를 주기 때문에 GeLU를 사용하여 더 매끄럽게 만듭니다.

사용 -

  • 컴퓨터 비전, NLP, 음성 인식

ELU(지수 선형 단위)

2015년에 도입된 ELU는 양의 제한이 없으며 음수 값에 대해 로그 곡선을 사용합니다. Leaky 및 Parameter ReLU와 비교하여 죽은 뉴런 문제를 해결하기 위한 이 전략은 약간 다릅니다. ReLU와 달리 음수 값은 점차적으로 부드러워지고 죽은 뉴런을 방지하기 위해 제한됩니다. 그러나 음의 기울기를 설명하기 위해 지수 함수를 사용하기 때문에 비용이 많이 듭니다. 이상적이지 않은 시작 기술을 사용할 때 지수 함수로 인해 기울기가 확장되는 경우가 있습니다.

한차례 휘두르기

2017년에 처음 도입된 Swish의 작은 음수 값은 여전히 ​​기본 패턴을 캡처하는 데 도움이 되는 반면 큰 음수 값은 0의 미분 값을 갖습니다. Swish는 흥미로운 형식으로 인해 ReLU를 쉽게 대체하는 데 사용할 수 있습니다.

장점 -

  • 결과는 결과를 정규화하는 데 도움이 되는 Sigmoid 함수와 RELU 간의 해결 방법입니다.
  • Vanishing Gradient 문제를 처리하는 능력이 있습니다.

사용 -

  • 사진 분류 및 기계 번역 측면에서 ReLU와 동등하거나 더 우수합니다.

주문형 머신 러닝 기술

인공 지능 과정 Tableau 과정
NLP 과정 딥 러닝 코스

4. 소프트맥스 활성화 기능

시그모이드 활성화 함수와 마찬가지로 softmax는 주로 최종 계층 또는 출력 계층에서 결정을 내리는 데 사용됩니다. softmax는 단순히 가중치를 기반으로 입력 변수에 값을 할당하고 이러한 가중치의 합계는 결국 1과 같습니다.

장점 -

  • RELU 함수와 비교할 때 Softmax에서 기울기 수렴이 더 부드럽습니다.
  • Vanishing Gradient 문제를 처리하는 기능이 있습니다.

사용 -

  • 멀티클래스 및 멀티노미나 분류.

5. 시그모이드

머신 러닝의 시그모이드 함수 는 가장 널리 사용되는 활성화 함수 중 하나입니다. 방정식은 -

f(x)=1/(1+e^-x)

이러한 활성화 함수는 입력을 0과 1 범위의 값으로 줄이는 이점이 있어 모델링 확률에 이상적입니다. 심층 신경망에 적용하면 함수가 미분 가능하지만 경계로 인해 빠르게 포화되어 기울기가 감소합니다. 수백 개의 레이어와 뉴런이 있는 모델을 훈련해야 하는 경우 지수 컴퓨팅 비용이 증가합니다.

도함수는 -3과 3 사이에서 제한되지만 함수는 0과 1 사이에서 제한됩니다. 출력이 0을 중심으로 대칭적이지 않아 모든 뉴런이 훈련 중에 동일한 부호를 채택하도록 하므로 은닉층 훈련에 이상적이지 않습니다. .

장점 -

  • 수렴하는 동안 부드러운 그라데이션을 제공합니다.
  • 종종 0과 1로 예측의 정확한 분류를 제공합니다.

사용 -

  • Machine Learning Sigmoid 함수 는 일반적으로 출력 레이어의 이진 분류 및 로지스틱 회귀 모델에 사용됩니다.

인기 있는 기계 학습 및 인공 지능 블로그

IoT: 역사, 현재 및 미래 기계 학습 자습서: ML 배우기 알고리즘이란 무엇입니까? 간단하고 쉬운
인도 로봇 공학 엔지니어 급여 : 모든 역할 기계 학습 엔지니어의 하루: 그들은 무엇을 하나요? 사물인터넷(IoT)이란
순열 대 조합: 순열과 조합의 차이점 인공 지능 및 기계 학습의 상위 7가지 트렌드 R을 사용한 기계 학습: 알아야 할 모든 것

6. Tanh – 쌍곡선 탄젠트 활성화 함수

기계 학습 의 시그모이드 함수와 유사하게 이 활성화 함수는 음수 입력을 음수 양으로 독점적으로 전송하고 범위가 -1에서 1까지라는 점을 제외하고 두 클래스를 예측하거나 구별하는 데 사용됩니다.

tanh(x)=2시그모이드(2x)-1

또는

tanh(x)=2/(1+e^(-2x)) -1

본질적으로 동일한 부호를 갖는 값으로 문제를 해결합니다. 다른 특성은 시그모이드 함수의 특성과 동일합니다. 어느 시점에서든 연속적이고 뚜렷합니다.

장점 -

  • 시그모이드와 달리 0 중심 기능을 가지고 있습니다.
  • 이 기능에는 부드러운 그라데이션도 있습니다.

기계 학습의 Tahn 및 Sigmoid 함수는 양의 경계로 인해 은닉층에서 사용될 수 있지만 심층 신경망에서는 훈련 포화 및 소실 그라디언트로 인해 이를 사용할 수 없습니다.

올바른 과정으로 기계 학습 경력 시작하기

활성화 기능에 대해 자세히 알아보고 머신 러닝 향상에 도움이 되는 데 관심이 있으십니까? WES에서 인정한 UpGrad 과정 기계 학습 및 AI의 과학 석사 과정을 통해 AI, 딥 러닝, NLP 및 강화 학습과 같은 모든 세부 사항을 포함하는 기계 학습에 대한 개요를 얻으십시오 . 이 과정은 12개 이상의 프로젝트에 참여하면서 연구, 고급 코딩 수업, 최고의 교수들과 코칭을 하면서 실습 경험을 제공합니다.

자세히 알아보려면 가입 하세요!

결론

활성화 함수로 알려진 중요한 작업은 비선형 방식으로 입력을 변경하여 더 복잡한 작업을 이해하고 수행할 수 있도록 합니다. 우리는 가장 많이 사용되는 활성화 기능과 적용될 수 있는 용도를 다루었습니다. 이러한 활성화 함수는 동일한 기능을 제공하지만 다양한 상황에서 적용됩니다.

어떤 활성화 기능이 가장 좋은지 어떻게 결정할 수 있습니까?

활성화 기능을 선택하는 것은 당면한 문제에 전적으로 의존하는 복잡한 결정입니다. 그러나 기계 학습이 처음이라면 다른 사람에게 계속하기 전에 시그모이드 함수로 시작하는 것이 좋습니다.

활성화 함수는 선형이어야 합니까 아니면 비선형이어야 합니까?

설계가 아무리 복잡하더라도 선형 활성화 함수는 한 계층 깊이까지만 유효합니다. 따라서 활성화 레이어는 선형일 수 없습니다. 또한 오늘날 세계와 그 도전은 매우 비선형적입니다.

어떤 활성화 함수를 쉽게 배울 수 있습니까?

탄. 범위를 -1에서 1로 확장하여 시그모이드 활성화 함수의 단점을 해결합니다. 결과적으로 중심이 0이 되어 숨겨진 레이어의 가중치 평균이 0에 가까워집니다. 결과적으로 학습이 더 빠르고 쉬워집니다.