Все, что вам нужно знать о функции активации в ML
Опубликовано: 2022-11-08Что такое функция активации в машинном обучении?
Функции активации машинного обучения оказываются ключевыми элементами модели машинного обучения, включающей в себя все ее веса и смещения. Они являются предметом исследований, которые постоянно развиваются и сыграли значительную роль в том, чтобы обучение Deep Neural Network стало реальностью. По сути, они определяют решение о стимуляции нейрона. Относится ли информация, которую получает нейрон, к уже имеющейся информации или ею следует пренебречь. Нелинейная модификация, которую мы применяем к входному сигналу, называется функцией активации. Следующий слой нейронов получает этот измененный выходной сигнал в качестве входного.
Поскольку функции активации проводят нелинейные вычисления на входе нейронной сети, они позволяют ей учиться и выполнять более сложные задачи без них, что по сути является моделью линейной регрессии в машинном обучении.
Важно понимать применение функций активации и взвешивать преимущества и недостатки каждой функции активации, чтобы выбрать соответствующий тип функции активации, который может обеспечить нелинейность и точность в конкретной модели нейронной сети.
Запишитесь на курс машинного обучения в лучших университетах мира. Заработайте программы Masters, Executive PGP или Advanced Certificate Programs, чтобы ускорить свою карьеру.
Модели функций активации машинного обучения в основном бывают двух типов:
- Скрытые слои
- Выходные слои
Скрытые слои
Функции активации, используемые в скрытых слоях нейронных моделей, основная роль которых заключается в обеспечении нелинейности, необходимой нейронным сетям для имитации нелинейных взаимодействий.
Выходные слои
Методы активации, используемые выходными слоями моделей машинного обучения, имеют конкретную основную цель: сжать значение в ограниченном диапазоне, например от 0 до 1.
Давайте сначала разберемся с различными типами функций активации в машинном обучении .
1. Двоичная ступенчатая функция
Классификатор на основе порога, который определяет, следует ли задействовать нейрон, — это первое, что приходит на ум, когда у нас есть функция активации. Нейрон срабатывает, если значение Y превышает заданное пороговое значение; в противном случае он остается бездействующим.
Это часто определяется как -
f(x) = 1, x>=0
f(x) = 0, x<0
Бинарная функция проста. Это применимо при разработке бинарного классификатора. Нужны оценки, которые являются идеальным вариантом, когда нам нужно просто ответить «да» или «нет» для одного класса, поскольку они либо включают нейрон, либо оставляют его нулевым.
2. Линейная функция
Положительный наклон может привести к увеличению скорости срабатывания по мере увеличения скорости ввода. Линейные функции активации превосходны в обеспечении широкого диапазона активаций.
Функция точно пропорциональна взвешенной комбинации нейронов или входным данным в нашей прямой функции горизонтальной активации.
Нейрон может срабатывать или не срабатывать в двоичном виде. Вы можете заметить, что производная этой функции постоянна, если вы знакомы с градиентным спуском в машинном обучении.
Лучшие онлайн-курсы по машинному обучению и курсы по искусственному интеллекту
Магистр наук в области машинного обучения и искусственного интеллекта от LJMU | Высшая программа высшего образования в области машинного обучения и искусственного интеллекта от IIITB | |
Продвинутая сертификационная программа по машинному обучению и НЛП от IIITB | Расширенная программа сертификации в области машинного обучения и глубокого обучения от IIITB | Программа Executive Post Graduate Program в области науки о данных и машинного обучения Университета Мэриленда |
Чтобы изучить все наши курсы, посетите нашу страницу ниже. | ||
Курсы по машинному обучению |
3. Нелинейная функция
РеЛУ
С точки зрения функций активации лучше всего подходит Rectified Linear Unit. Это самая популярная функция активации по умолчанию для большинства проблем. Когда он отрицателен, он ограничивается 0, тогда как когда он становится положительным, он не ограничен. Глубокая нейронная сеть может выиграть от внутренней регуляризации, создаваемой этой комбинацией ограниченности и неограниченности. Регуляризация создает разреженное представление, которое делает обучение и вывод эффективными с точки зрения вычислений.
Положительная неограниченность поддерживает простоту вычислений, ускоряя сходимость линейной регрессии. У ReLU есть только один существенный недостаток: мертвые нейроны. Некоторые мертвые нейроны выключались в начале фазы обучения и отрицательно связаны с 0, и никогда не активируются повторно. Поскольку функция быстро переходит от неограниченной при x > 0 к ограниченной при x ≤ 0, ее нельзя непрерывно дифференцировать. Однако на практике это можно преодолеть без долговременных последствий для производительности, если есть низкая скорость обучения и значительное отрицательное смещение.
Плюсы:
- ReLU требует меньше математических процессов, чем другие нелинейные функции, что делает его менее затратным в вычислительном отношении и линейным.
- Это предотвращает и устраняет проблему исчезающего градиента.
Использовать:
- Используется в RNN, CNN и других моделях машинного обучения.
Различные модификации ReLU –
Дырявый ReLU
Лучшим вариантом функции ReLU является функция Leaky ReLU. Поскольку градиент функции ReLU равен 0, где x<0, активация в этой области приводит к гибели нейронов, и негерметичный ReLU оказывается наиболее полезным для решения таких проблем. Мы определяем функцию ReLU как крошечную линейную составляющую x, а не как 0, где x<0.
Это можно рассматривать как -
f(x)=ax, x<0
е(х)=х, х>=0
Плюсы –
- Утечка ReLU, которая имеет небольшой отрицательный наклон, была попыткой решить проблему «умирающего ReLU» (0,01 или около того).
Использовать -
- Используется в задачах, связанных с градиентами, таких как GAN.
Параметрический ReLU
Это улучшение по сравнению с Leaky ReLU, где скалярный множитель обучается на данных, а не выбирается случайным образом. Поскольку модель была обучена с использованием данных, она чувствительна к параметру масштабирования (a) и по-разному ведет себя в зависимости от значения a.
Использовать -
- Когда Leaky ReLU выходит из строя, параметрический ReLU можно использовать для решения проблемы мертвых нейронов.
GeLU (линейная единица ошибки Гаусса)
Самый новый ребенок в блоке и, несомненно, победитель для задач, связанных с NLP (обработкой естественного языка), — это линейная единица ошибки Гаусса, которая используется в системах на основе преобразователя и алгоритмах SOTA, таких как GPT-3 и BERT. GeLU сочетает в себе ReLU, Zone Out и Dropout (который случайным образом обнуляет нейроны для разреженной сети). ReLU стал более плавным с GeLU, поскольку он взвешивает входные данные по процентилю, а не по воротам.
Использовать -
- Компьютерное зрение, НЛП, распознавание речи
ELU (Экспоненциальная линейная единица)
Представленный в 2015 году ELU является положительно неограниченным и использует логарифмическую кривую для отрицательных значений. По сравнению с Leaky и Parameter ReLU эта стратегия решения проблемы мертвых нейронов немного отличается. В отличие от ReLU, отрицательные значения постепенно сглаживаются и становятся ограниченными, чтобы предотвратить мертвые нейроны. Однако это дорого, поскольку для описания отрицательного наклона используется экспоненциальная функция. При использовании далеко не идеального начального метода экспоненциальная функция иногда приводит к расширяющемуся градиенту.
взмах
Небольшие отрицательные значения Swish, которые впервые были представлены в 2017 году, по-прежнему помогают фиксировать основные закономерности, в то время как большие отрицательные значения будут иметь производную, равную 0. Swish можно легко использовать для замены ReLU из-за его интригующей формы.
Плюсы –
- Результатом является обходной путь между функцией Sigmoid и RELU, который помогает нормализовать результат.
- Имеет возможность справиться с проблемой исчезающего градиента.
Использовать -
- С точки зрения категоризации изображений и машинного перевода он не уступает или даже превосходит ReLU.
Востребованные навыки машинного обучения
Курсы искусственного интеллекта | Курсы Табло |
Курсы НЛП | Курсы глубокого обучения |
4. Функция активации Softmax
Как и сигмовидные функции активации, softmax в основном используется на последнем или выходном уровне для принятия решений. Softmax просто присваивает значения входным переменным на основе их весов, и сумма этих весов в конечном итоге равняется единице.
Плюсы –
- По сравнению с функцией RELU сходимость градиента в Softmax более плавная.
- У него есть возможность справиться с проблемой исчезающего градиента.
Использовать -
- Классификация Multiclass и Multinomina.
5. Сигмовидная
Сигмоидальная функция в машинном обучении — одна из самых популярных функций активации. Уравнение –
f(x)=1/(1+e^-x)
Преимущество этих функций активации заключается в уменьшении входных данных до значений в диапазоне от 0 до 1, что делает их идеальными для моделирования вероятности. Применительно к глубокой нейронной сети функция становится дифференцируемой, но быстро насыщается из-за ограниченности, что приводит к уменьшению градиента. Стоимость экспоненциальных вычислений возрастает, когда необходимо обучить модель с сотнями слоев и нейронов.
Производная ограничена между -3 и 3, тогда как функция ограничена между 0 и 1. Она не идеальна для обучения скрытых слоев, поскольку выходные данные несимметричны относительно нуля, что может привести к тому, что все нейроны примут один и тот же знак во время обучения. .
Плюсы –
- Обеспечивает плавный градиент во время схождения.
- Он часто дает точную классификацию предсказания с 0 и 1.
Использовать -
- Сигмовидная функция в машинном обучении обычно используется в моделях бинарной классификации и логистической регрессии на выходном уровне.
Популярные блоги о машинном обучении и искусственном интеллекте
Интернет вещей: история, настоящее и будущее | Учебное пособие по машинному обучению: Изучите машинное обучение | Что такое алгоритм? Просто и легко |
Заработная плата инженера-робототехника в Индии: все роли | Один день из жизни инженера по машинному обучению: что они делают? | Что такое IoT (Интернет вещей) |
Перестановка против комбинации: разница между перестановкой и комбинацией | 7 основных тенденций в области искусственного интеллекта и машинного обучения | Машинное обучение с R: все, что вам нужно знать |
6. Tanh — функция активации гиперболического тангенса
Подобно сигмовидной функции в машинном обучении , эта функция активации используется для прогнозирования или различения двух классов, за исключением того, что она переводит отрицательные входные данные исключительно в отрицательные величины и имеет диапазон от -1 до 1.
тангенс(х)=2сигмоид(2х)-1
или же
танх(х)=2/(1+е^(-2х))-1
По сути, это решает нашу проблему со значениями, имеющими один и тот же знак. Остальные характеристики идентичны характеристикам сигмовидной функции. В любой точке она непрерывна и различна.
Плюсы –
- В отличие от сигмоиды, имеет нульцентрическую функцию.
- Эта функция также имеет плавный градиент.
Хотя функции Тана и сигмоиды в машинном обучении могут использоваться в скрытых слоях из-за их положительной ограниченности, глубокие нейронные сети не могут использовать их из-за насыщенности обучения и исчезающих градиентов.
Начните свою карьеру в области машинного обучения с правильного курса
Хотите глубже изучить функции активации и их помощь в улучшении машинного обучения? Получите обзор машинного обучения со всеми подробностями, такими как ИИ, глубокое обучение, НЛП и обучение с подкреплением, с помощью признанного WES курса UpGrad Masters of Science in Machine Learning and AI . Этот курс дает практический опыт работы над более чем 12 проектами, проведения исследований, занятий по кодированию и коучинга с некоторыми из лучших профессоров.
Зарегистрируйтесь, чтобы узнать больше!
Вывод
Критические операции, известные как функции активации, изменяют ввод нелинейным образом, позволяя ему понимать и выполнять более сложные задачи. Мы рассмотрели самые популярные функции активации и способы их применения; эти функции активации обеспечивают одну и ту же функцию, но применяются при различных обстоятельствах.
Как решить, какая функция активации лучше?
Выбор функции активации — сложное решение, полностью зависящее от рассматриваемой проблемы. Однако вы можете начать с сигмовидной функции, если вы новичок в машинном обучении, прежде чем переходить к другим.
Должна ли функция активации быть линейной или нелинейной?
Независимо от того, насколько сложна конструкция, линейная функция активации эффективна только до одного слоя в глубину. Следовательно, активационный слой не может быть линейным. Кроме того, современный мир и его проблемы очень нелинейны.
Какую функцию активации можно легко изучить?
Танх. Расширяя диапазон от -1 до 1, он устраняет недостаток сигмовидной функции активации. Это приводит к нулевому центрированию, что приводит к тому, что среднее значение весов скрытого слоя приближается к 0. В результате обучение становится более быстрым и легким.