Обучение с подкреплением в машинном обучении: как это работает, модели и типы обучения

Опубликовано: 2021-06-11

Оглавление

Что такое обучение с подкреплением?

Обучение с подкреплением относится к процессу принятия подходящих решений с помощью подходящих моделей машинного обучения. Он основан на процессе обучения методом машинного обучения. Это метод машинного обучения на основе обратной связи, с помощью которого агент учится вести себя в окружающей среде, наблюдая за своими ошибками и выполняя действия.

Обучение с подкреплением применяет метод обучения через взаимодействие и обратную связь. Вот несколько терминов, используемых в обучении с подкреплением:

  • Агент : это учащийся или лицо, принимающее решение, совершающее действия для получения вознаграждения.
  • Среда : это сценарий, в котором агент учится и выполняет будущие задачи.
  • Действие : действия, которые выполняет агент.
  • Состояние : текущая ситуация
  • Политика : функция принятия решений агентом, посредством которой агент определяет будущее действие на основе текущего состояния.
  • Награда : Возврат, предоставляемый средой агенту за выполнение каждого действия.
  • Ценность : по сравнению с вознаграждением это ожидаемый долгосрочный доход со скидкой.
  • Функция ценности : Обозначает ценность состояния, т.е. общую сумму дохода.
  • Аппроксиматор функций : создание функции из обучающих примеров.
    Модель среды: это модель, имитирующая реальную среду для прогнозирования выводов.
  • Методы на основе моделей: используются для решения моделей на основе армирования.
  • Значение Q или значение действия : аналогично значению, но дополнительные параметры рассматриваются как текущее действие.
  • Марковский процесс принятия решений : вероятностная модель задачи последовательного принятия решений.
  • Динамическое программирование : класс методов решения задач последовательного принятия решений.

    Обучение с подкреплением в основном связано с тем, как программные агенты должны действовать в среде. Обучение на основе нейронных сетей позволяет достичь сложной цели.

Как работает обучение с подкреплением?

Ниже показан пример обучения с подкреплением , демонстрирующий, как работает обучение с подкреплением.

  • Кошки не понимают никакой формы языка, поэтому для общения с кошкой необходимо использовать другую стратегию.
  • Создается ситуация, когда кошка действует по-разному. Кошка вознаграждается рыбой, если это желаемый путь. Поэтому кошка ведет себя одинаково всякий раз, когда сталкивается с такой ситуацией, ожидая большего количества еды в качестве награды.
  • Сценарий определяет процесс обучения на положительном опыте.
  • Наконец, кошка также учится тому, чего не следует делать, благодаря негативному опыту.

Это приводит к следующему объяснению

  • Кошка действует как агент, поскольку она подвергается воздействию окружающей среды. В приведенном выше примере дом — это среда. Состояния могут быть чем-то вроде сидящего или идущего кота.
  • Агент выполняет действие, переходя из одного состояния в другое, подобно переходу из положения сидя в положение ходьбы.
  • Действие есть реакция агента. Политика включает в себя метод выбора действия в конкретном состоянии с ожиданием лучшего результата в будущем состоянии.
  • Переход состояний может обеспечить вознаграждение или наказание.

Несколько моментов, на которые стоит обратить внимание в обучении с подкреплением

  • Должно быть предоставлено начальное состояние ввода, из которого модель будет запускаться.
  • Многие возможные результаты генерируются посредством различных решений конкретной проблемы.
  • Обучение метода RL основано на вводе. После генерации выходных данных модель решит, следует ли вознаграждать модель. Поэтому модель продолжает обучаться.
  • Модель постоянно продолжает учиться.
  • Лучшее решение проблемы определяется по максимальному вознаграждению, которое оно получает.

Алгоритм обучения с подкреплением

Существует три подхода к реализации метода обучения с подкреплением.

1. Ценность

Метод, основанный на стоимости, включает в себя максимизацию функции стоимости V(s). Ожидание долгосрочного возврата к текущему состоянию ожидается под полисом. SARSA и Q Learning — это некоторые из алгоритмов, основанных на ценности. Подходы, основанные на ценности, достаточно стабильны, поскольку не могут моделировать непрерывную среду. Оба алгоритма просты в реализации, но они не могут оценить значения невидимого состояния.

2. Основанный на политике

Этот тип метода включает в себя разработку политики, которая помогает вернуть максимальное вознаграждение за выполнение каждого действия.

Существует два типа методов, основанных на политике:

  • Детерминированный: это означает, что в любом состоянии политика производит одно и то же действие.
  • Стохастический: вероятность каждого действия определяется уравнением

п(а\s) = Р\А, = а\S, =S]

Алгоритмы, основанные на политике, представляют собой градиент политики Монте-Карло (REINFORCE) и градиент детерминированной политики (DPG). Подходы к обучению, основанные на политике, порождают нестабильность, поскольку они страдают высокой дисперсией.

Алгоритм «актор-критик» разработан с помощью комбинации подходов, основанных на ценностях и политике. Параметризация как функции ценности (критик), так и политики (актер) обеспечивает стабильную сходимость за счет эффективного использования обучающих данных.

3. Модель на основе

Виртуальная модель создается для каждой среды, и агент учится на основе этой модели. Построение модели включает этапы выборки состояний, выполнения действий и наблюдения за наградами. В каждом состоянии среды модель предсказывает будущее состояние и ожидаемое вознаграждение. При наличии модели на основе RL агент может планировать действия. Агент получает возможность учиться, когда процесс планирования переплетается с оценкой политики.

Обучение с подкреплением направлено на достижение цели путем исследования агента в неизвестной среде. Гипотеза RL гласит, что цели можно описать как максимизацию вознаграждения. Агент должен иметь возможность получать максимальное вознаграждение за счет возмущения состояний в виде действий. Алгоритмы RL можно в целом разделить на основанные на моделях и без моделей.

Модели обучения в подкреплении

1. Марковский процесс принятия решений

Набор параметров, используемых в марковском процессе принятия решений:

Набор действий-А

Набор состояний-S

Награда-R

Политика-n

Значение-V

Марковский процесс принятия решений - это математический подход к отображению решения в обучении с подкреплением.

2. Q-обучение

Этот процесс предоставляет агенту информацию о том, какое действие следует предпринять. Это форма свободного от моделей подхода. Значения Q продолжают обновляться, обозначая ценность выполнения действия «a» в состоянии «s».

Разница между обучением с подкреплением и обучением под наблюдением

Обучение с учителем — это процесс машинного обучения, при котором руководитель должен передавать знания в алгоритм обучения. Основная функция супервайзера включает в себя сбор обучающих данных, таких как изображения, аудиоклипы и т. д.

В то время как в RL обучающий набор данных в основном включает набор ситуаций и действий. Обучение с подкреплением в машинном обучении не требует какого-либо контроля. Кроме того, сочетание обучения с подкреплением и глубокого обучения дает подполе глубокого обучения с подкреплением.

Ключевые различия между RL и контролируемым обучением представлены в таблице ниже.

Обучение с подкреплением Контролируемое обучение
Решения принимаются последовательно. Выход процесса зависит от состояния текущего входа. Следующий ввод будет зависеть от вывода предыдущего ввода и так далее. Решение принимается на начальном входе или на входе, подаваемом в начале процесса.
Решения зависимы. Поэтому маркировка производится для последовательностей зависимых решений. Решения независимы друг от друга. Таким образом, производится маркировка всех решений.
Взаимодействие с окружающей средой происходит в RL. Нет взаимодействия с окружающей средой. Процесс работает с существующим набором данных.
Процесс принятия решений RL аналогичен процессу принятия решений человеческим мозгом. Процесс принятия решения подобен решению, которое принимает человеческий мозг под наблюдением проводника.
Нет помеченного набора данных. Размеченный набор данных.
Обучающему агенту не требуется предварительное обучение. Для прогнозирования выходных данных предусмотрено предварительное обучение.
RL лучше всего поддерживается ИИ, где преобладает человеческое взаимодействие. Обучение под наблюдением в основном осуществляется с помощью приложений или интерактивных программных систем.
Пример: игра в шахматы Пример: Распознавание объектов

Типы армирования

Существует два типа обучения с подкреплением

1. Положительный

Обучение с положительным подкреплением определяется как событие, вызванное определенным поведением. Это положительно влияет на агента, поскольку увеличивает силу и частоту обучения. В результате производительность максимальна. Таким образом, изменения сохраняются в течение более длительного периода времени. Но чрезмерная оптимизация состояний может повлиять на результаты обучения. Поэтому обучения с подкреплением не должно быть слишком много.

Преимущества положительного подкрепления:

  • Максимизация производительности.
  • Изменения сохраняются в течение более длительного периода.

2. Отрицательный

Отрицательное подкрепление определяется, когда в условиях негативного состояния поведение усиливается. Минимальный стандарт производительности определяется через отрицательное подкрепление.

Преимущества обучения с отрицательным подкреплением:

  • Повышает поведение.
  • Обеспечьте неповиновение минимальному стандарту производительности

Недостатки обучения с подкреплением

  • Предоставляет только достаточно, чтобы соответствовать минимальному поведению.

Проблемы в обучении с подкреплением

Обучение с подкреплением, хотя и не требует наблюдения за моделью, не является типом обучения без учителя. Однако это другая часть машинного обучения.

Несколько проблем, связанных с обучением с подкреплением:

  • Подготовка среды моделирования. Это зависит от задачи, которую необходимо выполнить. Создание реалистичного симулятора — сложная задача. Модель должна выяснить каждую минуту и ​​​​важную деталь окружающей среды.
  • Вовлечение функций и дизайна вознаграждения очень важно.
  • На скорость обучения могут влиять параметры.
  • Перенос модели в обучающую среду.
  • Управление агентом через нейронные сети — еще одна проблема, поскольку связь с нейронными сетями осуществляется только через систему вознаграждений и штрафов. Иногда это может привести к катастрофическому забыванию, т.е. стиранию старых знаний при получении новых.
  • Достижение локального минимума является проблемой для обучения с подкреплением.
  • В условиях реальной среды возможно частичное наблюдение.
  • Применение обучения с подкреплением должно регулироваться. Избыточное количество RL приводит к перегрузке состояний. Это может привести к уменьшению результатов.
  • Реальные среды нестационарны.

Применение армирования

  • В области робототехники для промышленной автоматизации.
  • RL можно использовать в стратегическом планировании бизнеса.
  • RL можно использовать в методах обработки данных, включающих алгоритмы машинного обучения.
  • Его можно использовать для индивидуальной подготовки учебных материалов для студентов в соответствии с их требованиями.
  • RL может применяться при управлении летательными аппаратами и движением роботов.

В больших средах армирование можно применять в следующих ситуациях.

  • Если аналитическое решение недоступно для известной модели среды.
  • Если предоставляется только имитационная модель окружающей среды.
  • Когда есть только один способ сбора данных — взаимодействие с окружающей средой.

В чем польза обучения с подкреплением?

  • Обучение с подкреплением помогает определить ситуацию, требующую действия.
  • Применение RL помогает узнать, какое действие приносит наибольшую награду.
  • Полезность RL заключается в предоставлении агенту функции вознаграждения.
  • Наконец, RL помогает определить метод, ведущий к большему вознаграждению.

Заключение

RL не может быть применен к каждой ситуации. Существуют определенные ограничения в его использовании.

  • Наличие достаточного количества данных позволяет использовать подход к обучению с учителем, а не метод RL.
  • Вычисление RL занимает довольно много времени, особенно в случаях, когда рассматривается большая среда.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с программой Executive PG IIIT-B и upGrad по машинному обучению и искусственному интеллекту, которая предназначена для работающих профессионалов и предлагает более 450 часов интенсивного обучения, более 30 тематических исследований и заданий, IIIT -B статус выпускника, 5+ практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Как выглядит будущее машинного обучения?

Внедрение машинного обучения сегодня быстро растет в различных отраслевых вертикалях. Начиная с финансового и инвестиционного секторов и заканчивая развлечениями, СМИ, автомобилестроением, здравоохранением и играми — сегодня трудно найти какую-либо отрасль, в которой не используются ИИ и машинное обучение. Следовательно, объем рабочих мест, связанных с машинным обучением, значительно выше, чем у многих других технологических рабочих мест. Согласно отчетам Gartner, к концу 2022 года на рынке появится примерно 2,3 миллиона рабочих мест в сфере машинного обучения и искусственного интеллекта. Кроме того, ожидается, что компенсация, предлагаемая профессионалам в этой области, также будет значительно выше, а начальная заработная плата составит 9 лакхов индийских рупий в год.

Что такое облако ИИ?

Облако ИИ — это относительно новая концепция, которую организации начали использовать недавно. Эта концепция сочетает в себе искусственный интеллект и облачные вычисления и обусловлена ​​двумя факторами. Программное обеспечение и инструменты искусственного интеллекта обеспечивают новую и улучшенную добавочную стоимость облачных вычислений, которые в настоящее время играют все более важную роль во внедрении искусственного интеллекта. Облако ИИ включает в себя общую инфраструктуру для конкретных случаев использования, которые одновременно используются различными проектами и рабочими нагрузками. Самым большим преимуществом облака ИИ является то, что оно успешно объединяет аппаратное обеспечение ИИ и программное обеспечение с открытым исходным кодом для предоставления клиентам (предприятиям) ИИ SaaS в гибридной облачной конфигурации.

Где используется алгоритм обучения с подкреплением?

Алгоритмы обучения с подкреплением поставляются с различными приложениями, такими как планирование бизнес-стратегии, робототехника для автоматизации промышленных процессов, управление самолетом и роботизированным движением, машинное обучение, разработка индивидуальной системы обучения для студентов, обработка данных и многое другое. Использование алгоритма обучения с подкреплением особенно эффективно в этих случаях, поскольку оно может легко помочь обнаружить ситуации, которые действительно требуют действий, и действия, которые приносят наибольшее вознаграждение за определенный период. Однако обучение с подкреплением не следует применять, когда имеется достаточно данных, чтобы предложить решение с использованием метода обучения с учителем.