Обучение с подкреплением в машинном обучении: как это работает, модели и типы обучения
Опубликовано: 2021-06-11Оглавление
Что такое обучение с подкреплением?
Обучение с подкреплением относится к процессу принятия подходящих решений с помощью подходящих моделей машинного обучения. Он основан на процессе обучения методом машинного обучения. Это метод машинного обучения на основе обратной связи, с помощью которого агент учится вести себя в окружающей среде, наблюдая за своими ошибками и выполняя действия.
Обучение с подкреплением применяет метод обучения через взаимодействие и обратную связь. Вот несколько терминов, используемых в обучении с подкреплением:
- Агент : это учащийся или лицо, принимающее решение, совершающее действия для получения вознаграждения.
- Среда : это сценарий, в котором агент учится и выполняет будущие задачи.
- Действие : действия, которые выполняет агент.
- Состояние : текущая ситуация
- Политика : функция принятия решений агентом, посредством которой агент определяет будущее действие на основе текущего состояния.
- Награда : Возврат, предоставляемый средой агенту за выполнение каждого действия.
- Ценность : по сравнению с вознаграждением это ожидаемый долгосрочный доход со скидкой.
- Функция ценности : Обозначает ценность состояния, т.е. общую сумму дохода.
- Аппроксиматор функций : создание функции из обучающих примеров.
Модель среды: это модель, имитирующая реальную среду для прогнозирования выводов. - Методы на основе моделей: используются для решения моделей на основе армирования.
- Значение Q или значение действия : аналогично значению, но дополнительные параметры рассматриваются как текущее действие.
- Марковский процесс принятия решений : вероятностная модель задачи последовательного принятия решений.
- Динамическое программирование : класс методов решения задач последовательного принятия решений.
Обучение с подкреплением в основном связано с тем, как программные агенты должны действовать в среде. Обучение на основе нейронных сетей позволяет достичь сложной цели.
Как работает обучение с подкреплением?
Ниже показан пример обучения с подкреплением , демонстрирующий, как работает обучение с подкреплением.
- Кошки не понимают никакой формы языка, поэтому для общения с кошкой необходимо использовать другую стратегию.
- Создается ситуация, когда кошка действует по-разному. Кошка вознаграждается рыбой, если это желаемый путь. Поэтому кошка ведет себя одинаково всякий раз, когда сталкивается с такой ситуацией, ожидая большего количества еды в качестве награды.
- Сценарий определяет процесс обучения на положительном опыте.
- Наконец, кошка также учится тому, чего не следует делать, благодаря негативному опыту.
Это приводит к следующему объяснению
- Кошка действует как агент, поскольку она подвергается воздействию окружающей среды. В приведенном выше примере дом — это среда. Состояния могут быть чем-то вроде сидящего или идущего кота.
- Агент выполняет действие, переходя из одного состояния в другое, подобно переходу из положения сидя в положение ходьбы.
- Действие есть реакция агента. Политика включает в себя метод выбора действия в конкретном состоянии с ожиданием лучшего результата в будущем состоянии.
- Переход состояний может обеспечить вознаграждение или наказание.
Несколько моментов, на которые стоит обратить внимание в обучении с подкреплением
- Должно быть предоставлено начальное состояние ввода, из которого модель будет запускаться.
- Многие возможные результаты генерируются посредством различных решений конкретной проблемы.
- Обучение метода RL основано на вводе. После генерации выходных данных модель решит, следует ли вознаграждать модель. Поэтому модель продолжает обучаться.
- Модель постоянно продолжает учиться.
- Лучшее решение проблемы определяется по максимальному вознаграждению, которое оно получает.
Алгоритм обучения с подкреплением
Существует три подхода к реализации метода обучения с подкреплением.

1. Ценность
Метод, основанный на стоимости, включает в себя максимизацию функции стоимости V(s). Ожидание долгосрочного возврата к текущему состоянию ожидается под полисом. SARSA и Q Learning — это некоторые из алгоритмов, основанных на ценности. Подходы, основанные на ценности, достаточно стабильны, поскольку не могут моделировать непрерывную среду. Оба алгоритма просты в реализации, но они не могут оценить значения невидимого состояния.
2. Основанный на политике
Этот тип метода включает в себя разработку политики, которая помогает вернуть максимальное вознаграждение за выполнение каждого действия.
Существует два типа методов, основанных на политике:
- Детерминированный: это означает, что в любом состоянии политика производит одно и то же действие.
- Стохастический: вероятность каждого действия определяется уравнением
п(а\s) = Р\А, = а\S, =S]
Алгоритмы, основанные на политике, представляют собой градиент политики Монте-Карло (REINFORCE) и градиент детерминированной политики (DPG). Подходы к обучению, основанные на политике, порождают нестабильность, поскольку они страдают высокой дисперсией.
Алгоритм «актор-критик» разработан с помощью комбинации подходов, основанных на ценностях и политике. Параметризация как функции ценности (критик), так и политики (актер) обеспечивает стабильную сходимость за счет эффективного использования обучающих данных.
3. Модель на основе
Виртуальная модель создается для каждой среды, и агент учится на основе этой модели. Построение модели включает этапы выборки состояний, выполнения действий и наблюдения за наградами. В каждом состоянии среды модель предсказывает будущее состояние и ожидаемое вознаграждение. При наличии модели на основе RL агент может планировать действия. Агент получает возможность учиться, когда процесс планирования переплетается с оценкой политики.
Обучение с подкреплением направлено на достижение цели путем исследования агента в неизвестной среде. Гипотеза RL гласит, что цели можно описать как максимизацию вознаграждения. Агент должен иметь возможность получать максимальное вознаграждение за счет возмущения состояний в виде действий. Алгоритмы RL можно в целом разделить на основанные на моделях и без моделей.
Модели обучения в подкреплении
1. Марковский процесс принятия решений
Набор параметров, используемых в марковском процессе принятия решений:
Набор действий-А
Набор состояний-S
Награда-R
Политика-n
Значение-V
Марковский процесс принятия решений - это математический подход к отображению решения в обучении с подкреплением.
2. Q-обучение
Этот процесс предоставляет агенту информацию о том, какое действие следует предпринять. Это форма свободного от моделей подхода. Значения Q продолжают обновляться, обозначая ценность выполнения действия «a» в состоянии «s».
Разница между обучением с подкреплением и обучением под наблюдением
Обучение с учителем — это процесс машинного обучения, при котором руководитель должен передавать знания в алгоритм обучения. Основная функция супервайзера включает в себя сбор обучающих данных, таких как изображения, аудиоклипы и т. д.

В то время как в RL обучающий набор данных в основном включает набор ситуаций и действий. Обучение с подкреплением в машинном обучении не требует какого-либо контроля. Кроме того, сочетание обучения с подкреплением и глубокого обучения дает подполе глубокого обучения с подкреплением.
Ключевые различия между RL и контролируемым обучением представлены в таблице ниже.
Обучение с подкреплением | Контролируемое обучение |
Решения принимаются последовательно. Выход процесса зависит от состояния текущего входа. Следующий ввод будет зависеть от вывода предыдущего ввода и так далее. | Решение принимается на начальном входе или на входе, подаваемом в начале процесса. |
Решения зависимы. Поэтому маркировка производится для последовательностей зависимых решений. | Решения независимы друг от друга. Таким образом, производится маркировка всех решений. |
Взаимодействие с окружающей средой происходит в RL. | Нет взаимодействия с окружающей средой. Процесс работает с существующим набором данных. |
Процесс принятия решений RL аналогичен процессу принятия решений человеческим мозгом. | Процесс принятия решения подобен решению, которое принимает человеческий мозг под наблюдением проводника. |
Нет помеченного набора данных. | Размеченный набор данных. |
Обучающему агенту не требуется предварительное обучение. | Для прогнозирования выходных данных предусмотрено предварительное обучение. |
RL лучше всего поддерживается ИИ, где преобладает человеческое взаимодействие. | Обучение под наблюдением в основном осуществляется с помощью приложений или интерактивных программных систем. |
Пример: игра в шахматы | Пример: Распознавание объектов |
Типы армирования
Существует два типа обучения с подкреплением
1. Положительный
Обучение с положительным подкреплением определяется как событие, вызванное определенным поведением. Это положительно влияет на агента, поскольку увеличивает силу и частоту обучения. В результате производительность максимальна. Таким образом, изменения сохраняются в течение более длительного периода времени. Но чрезмерная оптимизация состояний может повлиять на результаты обучения. Поэтому обучения с подкреплением не должно быть слишком много.
Преимущества положительного подкрепления:
- Максимизация производительности.
- Изменения сохраняются в течение более длительного периода.
2. Отрицательный
Отрицательное подкрепление определяется, когда в условиях негативного состояния поведение усиливается. Минимальный стандарт производительности определяется через отрицательное подкрепление.
Преимущества обучения с отрицательным подкреплением:
- Повышает поведение.
- Обеспечьте неповиновение минимальному стандарту производительности
Недостатки обучения с подкреплением

- Предоставляет только достаточно, чтобы соответствовать минимальному поведению.
Проблемы в обучении с подкреплением
Обучение с подкреплением, хотя и не требует наблюдения за моделью, не является типом обучения без учителя. Однако это другая часть машинного обучения.
Несколько проблем, связанных с обучением с подкреплением:
- Подготовка среды моделирования. Это зависит от задачи, которую необходимо выполнить. Создание реалистичного симулятора — сложная задача. Модель должна выяснить каждую минуту и важную деталь окружающей среды.
- Вовлечение функций и дизайна вознаграждения очень важно.
- На скорость обучения могут влиять параметры.
- Перенос модели в обучающую среду.
- Управление агентом через нейронные сети — еще одна проблема, поскольку связь с нейронными сетями осуществляется только через систему вознаграждений и штрафов. Иногда это может привести к катастрофическому забыванию, т.е. стиранию старых знаний при получении новых.
- Достижение локального минимума является проблемой для обучения с подкреплением.
- В условиях реальной среды возможно частичное наблюдение.
- Применение обучения с подкреплением должно регулироваться. Избыточное количество RL приводит к перегрузке состояний. Это может привести к уменьшению результатов.
- Реальные среды нестационарны.
Применение армирования
- В области робототехники для промышленной автоматизации.
- RL можно использовать в стратегическом планировании бизнеса.
- RL можно использовать в методах обработки данных, включающих алгоритмы машинного обучения.
- Его можно использовать для индивидуальной подготовки учебных материалов для студентов в соответствии с их требованиями.
- RL может применяться при управлении летательными аппаратами и движением роботов.
В больших средах армирование можно применять в следующих ситуациях.
- Если аналитическое решение недоступно для известной модели среды.
- Если предоставляется только имитационная модель окружающей среды.
- Когда есть только один способ сбора данных — взаимодействие с окружающей средой.
В чем польза обучения с подкреплением?
- Обучение с подкреплением помогает определить ситуацию, требующую действия.
- Применение RL помогает узнать, какое действие приносит наибольшую награду.
- Полезность RL заключается в предоставлении агенту функции вознаграждения.
- Наконец, RL помогает определить метод, ведущий к большему вознаграждению.
Заключение
RL не может быть применен к каждой ситуации. Существуют определенные ограничения в его использовании.
- Наличие достаточного количества данных позволяет использовать подход к обучению с учителем, а не метод RL.
- Вычисление RL занимает довольно много времени, особенно в случаях, когда рассматривается большая среда.
Если вам интересно узнать больше о машинном обучении, ознакомьтесь с программой Executive PG IIIT-B и upGrad по машинному обучению и искусственному интеллекту, которая предназначена для работающих профессионалов и предлагает более 450 часов интенсивного обучения, более 30 тематических исследований и заданий, IIIT -B статус выпускника, 5+ практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Как выглядит будущее машинного обучения?
Внедрение машинного обучения сегодня быстро растет в различных отраслевых вертикалях. Начиная с финансового и инвестиционного секторов и заканчивая развлечениями, СМИ, автомобилестроением, здравоохранением и играми — сегодня трудно найти какую-либо отрасль, в которой не используются ИИ и машинное обучение. Следовательно, объем рабочих мест, связанных с машинным обучением, значительно выше, чем у многих других технологических рабочих мест. Согласно отчетам Gartner, к концу 2022 года на рынке появится примерно 2,3 миллиона рабочих мест в сфере машинного обучения и искусственного интеллекта. Кроме того, ожидается, что компенсация, предлагаемая профессионалам в этой области, также будет значительно выше, а начальная заработная плата составит 9 лакхов индийских рупий в год.
Что такое облако ИИ?
Облако ИИ — это относительно новая концепция, которую организации начали использовать недавно. Эта концепция сочетает в себе искусственный интеллект и облачные вычисления и обусловлена двумя факторами. Программное обеспечение и инструменты искусственного интеллекта обеспечивают новую и улучшенную добавочную стоимость облачных вычислений, которые в настоящее время играют все более важную роль во внедрении искусственного интеллекта. Облако ИИ включает в себя общую инфраструктуру для конкретных случаев использования, которые одновременно используются различными проектами и рабочими нагрузками. Самым большим преимуществом облака ИИ является то, что оно успешно объединяет аппаратное обеспечение ИИ и программное обеспечение с открытым исходным кодом для предоставления клиентам (предприятиям) ИИ SaaS в гибридной облачной конфигурации.
Где используется алгоритм обучения с подкреплением?
Алгоритмы обучения с подкреплением поставляются с различными приложениями, такими как планирование бизнес-стратегии, робототехника для автоматизации промышленных процессов, управление самолетом и роботизированным движением, машинное обучение, разработка индивидуальной системы обучения для студентов, обработка данных и многое другое. Использование алгоритма обучения с подкреплением особенно эффективно в этих случаях, поскольку оно может легко помочь обнаружить ситуации, которые действительно требуют действий, и действия, которые приносят наибольшее вознаграждение за определенный период. Однако обучение с подкреплением не следует применять, когда имеется достаточно данных, чтобы предложить решение с использованием метода обучения с учителем.