ML의 강화 학습: 작동 방식, 학습 모델 및 유형

게시 됨: 2021-06-11

강화 학습이란 무엇입니까?

강화 학습은 적절한 기계 학습 모델을 통해 적절한 결정을 내리는 과정을 말합니다. 기계 학습 방법을 교육하는 과정을 기반으로 합니다. 에이전트가 자신의 실수를 관찰하고 행동을 수행함으로써 환경에서 행동하는 법을 배우는 피드백 기반 기계 학습 기술입니다.

강화 학습은 상호 작용 및 피드백을 통한 학습 방법을 적용합니다. 강화 학습에 사용되는 몇 가지 용어는 다음과 같습니다.

Agent : 보상을 받기 위해 행동을 취하는 학습자 또는 의사결정자이다.
환경 : 에이전트가 학습하고 향후 작업을 수행하는 시나리오입니다.
Action : 에이전트가 수행하는 작업입니다.
상태 : 현재 상황
정책 : 에이전트가 현재 상태를 기반으로 향후 조치를 결정하는 에이전트의 의사 결정 기능.
보상 : 각 행동을 수행하는 에이전트에게 환경이 제공하는 반환.
가치 : 보상과 비교하여 할인된 기대되는 장기 수익률입니다.
가치 함수 : 상태의 가치를 나타냅니다. 즉, 총 수익 금액입니다.
함수 근사기 : 훈련 예제에서 함수를 유도합니다.
환경 모델: 추론을 예측하기 위해 실제 환경을 모방한 모델입니다.
모델 기반 방법 : 철근 기반 모델을 해결하는 데 사용됩니다.
Q 값 또는 조치 값 : 값과 유사하지만 추가 매개변수는 현재 조치와 같은 것으로 간주됩니다.
마르코프 결정 과정 : 순차 결정 문제의 확률적 모델.
동적 프로그래밍 : 순차 결정 문제를 해결하기 위한 방법 클래스.

강화 학습은 소프트웨어 에이전트가 환경에서 어떻게 조치를 취해야 하는지에 대한 사실과 주로 관련됩니다. 신경망을 기반으로 학습하면 복잡한 목표를 달성할 수 있습니다.

강화 학습은 어떻게 작동합니까?

강화 학습의 작동 방식을 보여주는 강화 학습 예제 가 아래에 나와 있습니다.

고양이는 어떤 형태의 언어도 이해하지 못하므로 고양이와 의사 소통하려면 다른 전략을 따라야 합니다.
고양이가 다양한 방식으로 행동하는 상황이 만들어집니다. 고양이는 원하는 방식으로 물고기를 보상으로 받습니다. 따라서 고양이는 보상으로 더 많은 음식을 기대하는 상황에 직면할 때마다 같은 방식으로 행동합니다.
시나리오는 긍정적인 경험에서 배우는 과정을 정의합니다.
마지막으로 고양이는 부정적인 경험을 통해서도 하지 말아야 할 것을 배운다.

이것은 다음 설명으로 이어진다.

고양이는 환경에 노출될 때 대리인 역할을 합니다. 위에서 언급한 예에서 집은 환경입니다. 상태는 고양이가 앉거나 걷는 것과 같은 것일 수 있습니다.
에이전트는 앉은 상태에서 걷는 위치로 이동하는 것처럼 한 상태에서 다른 상태로 전환하여 작업을 수행합니다.
행동은 에이전트의 반응입니다. 정책에는 미래 상태에서 더 나은 결과를 기대하면서 특정 상태에서 작업을 선택하는 방법이 포함됩니다.
상태 전환은 보상이나 패널티를 제공할 수 있습니다.

강화 학습에서 주의할 몇 가지 사항

모델이 시작될 초기 입력 상태가 제공되어야 합니다.
특정 문제에 대한 다양한 솔루션을 통해 많은 가능한 출력이 생성됩니다.
RL 방법의 교육은 입력을 기반으로 합니다. 출력 생성 후 모델은 모델에 대한 보상 여부를 결정합니다. 따라서 모델은 계속 학습됩니다.
모델은 지속적으로 학습합니다.
문제에 대한 최상의 솔루션은 받는 최대 보상에 따라 결정됩니다.

강화 학습 알고리즘

강화 학습 방법을 구현하는 방법에는 세 가지가 있습니다.

1. 가치 기반

가치 기반 방법은 가치 함수 V(s)를 최대화하는 것을 포함합니다. 정책에 따라 장기적으로 현 상태의 회복에 대한 기대가 예상됩니다. SARSA 및 Q Learning은 가치 기반 알고리즘 중 일부입니다. 가치 기반 접근 방식은 지속적인 환경을 모델링할 수 없기 때문에 매우 안정적입니다. 두 알고리즘 모두 구현이 간단하지만 보이지 않는 상태의 값을 추정할 수 없습니다.

2. 정책 기반

이러한 유형의 방법은 모든 작업의 수행을 통해 최대 보상을 반환하는 데 도움이 되는 정책 개발을 포함합니다.

정책 기반 방법에는 두 가지 유형이 있습니다.

결정적: 이는 모든 상태에서 정책이 동일한 작업을 생성함을 의미합니다.
확률론적: 모든 행동에 대한 확률은 다음 방정식으로 정의됩니다.

n{a\s) = P\A, = a\S, =S]

정책 기반 알고리즘은 몬테카를로 정책 기울기(REINFORCE)와 결정론적 정책 기울기(DPG)입니다. 정책 기반 학습 접근 방식은 높은 분산으로 인해 불안정성을 발생시킵니다.

"배우 비평가" 알고리즘은 가치 기반 접근 방식과 정책 기반 접근 방식의 조합을 통해 개발됩니다. 가치함수(비평)와 정책(행위자)의 매개변수화는 훈련 데이터의 효과적인 활용을 통해 안정적인 수렴을 가능하게 한다.

3. 모델 기반

각 환경에 대해 가상 모델이 생성되고 에이전트는 해당 모델을 기반으로 학습합니다. 모델 구축에는 상태 샘플링, 조치 취하기, 보상 관찰 단계가 포함됩니다. 환경의 각 상태에서 모델은 미래 상태와 예상 보상을 예측합니다. RL 기반 모델의 가용성으로 에이전트는 작업을 계획할 수 있습니다. 에이전트는 계획 프로세스가 정책 추정과 얽혀 있을 때 학습하는 능력을 얻습니다.

강화 학습은 미지의 환경에서 에이전트를 탐색하여 목표를 달성하는 것을 목표로 합니다. RL의 가설은 목표가 보상의 최대화로 설명될 수 있다는 것입니다. 에이전트는 행동의 형태로 상태의 섭동을 통해 최대 보상을 얻을 수 있어야 합니다. RL 알고리즘은 크게 모델 기반과 모델 프리로 분류할 수 있습니다.

강화의 학습 모델

1. 마르코프 결정 과정

Markov 결정 프로세스에 사용되는 매개변수 세트는 다음과 같습니다.

일련의 작업-A

상태 세트-S

보상-R

정책-n

가치-V

Markov 결정 프로세스는 강화 학습에서 솔루션을 매핑하기 위한 수학적 접근 방식입니다.

2. Q학습

이 프로세스는 진행해야 할 작업을 알려주는 정보를 에이전트에 제공합니다. 일종의 모델 프리 접근 방식입니다. Q 값은 계속 업데이트되며 상태 "s"에서 "a" 작업을 수행하는 값을 나타냅니다.

강화 학습과 지도 학습의 차이점

지도 학습은 감독자가 학습 알고리즘에 지식을 제공해야 하는 기계 학습 프로세스입니다. 감독자의 주요 기능은 이미지, 오디오 클립 등과 같은 교육 데이터 수집을 포함합니다.

RL에서 훈련 데이터 세트는 대부분 상황 및 조치 세트를 포함합니다. 기계 학습의 강화 학습 에는 어떤 형태의 감독도 필요하지 않습니다. 또한 강화 학습과 딥 러닝의 조합은 하위 필드 딥 강화 학습을 생성합니다.

RL과 지도 학습의 주요 차이점은 아래 표에 나와 있습니다.

강화 학습	지도 학습
결정은 순차적으로 이루어집니다. 프로세스의 출력은 현재 입력의 상태에 따라 다릅니다. 다음 입력은 이전 입력의 출력 등에 따라 달라집니다.	결정은 초기 입력 또는 프로세스 시작 시 제공된 입력에서 이루어집니다.
결정은 의존적입니다. 따라서 레이블링은 종속 결정의 시퀀스에 수행됩니다.	결정은 서로 독립적입니다. 따라서 모든 결정에 레이블을 지정합니다.
환경과의 상호 작용은 RL에서 발생합니다.	환경과의 상호 작용이 없습니다. 프로세스는 기존 데이터 세트에서 작동합니다.
RL의 의사 결정 과정은 인간 두뇌의 의사 결정 과정과 유사합니다.	의사 결정 과정은 가이드의 감독하에 인간의 두뇌가 내리는 결정과 유사합니다.
레이블이 지정된 데이터세트가 없습니다.	레이블이 지정된 데이터 세트.
학습 에이전트에게는 이전 교육이 필요하지 않습니다.	출력 예측을 위해 이전 교육이 제공됩니다.
RL은 인간 상호 작용이 널리 퍼져 있는 AI에서 가장 잘 지원됩니다.	지도 학습은 대부분 응용 프로그램이나 대화형 소프트웨어 시스템으로 운영됩니다.
예: 체스 게임	예: 물체 인식

보강 유형

강화 학습에는 두 가지 유형이 있습니다.

1. 긍정적

긍정적 강화 학습은 특정 행동에서 발생하는 이벤트로 정의됩니다. 이것은 학습의 강도와 빈도를 증가시키기 때문에 에이전트에 긍정적인 영향을 미칩니다. 결과적으로 성능이 극대화됩니다. 따라서 변화는 더 오랜 기간 동안 지속됩니다. 그러나 상태를 과도하게 최적화하면 학습 결과에 영향을 줄 수 있습니다. 따라서 강화 학습은 너무 많이 해서는 안됩니다.

긍정적 강화의 장점은 다음과 같습니다.

성능 극대화.
더 오랜 기간 동안 지속되는 변화.

2. 네거티브

부적 강화는 부정적인 조건의 상황에서 행동이 강화될 때 정의됩니다. 수행의 최소 기준은 부정적인 강화를 통해 정의됩니다.

부정적인 강화 학습의 장점은 다음과 같습니다.

행동을 증가시킵니다.
최소한의 성능 기준에 대한 도전을 제공

강화학습의 단점

최소한의 행동을 충족할 만큼만 제공합니다.

강화 학습의 과제

강화 학습은 모델의 감독이 필요하지 않지만 일종의 비지도 학습이 아닙니다. 그러나 이것은 기계 학습의 다른 부분입니다.

강화 학습과 관련된 몇 가지 문제는 다음과 같습니다.

시뮬레이션 환경 준비. 이것은 수행할 작업에 따라 다릅니다. 사실적인 시뮬레이터를 만드는 것은 어려운 작업입니다. 모델은 매 순간마다 환경의 중요한 세부 사항을 파악해야 합니다.
기능 및 보상 디자인의 참여는 매우 중요합니다.
학습 속도는 매개변수의 영향을 받을 수 있습니다.
모델을 교육 환경으로 전송합니다.
신경망을 통해 에이전트를 제어하는 것은 신경망과의 유일한 통신이 보상 및 처벌 시스템을 통해서만 이루어지기 때문에 또 다른 과제입니다. 때때로 이것은 새로운 지식을 얻는 동안 오래된 지식을 삭제하는 치명적인 망각을 초래할 수 있습니다.
로컬 최소값에 도달하는 것은 강화 학습에 대한 도전입니다.
실제 환경 조건에서 부분적인 관찰이 있을 수 있습니다.
강화 학습의 적용은 규제되어야 합니다. 과도한 양의 RL은 상태의 과부하로 이어집니다. 이는 결과의 감소로 이어질 수 있습니다.
실제 환경은 고정되어 있지 않습니다.

보강의 적용

산업 자동화를 위한 로봇 공학 분야에서.
RL은 비즈니스의 전략적 계획에 사용할 수 있습니다.
RL은 기계 학습 알고리즘과 관련된 데이터 처리 기술에 사용할 수 있습니다.
학생들의 요구 사항에 따라 교육 자료를 맞춤 준비하는 데 사용할 수 있습니다.
RL은 항공기 제어 및 로봇의 움직임에 적용될 수 있습니다.

대규모 환경에서 다음과 같은 상황에서 보강재를 적용할 수 있습니다.

알려진 환경 모델에 대해 분석 솔루션을 사용할 수 없는 경우.
환경의 시뮬레이션 모델만 제공된다면.
환경과 상호 작용하는 것이 데이터를 수집하는 유일한 방법이 있는 경우.

강화 학습의 용도는 무엇입니까?

강화 학습은 조치가 필요한 상황을 식별하는 데 도움이 됩니다.
RL을 적용하면 어떤 작업이 가장 높은 보상을 얻을 수 있는지 알 수 있습니다.
RL의 유용성은 에이전트에 보상 기능을 제공하는 데 있습니다.
마지막으로 RL은 더 큰 보상으로 이어지는 방법을 식별하는 데 도움이 됩니다.

결론

모든 상황에 RL을 적용할 수는 없습니다. 사용에 일정한 제한이 있습니다.

데이터가 충분하면 RL 방법보다 지도 학습 접근 방식을 사용할 수 있습니다.
RL의 계산은 특히 대규모 환경이 고려되는 경우 시간이 많이 걸립니다.

머신 러닝에 대해 자세히 알아보려면 IIIT-B & upGrad의 기계 학습 및 AI 경영자 PG 프로그램을 확인하세요. 이 프로그램은 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT를 제공합니다. -B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

머신러닝 직업의 미래는 어떤 모습일까요?

오늘날 다양한 산업 분야에서 머신 러닝 채택이 빠르게 증가하고 있습니다. 금융 및 투자 부문부터 엔터테인먼트, 미디어, 자동차, 의료 및 게임에 이르기까지 오늘날 AI와 머신 러닝을 사용하지 않는 산업을 찾기가 어렵습니다. 결과적으로 기계 학습 작업의 범위는 다른 많은 기술 작업보다 훨씬 높습니다. Gartner의 보고서에 따르면 2022년 말까지 약 230만 개의 기계 학습 및 AI 직업이 시장에 나올 것입니다. 또한 이 분야의 전문가에게 제공되는 보상도 상당히 높을 것으로 예상되며 시작 급여는 연간 INR 9백만입니다.

AI 클라우드란?

AI 클라우드는 최근 조직에서 도입하기 시작한 비교적 새로운 개념입니다. 이 개념은 인공 지능과 클라우드 컴퓨팅을 결합하며 두 가지 요소에 의해 주도됩니다. AI 소프트웨어 및 도구는 현재 인공 지능 채택에서 점점 더 중요한 역할을 하고 있는 클라우드 컴퓨팅에 새롭고 향상된 부가가치를 제공하고 있습니다. AI 클라우드는 다양한 프로젝트 및 워크로드에서 동시에 활용되는 특정 사용 사례를 위한 공유 인프라로 구성됩니다. AI 클라우드의 가장 큰 장점은 AI 하드웨어와 오픈 소스 소프트웨어를 성공적으로 결합하여 하이브리드 클라우드 설정에서 고객(기업)에게 AI SaaS를 제공한다는 것입니다.

강화 학습 알고리즘은 어디에 사용됩니까?

강화 학습 알고리즘은 비즈니스 전략 계획, 산업 프로세스 자동화를 위한 로봇, 항공기 제어 및 로봇 동작 제어, 기계 학습, 학생을 위한 맞춤형 교육 시스템 개발, 데이터 처리 등과 같은 다양한 애플리케이션과 함께 제공됩니다. 강화 학습 알고리즘을 사용하면 실제로 조치가 필요한 상황과 일정 기간 동안 가장 높은 보상을 받는 조치를 쉽게 찾을 수 있으므로 이러한 경우에 특히 효율적입니다. 그러나 지도 학습 방법을 사용하여 솔루션을 제공할 수 있는 충분한 데이터가 있는 경우 강화 학습을 적용해서는 안 됩니다.