Aprendizado por reforço em ML: como funciona, modelos e tipos de aprendizado

Publicados: 2021-06-11

Índice

O que é Aprendizado por Reforço?

O aprendizado por reforço refere-se ao processo de tomar decisões adequadas por meio de modelos de aprendizado de máquina adequados. É baseado no processo de treinamento de um método de aprendizado de máquina. É uma técnica de aprendizado de máquina baseada em feedback, em que um agente aprende a se comportar em um ambiente observando seus erros e realizando as ações.

O aprendizado por reforço aplica o método de aprendizado via interação e feedback. Algumas das terminologias usadas no aprendizado por reforço são:

  • Agente : É o aprendiz ou o tomador de decisão realizando ações para receber uma recompensa.
  • Ambiente : É o cenário onde um agente aprende e executa tarefas futuras.
  • Ação : ações que são executadas pelo agente.
  • Estado : situação atual
  • Política : Função de tomada de decisão de um agente pela qual o agente decide a ação futura com base no estado atual.
  • Recompensa : Retornos fornecidos pelo ambiente a um agente pela realização de cada ação.
  • Valor : Comparado com a recompensa, é o retorno esperado a longo prazo com desconto.
  • Função de valor : denota o valor de um estado, ou seja, o valor total do retorno.
  • Aproximador de função : induzindo uma função a partir de exemplos de treinamento.
    Modelo do ambiente: é um modelo que imita o ambiente real para prever inferências.
  • Métodos baseados em modelos: Usados ​​para resolver modelos baseados em reforço.
  • Valor Q ou valor da ação : semelhante ao valor, mas os parâmetros adicionais são considerados como a ação atual.
  • Processo de decisão de Markov : Um modelo probabilístico do problema de decisão sequencial.
  • Programação dinâmica : Classe de métodos para resolver problemas de decisão sequencial.

    O aprendizado por reforço está principalmente preocupado com o fato de como os agentes de software devem agir em um ambiente. A aprendizagem baseada em redes neurais permite atingir um objetivo complexo.

Como funciona o aprendizado por reforço?

Um exemplo de aprendizado por reforço é mostrado abaixo, mostrando como o aprendizado por reforço funciona.

  • Os gatos não entendem nenhuma forma de linguagem e, portanto, uma estratégia diferente deve ser seguida para se comunicar com o gato.
  • Cria-se uma situação em que o gato age de várias maneiras. O gato é recompensado com peixe se for da forma desejada. Portanto, o gato se comporta da mesma maneira sempre que enfrenta essa situação esperando mais comida como recompensa.
  • O cenário define o processo de aprendizado a partir de experiências positivas.
  • Por fim, o gato também aprende o que não fazer por meio de experiências negativas.

Isso leva à seguinte explicação

  • O gato atua como o agente, pois é exposto a um ambiente. No exemplo citado acima, a casa é o ambiente. Os estados podem ser qualquer coisa como o gato sentado ou andando.
  • O agente realiza uma ação transitando de um estado para outro, como passar de uma posição sentada para uma posição andando.
  • A ação é a reação do agente. A política inclui o método de selecionar uma ação em um estado específico enquanto espera um resultado melhor no estado futuro.
  • A transição de estados pode fornecer uma recompensa ou penalidade.

Alguns pontos a serem observados no aprendizado por reforço

  • Um estado inicial de entrada deve ser fornecido a partir do qual o modelo será iniciado.
  • Muitas saídas possíveis são geradas por meio de soluções variadas para um problema específico.
  • O treinamento do método RL é baseado na entrada. Após a geração da saída, o modelo decidirá se recompensa o modelo. Portanto, o modelo continua sendo treinado.
  • O modelo continua continuamente aprendendo.
  • A melhor solução para um problema é decidida pela recompensa máxima que recebe.

Algoritmo de Aprendizado por Reforço

Existem três abordagens para implementar um método de aprendizado por reforço.

1. Baseado em valor

O método baseado em valor envolve maximizar a função de valor V(s). A expectativa de um retorno de longo prazo do estado atual é esperada sob uma política. SARSA e Q Learning são alguns dos algoritmos baseados em valor. As abordagens baseadas em valor são bastante estáveis, pois não são capazes de modelar um ambiente contínuo. Ambos os algoritmos são simples de implementar, mas não podem estimar valores de um estado não visto.

2. Baseado em políticas

Este tipo de método envolve o desenvolvimento de uma política que ajuda a devolver uma recompensa máxima através do desempenho de cada ação.

Existem dois tipos de métodos baseados em políticas:

  • Determinista: Isso significa que em qualquer estado a política produz a mesma ação.
  • Estocástico: Existe uma probabilidade para cada ação definida pela equação

n{a\s) = P\A, = a\S, =S]

Os algoritmos baseados em políticas são o gradiente de política de Monte Carlo (REINFORCE) e o gradiente de política determinístico (DPG). As abordagens de aprendizagem baseadas em políticas geram instabilidades, pois sofrem de alta variação.

Um algoritmo de “ator-crítico” é desenvolvido por meio de uma combinação de abordagens baseadas em valor e políticas. A parametrização da função de valor (crítico) e da política (ator) permite uma convergência estável por meio do uso efetivo dos dados de treinamento.

3. Modelo baseado

Um modelo virtual é criado para cada ambiente e o agente aprende com base nesse modelo. A construção do modelo inclui as etapas de amostragem de estados, ações e observação das recompensas. Em cada estado em um ambiente, o modelo prevê o estado futuro e a recompensa esperada. Com a disponibilidade do modelo baseado em RL, um agente pode planejar as ações. O agente obtém a capacidade de aprender quando o processo de planejamento está entrelaçado com a estimativa de políticas.

A aprendizagem por reforço visa atingir um objetivo através da exploração de um agente em um ambiente desconhecido. Uma hipótese de RL afirma que as metas podem ser descritas como a maximização das recompensas. O agente deve ser capaz de obter a recompensa máxima através da perturbação de estados na forma de ações. Os algoritmos RL podem ser amplamente classificados em model based e model free.

Modelos de aprendizagem em reforço

1. Processo de decisão de Markov

O conjunto de parâmetros usados ​​em um processo de decisão de Markov são

Conjunto de Ações-A

Conjunto de estados-S

Recompensa-R

Política-n

Valor-V

O processo de decisão de Markov é a abordagem matemática para mapear uma solução no aprendizado por reforço.

2. Aprendizado Q

Esse processo fornece informações ao agente informando qual ação prosseguir. É uma forma de abordagem livre de modelo. Os valores de Q continuam atualizando, denotando o valor de fazer uma ação “a” no estado “s”.

Diferença entre aprendizado por reforço e aprendizado supervisionado

O aprendizado supervisionado é um processo de aprendizado de máquina pelo qual um supervisor é obrigado a alimentar o conhecimento em um algoritmo de aprendizado. A principal função do supervisor inclui a coleta dos dados de treinamento, como imagens, clipes de áudio, etc.

Considerando que em RL o conjunto de dados de treinamento inclui principalmente o conjunto de situação e ações. O aprendizado por reforço no aprendizado de máquina não requer nenhuma forma de supervisão. Além disso, a combinação de aprendizado por reforço e aprendizado profundo produz o subcampo aprendizado por reforço profundo.

As principais diferenças entre RL e Aprendizagem Supervisionada são tabuladas abaixo.

Aprendizado por Reforço Aprendizado Supervisionado
As decisões são tomadas sequencialmente. A saída do processo depende do estado da entrada atual. A próxima entrada dependerá da saída da entrada anterior e assim por diante. A decisão é tomada na entrada inicial ou na entrada alimentada no início do processo.
As decisões são dependentes. Portanto, a rotulagem é feita para sequências de decisões dependentes. As decisões são independentes umas das outras. Assim, a rotulagem de todas as decisões é feita.
A interação com o ambiente ocorre na RL. Sem interação com o ambiente. O processo funciona no conjunto de dados existente.
O processo de tomada de decisão de um RL é semelhante ao processo de tomada de decisão de um cérebro humano. O processo de tomada de decisão é semelhante à decisão tomada por um cérebro humano sob a supervisão de um guia.
Nenhum conjunto de dados rotulado. Conjunto de dados rotulado.
Não é necessário treinamento prévio para o agente de aprendizagem. Treinamento prévio é fornecido para previsão de saída.
A RL é melhor suportada com IA, onde há uma prevalência de interação humana. A aprendizagem supervisionada é principalmente operada com aplicativos ou sistemas de software interativos.
Exemplo: jogo de xadrez Exemplo: reconhecimento de objetos

Tipos de reforço

Existem dois tipos de aprendizado por reforço

1. Positivo

O aprendizado por reforço positivo é definido como um evento gerado a partir de um comportamento específico. Isso impacta positivamente no agente, pois aumenta a força e a frequência do aprendizado. Como resultado, o desempenho é maximizado. Portanto, as mudanças são sustentadas por um longo período de tempo. Mas, a otimização excessiva dos estados pode afetar os resultados do aprendizado. Portanto, o aprendizado por reforço não deve ser demais.

As vantagens do reforço positivo são:

  • Maximização do desempenho.
  • Mudanças sustentadas por um período mais longo.

2. Negativo

O reforço negativo é definido quando, em circunstâncias de condição negativa, o comportamento é fortalecido. O padrão mínimo de desempenho é definido por meio de reforço negativo

As vantagens do aprendizado por reforço negativo são:

  • Aumenta o comportamento.
  • Fornecer desafio a um padrão mínimo de desempenho

Desvantagem do aprendizado por reforço

  • Fornece apenas o suficiente para atender o comportamento mínimo.

Desafios na Aprendizagem por Reforço

O aprendizado por reforço, embora não exija a supervisão do modelo, não é um tipo de aprendizado não supervisionado. No entanto, é uma parte diferente do aprendizado de máquina.

Alguns desafios associados ao aprendizado por reforço são:

  • Preparação do ambiente de simulação. Isso depende da tarefa a ser executada. A criação de um simulador realista é uma tarefa desafiadora. O modelo tem que descobrir cada minuto e detalhe importante do ambiente.
  • O envolvimento do design de recursos e recompensas é muito importante.
  • A velocidade de aprendizagem pode ser afetada pelos parâmetros.
  • Transferência do modelo para o ambiente de treinamento.
  • Controlar o agente por meio de redes neurais é outro desafio, pois a única comunicação com as redes neurais é através do sistema de recompensas e penalidades. Às vezes, isso pode resultar em esquecimento catastrófico, ou seja, a exclusão do conhecimento antigo enquanto se obtém um novo conhecimento.
  • Atingir um mínimo local é um desafio para o aprendizado por reforço.
  • Sob condições de um ambiente real, a observação parcial pode estar presente.
  • A aplicação do aprendizado por reforço deve ser regulamentada. Uma quantidade excessiva de RL leva à sobrecarga dos estados. Isso pode levar a uma diminuição dos resultados.
  • Os ambientes reais são não estacionários.

Aplicações de reforço

  • Na área de Robótica para automação industrial.
  • A RL pode ser utilizada no planejamento estratégico de negócios.
  • A RL pode ser usada em técnicas de processamento de dados envolvendo algoritmos de aprendizado de máquina.
  • Ele pode ser usado para a preparação personalizada de materiais de treinamento para os alunos de acordo com suas necessidades.
  • A RL pode ser aplicada no controle de aeronaves e no movimento de robôs.

Em grandes ambientes, o Reforço pode ser aplicado nas seguintes situações

  • Se uma solução analítica não estiver disponível para um modelo conhecido do ambiente.
  • Se for fornecido apenas um modelo de simulação do ambiente.
  • Quando há apenas uma maneira de coletar os dados que é interagir com o ambiente.

Para que serve o Aprendizado por Reforço?

  • A Aprendizagem por Reforço ajuda a identificar a situação que requer uma ação.
  • A aplicação da RL ajuda a saber qual ação está rendendo a maior recompensa.
  • A utilidade do RL está em fornecer ao agente uma função de recompensa.
  • Por fim, o RL ajuda a identificar o método que leva a recompensas maiores.

Conclusão

RL não pode ser aplicado a todas as situações. Existem certas limitações em seu uso.

  • A disponibilidade de dados suficientes permite o uso de uma abordagem de aprendizado supervisionado em vez de um método RL.
  • O cálculo do RL é bastante demorado, principalmente nos casos em que um ambiente grande é considerado.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o Programa PG Executivo do IIIT-B e do upGrad em Machine Learning e IA, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT -B Alumni status, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

Como será o futuro dos trabalhos de aprendizado de máquina?

Atualmente, a adoção do aprendizado de máquina aumentou rapidamente em diferentes verticais do setor. Começando com os setores de finanças e investimentos até entretenimento, mídia, automóveis, saúde e jogos – é difícil encontrar qualquer setor que não empregue IA e aprendizado de máquina hoje. Consequentemente, o escopo dos trabalhos de aprendizado de máquina é significativamente maior do que muitos outros trabalhos de tecnologia. De acordo com relatórios do Gartner, até o final do ano de 2022, estima-se que 2,3 milhões de empregos de aprendizado de máquina e IA estarão no mercado. Além disso, espera-se que a remuneração oferecida aos profissionais dessa área também seja significativamente maior, com salários iniciais variando de INR 9 lakhs por ano.

O que é uma nuvem de IA?

A nuvem de IA é um conceito relativamente novo que as organizações começaram a adotar recentemente. Esse conceito combina inteligência artificial e computação em nuvem e é impulsionado por dois fatores. O software e as ferramentas de IA estão fornecendo valor agregado novo e aprimorado à computação em nuvem, que agora desempenha um papel cada vez mais significativo na adoção da inteligência artificial. A nuvem de IA compreende infraestrutura compartilhada para casos de uso específicos que são aproveitados simultaneamente por vários projetos e cargas de trabalho. A maior vantagem da nuvem de IA é que ela reúne com sucesso hardware de IA e software de código aberto para fornecer aos clientes (empresas) AI SaaS em uma configuração de nuvem híbrida.

Onde o algoritmo de aprendizado por reforço é usado?

Os algoritmos de aprendizado por reforço vêm com várias aplicações, como planejamento de estratégia de negócios, robótica para automação de processos industriais, controle de aeronaves e controle de movimento robótico, aprendizado de máquina, desenvolvimento de um sistema de treinamento personalizado para alunos, processamento de dados e muito mais. O uso de um algoritmo de aprendizado por reforço é particularmente eficiente nesses casos, pois pode ajudar a descobrir facilmente situações que realmente precisam de ação e as ações que trazem as maiores recompensas durante um período. No entanto, o aprendizado por reforço não deve ser aplicado quando há dados suficientes para oferecer uma solução usando um método de aprendizado supervisionado.