Aprendizaje por refuerzo en ML: cómo funciona, modelos y tipos de aprendizaje

Publicado: 2021-06-11

Tabla de contenido

¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo se refiere al proceso de tomar decisiones adecuadas a través de modelos de aprendizaje automático adecuados. Se basa en el proceso de entrenamiento de un método de aprendizaje automático. Es una técnica de aprendizaje automático basada en retroalimentación, mediante la cual un agente aprende a comportarse en un entorno observando sus errores y realizando las acciones.

El aprendizaje por refuerzo aplica el método de aprendizaje a través de la interacción y la retroalimentación. Algunas de las terminologías utilizadas en el aprendizaje por refuerzo son:

  • Agente : es el aprendiz o el tomador de decisiones que realiza acciones para recibir una recompensa.
  • Entorno : Es el escenario donde un agente aprende y realiza tareas futuras.
  • Acción : acciones que realiza el agente.
  • Estado : situación actual
  • Política : función de toma de decisiones de un agente mediante la cual el agente decide la acción futura en función del estado actual.
  • Recompensa : Retorno proporcionado por el entorno a un agente por realizar cada acción.
  • Valor : En comparación con la recompensa, es el rendimiento esperado a largo plazo con un descuento.
  • Función de valor : indica el valor de un estado, es decir, la cantidad total de retorno.
  • Aproximador de funciones : inducir una función a partir de ejemplos de entrenamiento.
    Modelo del entorno: es un modelo que imita el entorno real para la predicción de inferencias.
  • Métodos basados ​​en modelos : se utilizan para resolver modelos basados ​​en refuerzos.
  • Valor Q o valor de acción : similar al valor pero los parámetros adicionales se consideran como acción actual.
  • Proceso de decisión de Markov : un modelo probabilístico del problema de decisión secuencial.
  • Programación dinámica : clase de métodos para resolver problemas de decisión secuencial.

    El aprendizaje por refuerzo se relaciona principalmente con el hecho de cómo los agentes de software deben realizar acciones en un entorno. El aprendizaje basado en redes neuronales permite alcanzar un objetivo complejo.

¿Cómo funciona el aprendizaje por refuerzo?

A continuación se muestra un ejemplo de aprendizaje por refuerzo que muestra cómo funciona el aprendizaje por refuerzo.

  • Los gatos no entienden ninguna forma de lenguaje y, por lo tanto, se debe seguir una estrategia diferente para comunicarse con el gato.
  • Se crea una situación en la que el gato actúa de varias formas. El gato es recompensado con pescado si es de la forma deseada. Por lo tanto el gato se comporta de la misma manera cada vez que se enfrenta a esa situación esperando más comida como recompensa.
  • El escenario define el proceso de aprendizaje a partir de experiencias positivas.
  • Por último, el gato también aprende lo que no debe hacer a través de experiencias negativas.

Esto lleva a la siguiente explicación

  • El gato actúa como agente, ya que está expuesto a un entorno. En el ejemplo mencionado anteriormente, la casa es el entorno. Los estados pueden ser algo así como el gato sentado o caminando.
  • El agente realiza una acción transitando de un estado a otro, como pasar de estar sentado a caminar.
  • La acción es la reacción del agente. La política incluye el método de seleccionar una acción en un estado particular mientras se espera un mejor resultado en el estado futuro.
  • La transición de estados podría proporcionar una recompensa o una penalización.

Algunos puntos a tener en cuenta en el aprendizaje por refuerzo

  • Se debe proporcionar un estado inicial de entrada desde el cual comenzará el modelo.
  • Muchos resultados posibles se generan a través de soluciones variadas para un problema particular.
  • El entrenamiento del método RL se basa en la entrada. Después de la generación de salida, el modelo decidirá si recompensa al modelo. Por lo tanto, el modelo sigue formándose.
  • El modelo continúa aprendiendo continuamente.
  • La mejor solución para un problema se decide sobre la máxima recompensa que recibe.

Algoritmo de aprendizaje por refuerzo

Existen tres enfoques para implementar un método de aprendizaje por refuerzo.

1. Basado en el valor

El método basado en valor implica maximizar la función de valor V(s). La expectativa de un retorno a largo plazo del estado actual se espera bajo una política. SARSA y Q Learning son algunos de los algoritmos basados ​​en valores. Los enfoques basados ​​en valores son bastante estables ya que no pueden modelar un entorno continuo. Ambos algoritmos son simples de implementar, pero no pudieron estimar valores de un estado invisible.

2. Basado en políticas

Este tipo de método implica desarrollar una política que ayude a devolver una recompensa máxima a través de la realización de cada acción.

Hay dos tipos de métodos basados ​​en políticas:

  • Determinista: Esto significa que bajo cualquier estado la política produce la misma acción.
  • Estocástico: Existe una probabilidad para cada acción definida por la ecuación

n{a\s) = P\A, = a\S, =S]

Los algoritmos basados ​​en políticas son el gradiente de políticas de Monte Carlo (REFORZAR) y el gradiente de políticas deterministas (DPG). Los enfoques de aprendizaje basados ​​en políticas generan inestabilidades ya que sufren una gran variación.

Se desarrolla un algoritmo de “actor-crítico” a través de una combinación de enfoques basados ​​en valores y basados ​​en políticas. La parametrización tanto de la función de valor (crítico) como de la política (actor) permite una convergencia estable a través del uso efectivo de los datos de entrenamiento.

3. Basado en modelos

Se crea un modelo virtual para cada entorno y el agente aprende en base a ese modelo. La construcción de modelos incluye los pasos de muestreo de estados, realización de acciones y observación de las recompensas. En cada estado de un entorno, el modelo predice el estado futuro y la recompensa esperada. Con la disponibilidad del modelo basado en RL, un agente puede planificar las acciones. El agente adquiere la capacidad de aprender cuando el proceso de planificación se entrelaza con la estimación de políticas.

El aprendizaje por refuerzo tiene como objetivo lograr un objetivo a través de la exploración de un agente en un entorno desconocido. Una hipótesis de RL establece que las metas pueden describirse como LA maximización de las recompensas. El agente debe ser capaz de derivar la máxima recompensa a través de la perturbación de los estados en forma de acciones. Los algoritmos de RL se pueden clasificar ampliamente en basados ​​en modelos y sin modelos.

Modelos de aprendizaje en Refuerzo

1. Proceso de decisión de Markov

El conjunto de parámetros utilizados en un proceso de decisión de Markov son

Conjunto de Acciones-A

Conjunto de estados-S

Recompensa-R

Política-n

Valor-V

El proceso de decisión de Markov es el enfoque matemático para mapear una solución en el aprendizaje por refuerzo.

2. Q aprendizaje

Este proceso proporciona información al agente que le indica qué acción debe realizar. Es una forma de enfoque libre de modelos. Los valores de Q continúan actualizándose, denotando el valor de realizar una acción “a” en el estado “s”.

Diferencia entre el aprendizaje por refuerzo y el aprendizaje supervisado

El aprendizaje supervisado es un proceso de aprendizaje automático en el que se requiere un supervisor para introducir conocimiento en un algoritmo de aprendizaje. La función principal del supervisor incluye la recopilación de datos de capacitación, como imágenes, clips de audio, etc.

Mientras que en RL, el conjunto de datos de entrenamiento incluye principalmente el conjunto de situaciones y acciones. El aprendizaje por refuerzo en el aprendizaje automático no requiere ningún tipo de supervisión. Además, la combinación de aprendizaje por refuerzo y aprendizaje profundo produce el subcampo aprendizaje por refuerzo profundo.

Las diferencias clave entre RL y el aprendizaje supervisado se tabulan a continuación.

Aprendizaje reforzado Aprendizaje supervisado
Las decisiones se toman secuencialmente. La salida del proceso depende del estado de la entrada actual. La siguiente entrada dependerá de la salida de la entrada anterior y así sucesivamente. La decisión se toma en la entrada inicial o en la entrada alimentada al comienzo del proceso.
Las decisiones son dependientes. Por lo tanto, el etiquetado se realiza a secuencias de decisiones dependientes. Las decisiones son independientes entre sí. Por lo tanto, se realiza el etiquetado de todas las decisiones.
La interacción con el medio ambiente ocurre en RL. Sin interacción con el medio ambiente. El proceso funciona en el conjunto de datos existente.
El proceso de toma de decisiones de un RL es similar al proceso de toma de decisiones de un cerebro humano. El proceso de toma de decisiones es similar a la decisión tomada por un cerebro humano bajo la supervisión de un guía.
Sin conjunto de datos etiquetado. Conjunto de datos etiquetado.
No se requiere formación previa al agente de aprendizaje. Se proporciona entrenamiento previo para la predicción de salida.
RL se apoya mejor con AI, donde hay una prevalencia de interacción humana. El aprendizaje supervisado se opera principalmente con aplicaciones o sistemas de software interactivos.
Ejemplo: juego de ajedrez Ejemplo: reconocimiento de objetos

Tipos de refuerzo

Hay dos tipos de aprendizaje por refuerzo

1. Positivo

El aprendizaje por refuerzo positivo se define como un evento generado a partir de un comportamiento específico. Esto impacta positivamente en el agente ya que aumenta la fuerza y ​​la frecuencia del aprendizaje. Como resultado, se maximiza el rendimiento. Por lo tanto, los cambios se mantienen durante un período de tiempo más largo. Pero, la sobreoptimización de los estados puede afectar los resultados del aprendizaje. Por lo tanto, el aprendizaje por refuerzo no debería ser demasiado.

Las ventajas del refuerzo positivo son:

  • Maximización del rendimiento.
  • Cambios sostenidos por un período más largo.

2. negativo

El refuerzo negativo se define cuando bajo circunstancias de condición negativa, se fortalece la conducta. El estándar mínimo de desempeño se define a través del refuerzo negativo.

Las ventajas del aprendizaje por refuerzo negativo son:

  • Aumenta el comportamiento.
  • Brindar desafío a un estándar mínimo de desempeño

Desventaja del aprendizaje por refuerzo

  • Proporciona solo lo suficiente para cumplir con el comportamiento mínimo.

Desafíos en el aprendizaje por refuerzo

El aprendizaje por refuerzo, aunque no requiere la supervisión del modelo, no es un tipo de aprendizaje no supervisado. Sin embargo, es una parte diferente del aprendizaje automático.

Algunos desafíos asociados con el aprendizaje por refuerzo son:

  • Preparación del entorno de simulación. Esto depende de la tarea que se va a realizar. La creación de un simulador realista es una tarea desafiante. El modelo tiene que averiguar cada minuto y cada detalle importante del entorno.
  • La participación del diseño de funciones y recompensas es muy importante.
  • La velocidad de aprendizaje puede verse afectada por los parámetros.
  • Transferencia del modelo al entorno de entrenamiento.
  • Controlar al agente a través de redes neuronales es otro desafío ya que la única comunicación con las redes neuronales es a través del sistema de recompensas y penalizaciones. A veces, esto puede resultar en un olvido catastrófico, es decir, la eliminación de conocimientos antiguos mientras se obtienen nuevos conocimientos.
  • Alcanzar un mínimo local es un desafío para el aprendizaje por refuerzo.
  • En condiciones de un entorno real, la observación parcial puede estar presente.
  • Se debe regular la aplicación del aprendizaje por refuerzo. Una cantidad excesiva de RL conduce a la sobrecarga de los estados. Esto podría conducir a una disminución de los resultados.
  • Los entornos reales no son estacionarios.

Aplicaciones de refuerzo

  • En el área de Robótica para la automatización industrial.
  • RL se puede utilizar en la planificación estratégica de los negocios.
  • RL se puede utilizar en técnicas de procesamiento de datos que involucran algoritmos de aprendizaje automático.
  • Se puede usar para la preparación personalizada de materiales de capacitación para estudiantes según sus requisitos.
  • RL se puede aplicar en el control de aeronaves y el movimiento de robots.

En entornos grandes, el refuerzo se puede aplicar en las siguientes situaciones

  • Si no se dispone de una solución analítica para un modelo conocido del entorno.
  • Si solo se proporciona un modelo de simulación del entorno.
  • Cuando solo hay una forma de recopilar los datos que es interactuar con el medio ambiente.

¿Para qué sirve el aprendizaje por refuerzo?

  • El aprendizaje por refuerzo ayuda a identificar la situación que requiere una acción.
  • La aplicación de RL ayuda a saber qué acción está dando la mayor recompensa.
  • La utilidad de RL radica en proporcionar al agente una función de recompensa.
  • Por último, el RL ayuda a identificar el método que conduce a mayores recompensas.

Conclusión

RL no se puede aplicar a todas las situaciones. Hay ciertas limitaciones en su uso.

  • La disponibilidad de suficientes datos permite el uso de un enfoque de aprendizaje supervisado en lugar de un método RL.
  • El cálculo de RL requiere bastante tiempo, especialmente en los casos en los que se considera un entorno grande.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Programa PG Ejecutivo en Aprendizaje Automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT -Estado de exalumno B, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Cómo se ve el futuro para los trabajos de aprendizaje automático?

La adopción del aprendizaje automático ha aumentado rápidamente en diferentes verticales de la industria en la actualidad. Comenzando con los sectores de finanzas e inversión hasta el entretenimiento, los medios, el automóvil, la atención médica y los juegos, es difícil encontrar una industria que no emplee IA y aprendizaje automático en la actualidad. En consecuencia, el alcance de los trabajos de aprendizaje automático es significativamente mayor que muchos otros trabajos tecnológicos. Según los informes de Gartner, para fines del año 2022, se estima que habrá en el mercado 2,3 millones de trabajos de aprendizaje automático e IA. Además, también se espera que la compensación ofrecida a los profesionales en este campo sea significativamente mayor, con salarios iniciales que oscilan en INR 9 lakhs al año.

¿Qué es una nube de IA?

La nube de IA es un concepto relativamente nuevo que las organizaciones han comenzado a adoptar recientemente. Este concepto combina inteligencia artificial y computación en la nube y está impulsado por dos factores. El software y las herramientas de IA brindan un valor agregado nuevo y mejorado a la computación en la nube, que ahora desempeña un papel cada vez más importante en la adopción de la inteligencia artificial. La nube de IA comprende una infraestructura compartida para casos de uso específicos que son aprovechados simultáneamente por varios proyectos y cargas de trabajo. La mayor ventaja de la nube de IA es que reúne con éxito el hardware de IA y el software de código abierto para proporcionar a los clientes (empresas) SaaS de IA en una configuración de nube híbrida.

¿Dónde se utiliza el algoritmo de aprendizaje por refuerzo?

Los algoritmos de aprendizaje por refuerzo vienen con diversas aplicaciones, como la planificación de estrategias comerciales, la robótica para la automatización de procesos industriales, el control de aeronaves y el control de movimiento robótico, el aprendizaje automático, el desarrollo de un sistema de capacitación personalizado para estudiantes, el procesamiento de datos y mucho más. El uso de un algoritmo de aprendizaje por refuerzo es particularmente eficiente en estos casos, ya que puede ayudar a descubrir fácilmente situaciones que realmente necesitan acción y las acciones que conllevan las mayores recompensas durante un período. Sin embargo, el aprendizaje por refuerzo no debe aplicarse cuando hay muchos datos para ofrecer una solución utilizando un método de aprendizaje supervisado.