Icono del sitio NeuronUP

Q-learning: Desde los experimentos de Pavlov a la neurorrehabilitación moderna

El Q-learning (aprendizaje Q en castellano) ha evolucionado considerablemente desde los primeros experimentos conductuales como el condicionamiento clásico de Pavlov, hasta llegar a convertirse en una de las técnicas más importantes en el ámbito del Machine Learning (aprendizaje automático). A continuación, exploraremos cómo ha sido su desarrollo y su aplicación en la neurorrehabilitación y estimulación cognitiva.

Los experimentos de Pavlov

Ivan Pavlov, un fisiólogo ruso de finales del siglo XIX, es reconocido por establecer las bases de la psicología conductual a través de sus experimentos sobre el condicionamiento clásico. En estos experimentos, Pavlov demostró que los perros podían aprender a asociar un estímulo neutro, como el sonido de una campana, con un estímulo incondicionado, como la comida, provocando así una respuesta incondicionada: la salivación.

Experimentos de Pavlov. NeuronUP.

Este experimento fue fundamental para demostrar que el comportamiento puede adquirirse por asociación, un concepto crucial que posteriormente influyó en el desarrollo de las teorías de aprendizaje por refuerzo

Las teorías de aprendizaje por refuerzo

Estas teorías se enfocan en cómo los seres humanos y los animales aprenden conductas a partir de las consecuencias de sus acciones, lo que ha sido esencial para el diseño de algoritmos como el Q-learning.

Hay algunos conceptos clave con los que debemos familiarizarnos antes de continuar:

En este tipo de aprendizaje, un agente toma o realiza acciones en el entorno, recibe información en forma de recompensa/penalización y la utiliza para ajustar su comportamiento a lo largo del tiempo.

Teoría del aprendizaje por refuerzo. NeuronUP.

Un experimento clásico del aprendizaje por refuerzo, es el experimento de la caja de Skinner, realizado por el psicólogo estadounidense Burrhus Frederic Skinner en el año 1938. En este experimento, Skinner demostró que las ratas podían aprender a presionar una palanca para obtener comida, utilizando el refuerzo positivo como medio para modelar el comportamiento. 

El experimento consiste en introducir una rata en una caja con una palanca que pueda presionar, un dispensador de comida, y en ocasiones, una luz y un altavoz. 

Cada vez que la rata pulsa la palanca, se libera un grano de comida en el dispensador. La comida actúa como un refuerzo positivo, una recompensa por presionar la palanca. Con el tiempo, la rata empezará a presionar la palanca con más frecuencia, demostrando que ha aprendido el comportamiento a través del refuerzo.

La caja de Skinner. NeuronUP.

Este tipo de aprendizaje ha servido como base para algoritmos de machine learning, como el Q-learning, que permite a las máquinas aprender comportamientos óptimos de manera autónoma mediante el método de ensayo y error.

¿Qué es el Q-learning?

El Q-learning fue introducido por Christopher Watkins en 1989 como un algoritmo de aprendizaje por refuerzo. Este algoritmo permite a un agente aprender el valor de las acciones en un estado determinado, actualizando continuamente su conocimiento a través de la experiencia, al igual que la rata de la caja de Skinner.

A diferencia de los experimentos de Pavlov, en los que el aprendizaje se basaba en asociaciones simples, el Q-learning utiliza un método más complejo de ensayo y error. El agente explora diversas acciones y actualiza una tabla Q que almacena los valores Q, los cuales representan las recompensas futuras esperadas por tomar la mejor acción en un estado específico.

El Q-learning se aplica en diversos ámbitos, como por ejemplo en sistemas de recomendación (como los utilizados por Netflix o Spotify), en vehículos autónomos (como drones o robots) y en la optimización de recursos. Ahora exploraremos cómo esta tecnología se puede aplicar en la neurorrehabilitación.

Q-learning y NeuronUP

Una de las ventajas de NeuronUP, es la capacidad de personalizar las actividades según las necesidades específicas de cada usuario. Sin embargo, personalizar cada actividad puede ser tedioso debido al elevado número de parámetros a ajustar. 

El Q-learning permite automatizar este proceso, ajustando los parámetros en función del rendimiento del usuario en las distintas actividades. Esto garantiza que los ejercicios sean exigentes pero alcanzables, mejorando la eficacia y la motivación durante la rehabilitación.

¿Cómo funciona?

En este contexto, el agente, que podría ser comparado con un usuario interactuando con una actividad, aprende a tomar decisiones óptimas en diferentes situaciones para superar correctamente la actividad. 

El Q-learning le permite al agente experimentar con diversas acciones interactuando con su entorno, recibiendo recompensas o penalizaciones, y actualizando una tabla Q que almacena estos valores Q. Estos valores representan las recompensas futuras esperadas por tomar la mejor acción en un estado específico. 

La regla de actualización de Q-learning es la siguiente:

Donde:

𝛂 – es la tasa de aprendizaje.

r – es la recompensa recibida después de tomar la acción a desde el estado s.

𝛄 – es el factor de descuento, que representa la importancia de las recompensas futuras.

s’ – es el siguiente estado.

– es el valor Q máximo para el siguiente estado s’.

Suscríbete
a nuestra
Newsletter

Ejemplo de aplicación en una actividad de NeuronUP

Tomemos la actividad de NeuronUP llamada «Imágenes revueltas», que trabaja habilidades como la planificación, las praxias visoconstructivas y la relación espacial. En esta actividad, el objetivo es resolver un rompecabezas que ha sido mezclado y cortado en piezas. 

Actividad de NeuronUP «Imágenes revueltas». NeuronUP.

Las variables que definen la dificultad de esta actividad son el tamaño de la matriz (el número de filas y de columnas) así como el valor del desorden de las piezas (bajo, medio, alto o muy alto). 

Para entrenar al agente a resolver el rompecabezas, se creó una matriz de recompensas basada en el número mínimo de movimientos necesarios para resolverlo, definido por la siguiente fórmula:

La variable factor depende de la variable de desorden. Una vez creada la matriz, se aplicó un algoritmo de Q-learning para entrenar al agente a resolver el rompecabezas automáticamente. 

Esta integración incluye:

Estas funciones trabajan juntas para permitir que el algoritmo de Q-learning desarrolle una estrategia óptima para resolver el rompecabezas.

Análisis preliminar de la ejecución del algoritmo

Se aplicó el algoritmo a un rompecabezas de matriz 2×3 con un factor de dificultad de  1 (bajo), correspondiente a un número mínimo de intentos igual a 2. El algoritmo se ejecutó en el mismo rompecabezas 20 veces, aplicando la misma configuración de mezclado en cada ocasión y actualizando la tabla Q después de cada paso. Después de 20 ejecuciones, el rompecabezas se mezcló en una configuración diferente y el proceso se repitió, resultando en un total de 2000 iteraciones. Los valores iniciales de los parámetros fueron: 

En cada paso, se aplicaba una recompensa o penalización adicional basada en el número de piezas correcta, permitiendo al agente comprender su progreso hacia la solución del rompecabezas. Esto se calculaba utilizando la fórmula:

Donde:

El gráfico a continuación ilustra el número de movimientos necesarios por iteración para que el modelo resuelva un rompecabezas de tamaño 2×3. Al inicio, el modelo requiere un gran número de movimientos, lo que refleja su falta de conocimiento sobre cómo resolver el rompecabezas de manera eficiente. Sin embargo, a medida que el algoritmo de Q-learning se entrena, se observa una tendencia a la baja en el número de movimientos, lo que sugiere que el modelo está aprendiendo a optimizar su proceso de resolución.

Rendimiento de Q-learning. NeuronUP.

Esta tendencia es un indicio positivo del potencial del algoritmo para mejorar con el tiempo. Sin embargo, se deben considerar varias limitaciones importantes:

Estas limitaciones subrayan la necesidad de un refinamiento adicional del algoritmo, ya sea ajustando los parámetros de aprendizaje, mejorando la estructura del modelo o incorporando técnicas complementarias que permitan un aprendizaje más eficiente y adaptable a diferentes configuraciones de puzzles. A pesar de estas limitaciones, no debemos olvidarnos de las ventajas que ofrece el Q-learning en la neurorrehabilitación, entre ellas:

Concluyendo, el Q-learning ha evolucionado desde sus raíces en la psicología conductual hasta convertirse en una herramienta poderosa en la inteligencia artificial y la neurorrehabilitación. Su capacidad para adaptar actividades de manera autónoma lo convierte en un recurso valioso para mejorar la eficacia de las terapias de rehabilitación, aunque aún existen desafíos que superar para optimizar completamente su aplicación.

Bibliografía

Si te ha gustado este artículo acerca del Q-learning, seguramente te interesen estos artículos de NeuronUP:

Salir de la versión móvil