Le Q-learning (apprentissage Q en espagnol) a considérablement évolué depuis les premières expérimentations comportementales telles que le conditionnement classique de Pavlov, pour devenir l’une des techniques les plus importantes dans le domaine du Machine Learning (apprentissage automatique). Ci-dessous, nous explorerons son développement et son application en neuro-réadaptation et stimulation cognitive.
Les expériences de Pavlov
Ivan Pavlov, un physiologiste russe de la fin du XIXe siècle, est reconnu pour avoir établi les bases de la psychologie comportementale à travers ses expériences sur le conditionnement classique. Dans ces expériences, Pavlov a démontré que les chiens pouvaient apprendre à associer un stimulus neutre, comme le son d’une cloche, à un stimulus inconditionnel, comme la nourriture, provoquant ainsi une réponse inconditionnelle : la salivation.

Cette expérience a été fondamentale pour démontrer que le comportement peut être acquis par association, un concept crucial qui a ensuite influencé le développement des théories de apprentissage par renforcement.
Les théories de l’apprentissage par renforcement
Ces théories se concentrent sur la manière dont les êtres humains et les animaux apprennent des comportements à partir des conséquences de leurs actions, ce qui a été essentiel pour la conception d’algorithmes comme le Q-learning.
Voici quelques concepts clés avec lesquels nous devons nous familiariser avant de continuer :
- Agent : chargé d’effectuer l’action.
- Environnement : milieu où l’agent se déplace et interagit.
- État : situation actuelle de l’environnement.
- Action : décisions possibles prises par l’agent.
- Récompense : récompenses accordées à l’agent.
Dans ce type d’apprentissage, un agent effectue des actions dans l’environnement, reçoit des informations sous forme de récompense/pénalité et les utilise pour ajuster son comportement au fil du temps.

Une expérience classique de l’apprentissage par renforcement est la boîte de Skinner, réalisée par le psychologue américain Burrhus Frederic Skinner en 1938. Dans cette expérience, Skinner a démontré que les rats pouvaient apprendre à appuyer sur un levier pour obtenir de la nourriture, utilisant le renforcement positif comme moyen de modeler le comportement.
L’expérience consiste à introduire un rat dans une boîte munie d’un levier qu’il peut actionner, d’un distributeur de nourriture, et parfois d’une lumière et d’un haut-parleur.
Chaque fois que le rat appuie sur le levier, un grain de nourriture est libéré dans le distributeur. La nourriture agit comme un renforcement positif, une récompense pour avoir appuyé sur le levier. Avec le temps, le rat commencera à appuyer sur le levier plus fréquemment, démontrant qu’il a appris le comportement par le renforcement.

Ce type d’apprentissage a servi de base pour des algorithmes d’apprentissage automatique, comme le Q-learning, qui permet aux machines d’apprendre des comportements optimaux de manière autonome par la méthode d’essai et d’erreur.
Qu’est-ce que le Q-learning?
Le Q-learning a été introduit par Christopher Watkins en 1989 comme un algorithme d’apprentissage par renforcement. Cet algorithme permet à un agent d’apprendre la valeur des actions dans un état donné, en mettant continuellement à jour ses connaissances grâce à l’expérience, tout comme le rat de la boîte de Skinner.
Contrairement aux expériences de Pavlov, où l’apprentissage reposait sur des associations simples, le Q-learning utilise une méthode plus complexe d’essai et d’erreur. L’agent explore diverses actions et met à jour une table Q qui stocke les valeurs Q, représentant les récompenses futures attendues pour avoir pris la meilleure action dans un état spécifique.
Le Q-learning s’applique dans divers domaines, par exemple dans les systèmes de recommandation (comme ceux utilisés par Netflix ou Spotify), dans les véhicules autonomes (comme des drones ou des robots) et dans l’optimisation des ressources. Nous allons maintenant explorer comment cette technologie peut être appliquée en neuro-réadaptation.
Q-learning et NeuronUP
L’un des avantages de NeuronUP, est la capacité de personnaliser les activités en fonction des besoins spécifiques de chaque utilisateur. Cependant, personnaliser chaque activité peut être fastidieux en raison du nombre élevé de paramètres à ajuster.
Le Q-learning permet d’automatiser ce processus, en ajustant les paramètres en fonction des performances de l’utilisateur dans les différentes activités. Cela garantit que les exercices sont exigeants mais atteignables, améliorant l’efficacité et la motivation pendant la réadaptation.
¿Cómo funciona?
Dans ce contexte, l’agent, qui pourrait être comparé à un utilisateur interagissant avec une activité, apprend à prendre des décisions optimales dans différentes situations pour réussir correctement l’activité.
Le Q-learning permet à l’agent d’expérimenter diverses actions en interagissant avec son environnement, de recevoir des récompenses ou des pénalités, et de mettre à jour une table Q qui stocke ces valeurs Q. Ces valeurs représentent les récompenses futures attendues pour avoir pris la meilleure action dans un état spécifique.
La règle de mise à jour du Q-learning est la suivante:
[Q(s,a) leftarrow Q(s,a) + alphabigl(r + gamma cdot max_{a’}bigl(Q(s’,a’)bigr) – Q(s,a)bigr)]Où :
𝛂 – est le taux d’apprentissage.
r – est la récompense reçue après avoir pris l’action a depuis l’état s.
𝛄 – est le facteur d’actualisation, qui représente l’importance des récompenses futures.
s’ – est l’état suivant.
(max_{a’}bigl(Q(s’,a’)bigr)) – est la valeur Q maximale pour l’état suivant s’.

Abonnez-vous
à notre
Newsletter
Exemple d’application dans une activité de NeuronUP
Prenons l’activité de NeuronUP appelée « Méli-mélo d’images », qui travaille des compétences telles que la planification, les praxies visuo-constructives et la relation spatiale. Dans cette activité, l’objectif est de résoudre un puzzle qui a été mélangé et découpé en pièces.

Les variables qui définissent la difficulté de cette activité sont la taille de la matrice (le nombre de lignes et de colonnes) ainsi que le niveau de désordre des pièces (faible, moyen, élevé ou très élevé).
Pour entraîner l’agent à résoudre le puzzle, une matrice de récompenses a été créée en se basant sur le nombre minimal de mouvements nécessaires pour le résoudre, défini par la formule suivante:
[mathrm{Min_Attempts} ;=;leftlceil frac{mathrm{factor} * mathrm{rows} * mathrm{columns}}{5}rightrceil,quad mathrm{factor}in{1,3,5,7}]La variable factor dépend du niveau de désordre. Une fois la matrice créée, un algorithme de Q-learning a été appliqué pour entraîner l’agent à résoudre automatiquement le puzzle.
Cette intégration inclut :
- Récupération de la valeur Q : La fonction récupère la valeur Q pour une paire état-action dans la table Q. Si la paire état-action n’a pas été entraînée auparavant, elle renvoie 0. Cette fonction cherche la récompense attendue en prenant une action spécifique dans un état donné.
- Mise à jour de la valeur Q : La fonction met à jour la valeur Q pour une paire état-action en se basant sur la récompense reçue et la valeur Q maximale de l’état suivant. Cette fonction implémente la règle de mise à jour du Q-learning mentionnée ci-dessus.
- Décision sur l’action à entreprendre : La fonction décide quelle action entreprendre dans un état donné, en utilisant une stratégie epsilon-greedy. Cette stratégie équilibre exploration et exploitation :
- Exploration : Elle consiste à sélectionner l’action connue la meilleure à ce jour. Avec une probabilité ε (taux d’exploration, une valeur comprise entre 0 et 1 qui détermine la probabilité d’explorer de nouvelles actions plutôt que d’exploiter les actions connues), une action aléatoire est choisie, permettant à l’agent de découvrir des actions potentiellement meilleures.
- Exploitation : Il s’agit d’essayer des actions différentes des meilleures connues pour déterminer si elles peuvent offrir de meilleures récompenses à l’avenir. Avec une probabilité 1−ε, l’agent sélectionne l’action ayant la valeur Q la plus élevée pour l’état actuel, en utilisant ses connaissances apprises: a’ = argmaxaQ(s,a). Où a’ est l’action qui maximise la fonction Q dans un état s donné. Cela signifie que, pour un état s donné, sélectionnez l’action a qui a la valeur Q la plus élevée.
Ces fonctions travaillent ensemble pour permettre à l’algorithme de Q-learning de développer une stratégie optimale pour résoudre le puzzle.
Analyse préliminaire de l’exécution de l’algorithme
L’algorithme a été appliqué à un puzzle de matrice 2×3 avec un facteur de difficulté de 1 (faible), correspondant à un nombre minimal d’essais égal à 2. L’algorithme a été exécuté sur le même puzzle 20 fois, en appliquant la même configuration de mélange à chaque fois et en mettant à jour la table Q après chaque étape. Après 20 exécutions, le puzzle a été mélangé dans une configuration différente et le processus s’est répété, aboutissant à un total de 2000 itérations. Les valeurs initiales des paramètres étaient:
- Récompense pour résoudre le puzzle: 100 points
- Pénalité pour chaque mouvement: -1 point
À chaque étape, une récompense ou une pénalité supplémentaire était appliquée en fonction du nombre de pièces correctes, permettant à l’agent de comprendre sa progression vers la solution du puzzle. Cela se calculait en utilisant la formule :
[W times bigl(N_{mathrm{correct}}^i ;-; N_{mathrm{correct}}^{,i-1}bigr)]Où :
- W est le facteur de poids.
- (N_{mathrm{correct}}^{,i}) est le nombre de pièces correctes après le mouvement.
- (N_{mathrm{correct}}^{,i-1}) est le nombre de pièces correctes avant le mouvement.
Le graphique ci-dessous illustre le nombre de mouvements nécessaires par itération pour que le modèle résolve un puzzle de taille 2×3. Au départ, le modèle requiert un grand nombre de mouvements, ce qui reflète son manque de connaissances sur la manière de résoudre efficacement le puzzle. Cependant, à mesure que l’algorithme de Q-learning s’entraîne, on observe une tendance à la baisse du nombre de mouvements, ce qui suggère que le modèle apprend à optimiser son processus de résolution.

Cette tendance est un signe positif du potentiel de l’algorithme à s’améliorer avec le temps. Cependant, plusieurs limites importantes doivent être prises en compte :
- Taille spécifique du puzzle : L’algorithme montre son efficacité principalement sur des puzzles d’une taille spécifique, comme la matrice 2×3. En changeant la taille ou la complexité du puzzle, les performances de l’algorithme peuvent diminuer de manière significative.
- Temps de calcul : Lorsqu’on applique l’algorithme à des configurations différentes ou plus complexes, le temps nécessaire pour effectuer les calculs et résoudre le puzzle augmente considérablement. Cela limite son applicabilité dans des situations nécessitant des réponses rapides ou pour des puzzles de plus grande complexité.
- Nombre de mouvements encore élevé : Malgré l’amélioration observée, le nombre de mouvements requis pour résoudre le puzzle reste relativement élevé, même après de multiples itérations. Lors des dernières exécutions, le modèle nécessite en moyenne 8 à 10 mouvements, ce qui indique qu’il reste une marge d’amélioration pour l’efficacité de l’apprentissage.
Ces limites soulignent la nécessité d’un affinement supplémentaire de l’algorithme, que ce soit en ajustant les paramètres d’apprentissage, en améliorant la structure du modèle ou en incorporant des techniques complémentaires permettant un apprentissage plus efficace et adaptable à différentes configurations de puzzles. Malgré ces limites, il ne faut pas oublier les avantages offerts par le Q-learning en neuroréhabilitation, parmi lesquels :
- Personnalisation dynamique des activités : Le Q-learning est capable d’ajuster automatiquement les paramètres des activités thérapeutiques en fonction des performances individuelles de l’utilisateur. Cela signifie que les activités peuvent être personnalisées en temps réel, garantissant que chaque utilisateur travaille à un niveau à la fois stimulant et atteignable. Ceci est particulièrement utile en neuroréhabilitation, où les capacités des utilisateurs peuvent varier considérablement et évoluer au fil du temps.
- Augmentation de la motivation et de l’engagement : À mesure que les activités s’adaptent constamment au niveau de compétence de l’utilisateur, on évite la frustration due à des tâches trop difficiles ou l’ennui dû à des tâches trop simples. Cela peut augmenter significativement la motivation de l’utilisateur et son engagement envers le programme de rééducation, ce qui est crucial pour obtenir des résultats probants.
- Optimisation du processus d’apprentissage : En utilisant le Q-learning, le système peut apprendre des interactions antérieures de l’utilisateur avec les activités, optimisant ainsi le processus d’apprentissage et de rééducation. Cela permet que les exercices soient plus efficaces, en se concentrant sur les domaines où l’utilisateur a le plus besoin d’attention et en réduisant le temps nécessaire pour atteindre les objectifs thérapeutiques.
- Efficacité dans la prise de décisions cliniques : Les professionnels peuvent bénéficier du Q-learning en obtenant des recommandations basées sur les données sur la manière d’ajuster les thérapies. Cela facilite une prise de décision clinique plus informée et précise, ce qui améliore à son tour la qualité des soins fournis à l’utilisateur.
- Amélioration continue : Au fil du temps, le système basé sur le Q-learning peut améliorer ses performances grâce à l’accumulation de données et à l’expérience utilisateur. Cela signifie que, plus le système est utilisé, plus il devient efficace dans la personnalisation et l’optimisation des exercices, offrant ainsi un avantage à long terme dans le processus de neuroréhabilitation.
En conclusion, le Q-learning a évolué depuis ses racines en psychologie comportementale pour devenir un outil puissant en intelligence artificielle et en neuroréhabilitation. Sa capacité à adapter des activités de façon autonome en fait une ressource précieuse pour améliorer l’efficacité des thérapies de rééducation, bien qu’il reste des défis à relever pour optimiser pleinement son application.
Bibliografía
- Bermejo Fernández, E. (2017). Application d’algorithmes d’apprentissage par renforcement aux jeux.
- Giró Gràcia, X., & Sancho Gil, J. M. (2022). L’intelligence artificielle dans l’éducation : big data, boîtes noires et solutionnisme technologique.
- Meyn, S. (2023). Stability of Q-learning through design and optimism. arXiv preprint arXiv:2307.02632.
- Morinigo, C., & Fenner, I. (2021). Théories de l’apprentissage. Minerva Magazine of Science, 9(2), 1-36.
- M.-V. Aponte, G. Levieux et S. Natkin. (2009). Measuring the level of difficulty in single player video games. Entertainment Computing.
- P. Jan L., H. Bruce D., P. Shashank, B. Corinne J., & M. Andrew P. (2019). The Effect of Adaptive Difficulty Adjustment on the Effectiveness of a Game to Develop Executive Function Skills for Learners of Different Ages. Cognitive Development, pp. 49, 56–67.
- R. Anna N., Z. Matei & G. Thomas L. Optimally Designing Games for Cognitive Science Research. Computer Science Division and Department of Psychology, University of California, Berkeley.
- Toledo Sánchez, M. (2024). Applications de l’apprentissage par renforcement dans les jeux vidéo.







Démystifier le syndrome de Myhre
Laisser un commentaire