Site icon NeuronUP

Q-learning: dagli esperimenti di Pavlov alla moderna neuroriabilitazione

Il Q-learning (apprendimento Q in italiano) è evoluto notevolmente dagli esperimenti comportamentali iniziali, come il condizionamento classico di Pavlov, fino a diventare una delle tecniche più importanti nell’ambito del Machine Learning (apprendimento automatico). Di seguito esploreremo come si è sviluppato e la sua applicazione nella neuroriabilitazione e nella stimolazione cognitiva.

Gli esperimenti di Pavlov

Ivan Pavlov, un fisiologo russo della fine del XIX secolo, è riconosciuto per aver stabilito le basi della psicologia comportamentale attraverso i suoi esperimenti sul condizionamento classico. In questi esperimenti, Pavlov dimostrò che i cani potevano imparare ad associare uno stimolo neutro, come il suono di una campana, con uno stimolo incondizionato, come il cibo, provocando così una risposta incondizionata: la salivazione.

NeuronUP Labs Esperimenti di Pavlov

Questo esperimento fu fondamentale per dimostrare che il comportamento può essere acquisito per associazione, un concetto cruciale che successivamente ha influenzato lo sviluppo delle teorie di apprendimento per rinforzo.

Le teorie dell’apprendimento per rinforzo

Queste teorie si concentrano su come gli esseri umani e gli animali apprendano comportamenti a partire dalle conseguenze delle loro azioni, un principio fondamentale per il design di algoritmi come il Q-learning.

Ci sono alcuni concetti chiave con cui dobbiamo familiarizzare prima di continuare:

In questo tipo di apprendimento, un agente compie o esegue azioni nell’ambiente, riceve informazioni sotto forma di ricompensa/penalizzazione e le utilizza per regolare il suo comportamento nel tempo.

Teoria dell’apprendimento

Un classico esperimento di apprendimento per rinforzo è l’esperimento della scatola di Skinner, condotto dallo psicologo statunitense Burrhus Frederic Skinner nel 1938. In questo esperimento, Skinner dimostrò che i ratti potevano imparare a premere una leva per ottenere cibo, utilizzando il rinforzo positivo come mezzo per modellare il comportamento.

L’esperimento consiste nell’introdurre un ratto in una scatola con una leva che può premere, un distributore di cibo, e talvolta, una luce e un altoparlante.

Ogni volta che il ratto preme la leva, un chicco di cibo viene rilasciato nel distributore. Il cibo funge da rinforzo positivo, una ricompensa per aver premuto la leva. Col tempo, il ratto inizierà a premere la leva con maggiore frequenza, dimostrando di aver appreso il comportamento attraverso il rinforzo.

NeuronUP Labs La scatola di Skinner

Questo tipo di apprendimento è servito come base per algoritmi di machine learning, come il Q-learning, che permette alle macchine di apprendere comportamenti ottimali in modo autonomo attraverso il metodo di tentativi ed errori.

Cos’è il Q-learning?

Il Q-learning fu introdotto da Christopher Watkins nel 1989 come un algoritmo di apprendimento per rinforzo. Questo algoritmo permette a un agente di apprendere il valore delle azioni in uno stato determinato, aggiornando continuamente le sue conoscenze attraverso l’esperienza, proprio come il ratto nella scatola di Skinner.

A differenza degli esperimenti di Pavlov, in cui l’apprendimento si basava su semplici associazioni, il Q-learning utilizza un metodo più complesso di tentativi ed errori. L’agente esplora diverse azioni e aggiorna una tabella Q che memorizza i valori Q, che rappresentano le ricompense future attese per intraprendere la migliore azione in uno stato specifico.

Il Q-learning si applica in diversi ambiti, ad esempio nei sistemi di raccomandazione (come quelli utilizzati da Netflix o Spotify), nei veicoli autonomi (come droni o robot) e nell’ottimizzazione delle risorse. Ora esploreremo come questa tecnologia può essere applicata nella neuroriabilitazione.

Q-learning e NeuronUP

Uno dei vantaggi di NeuronUP è la capacità di personalizzare le attività in base alle esigenze specifiche di ciascun utente. Tuttavia, personalizzare ogni attività può essere tedioso a causa dell’elevato numero di parametri da regolare.

Il Q-learning consente di automatizzare questo processo, regolando i parametri in funzione delle prestazioni dell’utente nelle diverse attività. Ciò garantisce che gli esercizi siano impegnativi ma raggiungibili, migliorando l’efficacia e la motivazione durante la riabilitazione.

Come funziona?

In questo contesto, l’agente, che potrebbe essere paragonato a un utente che interagisce con un’attività, impara a prendere decisioni ottimali in diverse situazioni per superare correttamente l’attività.

Il Q-learning consente all’agente di sperimentare con diverse azioni interagendo con il suo ambiente, ricevendo ricompense o penalizzazioni, e aggiornando una tabella Q che memorizza questi valori Q. Questi valori rappresentano le ricompense future attese per intraprendere la migliore azione in uno stato specifico.

La regola di aggiornamento del Q-learning è la seguente:

Dove:

𝛂 – è il tasso di apprendimento.

r – è la ricompensa ricevuta dopo aver eseguito l’azione a dallo stato s.

𝛄 – è il fattore di sconto, che rappresenta l’importanza delle ricompense future.

s’ – è il prossimo stato.

– è il valore Q massimo per il prossimo stato s’.

Iscriviti
alla nostra
Newsletter

Esempio di applicazione in un’attività di NeuronUP

Prendiamo l’attività di NeuronUP chiamata “Immagini confuse”, che allena abilità come la pianificazione, le prassie visuo-costruttive e la relazione spaziale. In questa attività, l’obiettivo è risolvere un puzzle che è stato mescolato e tagliato in pezzi. Questa attività non è ancora disponibile in italiano, ma è possibile trovarla in inglese, francese, spagnolo, portoghese e catalano.

Le variabili che definiscono la difficoltà di questa attività sono la dimensione della matrice (il numero di righe e colonne) e il valore del disordine dei pezzi (basso, medio, alto o molto alto).

Per addestrare l’agente a risolvere il puzzle, è stata creata una matrice di ricompense basata sul numero minimo di mosse necessarie per risolverlo, definito dalla seguente formula:

La variabile del fattore dipende dal livello di disordine. Una volta creata la matrice, è stato applicato un algoritmo di Q-learning per addestrare l’agente a risolvere il puzzle automaticamente.

Questa integrazione include:

Queste funzioni lavorano insieme per consentire all’algoritmo di Q-learning di sviluppare una strategia ottimale per risolvere il puzzle.

Analisi preliminare dell’esecuzione dell’algoritmo

L’algoritmo è stato applicato a un puzzle di matrice 2×3 con un fattore di difficoltà 1 (basso), corrispondente a un numero minimo di tentativi pari a 2. L’algoritmo è stato eseguito 20 volte sullo stesso puzzle, applicando la stessa configurazione di miscelazione ogni volta e aggiornando la tabella Q dopo ogni passaggio. Dopo 20 esecuzioni, il puzzle è stato miscelato in una configurazione diversa e il processo è stato ripetuto, risultando in un totale di 2000 iterazioni. I valori iniziali dei parametri erano:

Ad ogni passo, veniva applicata una ricompensa o una penalità aggiuntiva basata sul numero di pezzi corretti, permettendo all’agente di comprendere il suo progresso verso la risoluzione del puzzle. Questo veniva calcolato utilizzando la formula:

Dove:

Il grafico qui sotto illustra il numero di mosse necessarie per iterazione affinché il modello risolva un puzzle di dimensioni 2×3. All’inizio, il modello richiede un gran numero di mosse, riflettendo la sua mancanza di conoscenza su come risolvere il puzzle in modo efficiente. Tuttavia, man mano che l’algoritmo di Q-learning si allena, si osserva una tendenza al ribasso nel numero di mosse, suggerendo che il modello sta imparando a ottimizzare il suo processo di risoluzione.

Questa tendenza è un segnale positivo del potenziale dell’algoritmo per migliorare nel tempo. Tuttavia, devono essere considerate diverse limitazioni importanti:

Queste limitazioni evidenziano la necessità di un ulteriore affinamento dell’algoritmo, sia regolando i parametri di apprendimento, migliorando la struttura del modello o incorporando tecniche complementari che permettano un apprendimento più efficiente e adattabile a diverse configurazioni di puzzle. Nonostante queste limitazioni, non dobbiamo dimenticare i vantaggi che il Q-learning offre nella neuroriabilitazione, tra cui:

Concludendo, il Q-learning è evoluto dalle sue radici nella psicologia comportamentale fino a diventare uno strumento potente nell’intelligenza artificiale e nella neuroriabilitazione. La sua capacità di adattare autonomamente le attività lo rende una risorsa preziosa per migliorare l’efficacia delle terapie riabilitative, anche se rimangono sfide da superare per ottimizzare completamente la sua applicazione.

Bibliografia

Se ti è piaciuto questo articolo su Q-learning, probabilmente ti interesseranno anche questi articoli di NeuronUP:

Exit mobile version