ADDESTRATORI 4.0

Perchè non hai mai sentito parlare di Reinforcement Learning, pur sapendo perfettamente cosa sia.

Incentivi digitali

Vercingetorige si muove di un altro passo lungo quella che pensa essere la traiettoria corretta. Immancabile arriva il suo premietto, che divora voracemente, strappandolo dalle mani dell’addestratore. Poi guarda di nuovo davanti a sé: si trova in una griglia a quadroni, 8×8. Ad ogni passo che compie (orizzontalmente o verticalmente, Vercingetorige non ha infatti mai provato a muoversi diagonalmente, sa di non poterlo fare), l’addestratore lo ricompensa.

A volte, quando esce dalla griglia, viene riposizionato nella cella di partenza, e lo stesso accade quando raggiunge alcune delle celle, colorate diversamente rispetto alle altre. In questi ultimi casi, niente premietto per lo sventurato protagonista della nostra storia.

E così, instancabile, Vercingetorige passa le sue giornate ad affinare le traiettorie che segue lungo la griglia. L’obiettivo: ottenere il massimo numero di premietti possibile. Dopo qualche tempo, è diventato infallibile. Ha capito che non deve muoversi verso le celle colorate diversamente, e ha addirittura scoperto una cella, in fondo alla griglia, che, se raggiunta, gli garantisce una ricompensa maggiore rispetto al solito. Gli sembra di ricordare, infatti, che al raggiungimento della cella speciale l’addestratore gli dia dieci, o forse cento premietti!

Quella di Vercingetorige potrebbe esservi sembrata la breve storia dell’addestramento di un cane, o di un animale da circo. Ebbene, sappiate che quanto descritto precedentemente è perfettamente sovrapponibile a ciò che avviene durante il processo di training di un modello di Reinforcement Learning!

In particolare, l’esempio è quello del FrozenLake, gioco-test della popolare libreria Gymnasium, sviluppata da OpenAI (gli stessi, per capirci, che hanno sviluppato ChatGPT).

In FrozenLake, a muoversi è un elfetto, che deve raggiungere il tesoro posto dall’altra parte della mappa senza finire nelle pozze di acqua gelida.

Fig. 1: un frame del FrozenLake di OpenAI

Un pattern già visto

Chiaramente, è solo un esempio giocattolo per testare eventuali modelli di Reinforcement Learning, e alcuni di voi si staranno chiedendo quale utilità possa mai avere addestrare un elfetto virtuale ad attraversare un lago ghiacciato alla ricerca di un pacco regalo.

In realtà, modelli simili (e cioè modelli in cui un agente intelligente è addestrato mediante l’attribuzione di ricompense, per l’appunto modelli di reinforcement learning) trovano un gran numero di applicazioni nei contesti più variegati. I migliori giocatori di scacchi al mondo, ad esempio, non sono troppo diversi dall’elfetto del FrozenLake o da Vercingetorige, con l’unica differenza che i primi, in fasse di addestramento, hanno ricevuto premi tanto maggiori quanto più in fretta sono stati in grado di dichiarare Scacco Matto!

Fig. 2: Come Adobe Firefly immagina un robot che gioca a scacchi

Allo stesso modo, il RL può essere utilizzato per pilotare elicotteri, mantenere in equilibrio complessi sistemi dinamici, decidere quale pacco debba essere consegnato prima dal corriere di Amazon per ottimizzarne l’efficienza. Il tutto, basandosi su un criterio antichissimo, oserei dire innato: premiare le scelte corrette, punire quelle sbagliate.

Si tratta della stessa politica che chiunque ha scelto quando si è trattato di insegnare al proprio cane a dare la zampa, o ad un bambino a non raccogliere oggetti trovati in giro. Lo stesso criterio veniva adottato da mio padre quando, ancora bambino, vedevo corrispondermi un numero di bustine dei calciatori Panini proporzionale ai voti che la maestra mi assegnava.

Further analysis is needed

Ovviamente, non è semplice come sembra. La struttura delle ricompense va predisposta in maniera tale da evitare comportamenti inefficienti dell’agente: ad esempio, bisogna evitare di dare ricompense sparse, cioè troppo dilazionate nel tempo, preferendo invece premi piccoli e frequenti. Allo stesso modo, bisogna assicurarsi di fornire all’agente una panoramica completa e utile del mondo in cui si trova: nel caso del giocatore di scacchi, sicuramente ci sarà bisogno di dare in input al modello, ad ogni iterazione, la disposizione dei pezzi sulla scacchiera.

Contemporaneamente, è sconsigliato dare troppe informazioni all’agente, perché potrebbero comprometterne l’apprendimento, finendo piuttosto per confonderlo.

Infine, la fase di addestramento può durare ore, giorni o settimane, dal momento che l’agente avrà bisogno di ripetere il gioco migliaia (o addirittura milioni) di volte, prima di diventare davvero infallibile.

I ricercatori di tutto il mondo stanno sviluppando, proprio in questi anni (e in questi mesi, oserei dire), strategie più efficaci per l’addestramento di modelli di Reinforcement Learning. L’obiettivo è ottenere, in un futuro non troppo distante, chirurghi dalla precisione impensabile per un umano, automobili capaci di compiere manovre molto complesse, cuochi stellati animati da sequenze di bit. Il tutto, in maniera non troppo differente da quanto viene fatto ogni giorno da centinaia di migliaia di umani esasperati, che provano a insegnare al loro amico a quattro zampe a rispondere al comando “seduto!”.

 

hai bisogno di una consulenza?

Potrebbe interessarti anche…

JESAP Awards – Celebrare l’Eccellenza

JESAP Awards – Celebrare l’Eccellenza

Il 20 gennaio 2024, Roma sarà il palcoscenico di un evento straordinario: i JESAP Awards, una celebrazione dei successi straordinari ottenuti dai membri di JESAP Consulting. JESAP, un'Associazione...

Intervista a Lorenzo Tedeschi di Team Different

Intervista a Lorenzo Tedeschi di Team Different

La salute mentale nel luogo di lavoro  Lorenzo Tedeschi è il Co-fondatore e Manager Director di Team Different, una startup dedicata al benessere mentale nel contesto lavorativo.  L’idea di Team...

Social Media Trends 2024

Social Media Trends 2024

Cosa sono i Social Media? I social media (SM) permettono di leggere, apprendere e condividere informazioni e contenuti in modo del tutto nuovo rispetto ai media tradizionali (radio, stampa,...