ADDESTRATORI 4.0

Perchè non hai mai sentito parlare di Reinforcement Learning, pur sapendo perfettamente cosa sia.

Incentivi digitali

Vercingetorige si muove di un altro passo lungo quella che pensa essere la traiettoria corretta. Immancabile arriva il suo premietto, che divora voracemente, strappandolo dalle mani dell’addestratore. Poi guarda di nuovo davanti a sé: si trova in una griglia a quadroni, 8×8. Ad ogni passo che compie (orizzontalmente o verticalmente, Vercingetorige non ha infatti mai provato a muoversi diagonalmente, sa di non poterlo fare), l’addestratore lo ricompensa.

A volte, quando esce dalla griglia, viene riposizionato nella cella di partenza, e lo stesso accade quando raggiunge alcune delle celle, colorate diversamente rispetto alle altre. In questi ultimi casi, niente premietto per lo sventurato protagonista della nostra storia.

E così, instancabile, Vercingetorige passa le sue giornate ad affinare le traiettorie che segue lungo la griglia. L’obiettivo: ottenere il massimo numero di premietti possibile. Dopo qualche tempo, è diventato infallibile. Ha capito che non deve muoversi verso le celle colorate diversamente, e ha addirittura scoperto una cella, in fondo alla griglia, che, se raggiunta, gli garantisce una ricompensa maggiore rispetto al solito. Gli sembra di ricordare, infatti, che al raggiungimento della cella speciale l’addestratore gli dia dieci, o forse cento premietti!

Quella di Vercingetorige potrebbe esservi sembrata la breve storia dell’addestramento di un cane, o di un animale da circo. Ebbene, sappiate che quanto descritto precedentemente è perfettamente sovrapponibile a ciò che avviene durante il processo di training di un modello di Reinforcement Learning!

In particolare, l’esempio è quello del FrozenLake, gioco-test della popolare libreria Gymnasium, sviluppata da OpenAI (gli stessi, per capirci, che hanno sviluppato ChatGPT).

In FrozenLake, a muoversi è un elfetto, che deve raggiungere il tesoro posto dall’altra parte della mappa senza finire nelle pozze di acqua gelida.

Fig. 1: un frame del FrozenLake di OpenAI

Un pattern già visto

Chiaramente, è solo un esempio giocattolo per testare eventuali modelli di Reinforcement Learning, e alcuni di voi si staranno chiedendo quale utilità possa mai avere addestrare un elfetto virtuale ad attraversare un lago ghiacciato alla ricerca di un pacco regalo.

In realtà, modelli simili (e cioè modelli in cui un agente intelligente è addestrato mediante l’attribuzione di ricompense, per l’appunto modelli di reinforcement learning) trovano un gran numero di applicazioni nei contesti più variegati. I migliori giocatori di scacchi al mondo, ad esempio, non sono troppo diversi dall’elfetto del FrozenLake o da Vercingetorige, con l’unica differenza che i primi, in fasse di addestramento, hanno ricevuto premi tanto maggiori quanto più in fretta sono stati in grado di dichiarare Scacco Matto!

Fig. 2: Come Adobe Firefly immagina un robot che gioca a scacchi

Allo stesso modo, il RL può essere utilizzato per pilotare elicotteri, mantenere in equilibrio complessi sistemi dinamici, decidere quale pacco debba essere consegnato prima dal corriere di Amazon per ottimizzarne l’efficienza. Il tutto, basandosi su un criterio antichissimo, oserei dire innato: premiare le scelte corrette, punire quelle sbagliate.

Si tratta della stessa politica che chiunque ha scelto quando si è trattato di insegnare al proprio cane a dare la zampa, o ad un bambino a non raccogliere oggetti trovati in giro. Lo stesso criterio veniva adottato da mio padre quando, ancora bambino, vedevo corrispondermi un numero di bustine dei calciatori Panini proporzionale ai voti che la maestra mi assegnava.

Further analysis is needed

Ovviamente, non è semplice come sembra. La struttura delle ricompense va predisposta in maniera tale da evitare comportamenti inefficienti dell’agente: ad esempio, bisogna evitare di dare ricompense sparse, cioè troppo dilazionate nel tempo, preferendo invece premi piccoli e frequenti. Allo stesso modo, bisogna assicurarsi di fornire all’agente una panoramica completa e utile del mondo in cui si trova: nel caso del giocatore di scacchi, sicuramente ci sarà bisogno di dare in input al modello, ad ogni iterazione, la disposizione dei pezzi sulla scacchiera.

Contemporaneamente, è sconsigliato dare troppe informazioni all’agente, perché potrebbero comprometterne l’apprendimento, finendo piuttosto per confonderlo.

Infine, la fase di addestramento può durare ore, giorni o settimane, dal momento che l’agente avrà bisogno di ripetere il gioco migliaia (o addirittura milioni) di volte, prima di diventare davvero infallibile.

I ricercatori di tutto il mondo stanno sviluppando, proprio in questi anni (e in questi mesi, oserei dire), strategie più efficaci per l’addestramento di modelli di Reinforcement Learning. L’obiettivo è ottenere, in un futuro non troppo distante, chirurghi dalla precisione impensabile per un umano, automobili capaci di compiere manovre molto complesse, cuochi stellati animati da sequenze di bit. Il tutto, in maniera non troppo differente da quanto viene fatto ogni giorno da centinaia di migliaia di umani esasperati, che provano a insegnare al loro amico a quattro zampe a rispondere al comando “seduto!”.

 

hai bisogno di una consulenza?

Potrebbe interessarti anche…

MENTORSHIP BETWEEN GENERATIONS

MENTORSHIP BETWEEN GENERATIONS

COS’E’? “Mentorship Between Generation” è un attivitá ideata dalla delega Alumni di Jesap Consulting, per sfruttare il potenziale ancora inespresso degli Alumni, ex soci delle Junior Enterprise che...

ROME FUTURE WEEK I FUTURO E INNOVAZIONE

ROME FUTURE WEEK I FUTURO E INNOVAZIONE

A Roma dall’11 al 17 Settembre si terrà la Rome Future Week, una serie di eventi che hanno lo scopo di spiegare alle persone come l’innovazione sta cambiando il futuro, e noi siamo estremamente...

Junior BD Consultant

Junior BD Consultant

a cura di Roberta Ioffredo e Martina Crispino   Chi è il BD Consultant? La funzione del BD Consultant è di grande rilievo per qualsiasi azienda che opera nel Business to Business (B2B) e che...