Machine learning: le macchine apprendono dai beni culturali
“Data Scientist” è stato definito come il titolo per annunci lavorativi più sexy del XXI secolo. Questo perché nell’ultimo decennio si è assistito a una vera e propria esplosione della quantità di dati prodotti e immagazzinati. Questa mole di dati contiene preziose informazioni, che possono essere impiegate dalle società per prendere decisioni e fare predizioni in diversi ambiti: l’analisi dei mercati, il processing delle immagini per il riconoscimento facciale e la biologia computazionale per l’individuazione di tumori sono solo alcune delle possibili applicazioni.
Una delle competenze che caratterizzano il data scientist è il Machine Learning. Il Machine learning (ovvero apprendimento automatico delle macchine) è un insieme di metodi che insegna ai computer ciò che viene naturale agli umani e agli animali: imparare dall’esperienza. Gli algoritmi, infatti, impiegano metodi computazionali per apprendere l’informazione direttamente dai dati senza utilizzare una predeterminata equazione come modello. Il modello, ed eventualmente l’equazione, nascono dai dati stessi e da una loro completa comprensione. La performance dell’algoritmo migliora col crescere del numero di casi a disposizione, esattamente come nella realtà accumulare esperienze pregresse ci aiuta a prendere decisioni in modo più consapevole.
Lo scopo del machine learning è, quindi, quello di trovare degli schemi naturali nei dati, al fine di generare una profonda comprensionee aiutare a prendere decisioni o compiere predizioni nei più disparati campi di ricerca.
Esistono due tipologie di algoritmi.
Il supervised machine learning (appredimento supervisionato) fornisce al sistema un set di dati di cui si conoscono gli input e gli output (le risposte) e, successivamente, viene addestrato a creare un modello per produrre predizioni ragionevoli come risposta a nuovi dati. Questa categoria include le tecniche di classificazione, che predicono risposte discrete (ad esempio se un tumore è cancerogeno o benigno) e le tecniche di regressione, che forniscono risposte di variabili continue (ad esempio fluttuazioni di temperatura).
Il unsupervised machine learning (apprendimento non supervisionato), invece, riesce a trovare dei pattern nascosti all’interno dei dati, che però non presentano l’output della risposta da predire. Il clustering è la tecnica più comune ed è impiegato per analizzare in modo esplicito i dati e individuarne eventuali naturali raggruppamenti.
Ma in che modo avviene l’apprendimento? Quale è il processo a cui sono sottoposti i dati? Le sfide principali del machine learning sono legate al modo in cui trattare i dati e all’individuazione del giusto modello. Possiamo quindi suddividere il processo di apprendimento in 3 passi principali:
1) Data pre-processing: i dati provengono in tutte le forme e dimensioni. I dataset reali possono essere confusi e incompleti: pertanto, il primo passaggio consiste nell’organizzare e pre-analizzare i dati (ad esempio valutare eventuali outliers, ovvero anomalie, e dati mancanti). Il set di dati sarà quindi costituito da un insieme di istanze (gli esempi), a cui sono associate delle caratteristiche, dette attributi, che serviranno a predire l’output (attributo target).
2) Costruzione del modello e training: parte dei dati di partenza costituiranno il training set (dati di addestramento) che il modello prescelto utilizzerà per apprendere la trama e le regole che caratterizzano i dati.
3) Valutazione del modello: una volta individuato il modello, esso verrà testato e valutato su un set di dati di verifica, che consentiranno di comprenderne accuratezza e precisione. In questa fase si potrà valutare se modificare il modello, semplificandolo oppure aggiungendo complessità per rappresentare meglio il caso in esame.
Prendere decisioni e fare predizioni è alla base di innumerevoli campi, dalla finanza alla diagnostica, ma in che modo il machine learning può incontrare il mondo dei beni culturali? Il gruppo di ricerca del Dr. Elgammal presso Rutgers’ Art and Artificial Intelligence Laboratory ha proposto un algoritmo in grado di indicare il livello di creatività di un dipinto considerandone il contesto storico-artistico. Il modello è stato valutato su 1700 quadri e ha riscontrato diversi interessanti risultati. Ad esempio, l’algoritmo associa a “Les demoiselles d’Avignon” di Picasso il più alto punteggio in creatività tra tutti i dipinti analizzati tra il 1904 e il 1911. Questo risultato è in linea con il pensiero degli storici dell’arte, che hanno indicato l’opera, per la sua pittura “piatta” e l’applicazione del Primitivismo, un primo esempio dello stile cubista di Picasso.
Questo lavoro mostra come, attraverso il machine learning, non sono solo gli umani a saper giudicare la creatività, ma anche i computer ne sono in grado e, forse, in modo anche più oggettivo!
Una delle competenze che caratterizzano il data scientist è il Machine Learning. Il Machine learning (ovvero apprendimento automatico delle macchine) è un insieme di metodi che insegna ai computer ciò che viene naturale agli umani e agli animali: imparare dall’esperienza. Gli algoritmi, infatti, impiegano metodi computazionali per apprendere l’informazione direttamente dai dati senza utilizzare una predeterminata equazione come modello. Il modello, ed eventualmente l’equazione, nascono dai dati stessi e da una loro completa comprensione. La performance dell’algoritmo migliora col crescere del numero di casi a disposizione, esattamente come nella realtà accumulare esperienze pregresse ci aiuta a prendere decisioni in modo più consapevole.
Lo scopo del machine learning è, quindi, quello di trovare degli schemi naturali nei dati, al fine di generare una profonda comprensionee aiutare a prendere decisioni o compiere predizioni nei più disparati campi di ricerca.
Esistono due tipologie di algoritmi.
Il supervised machine learning (appredimento supervisionato) fornisce al sistema un set di dati di cui si conoscono gli input e gli output (le risposte) e, successivamente, viene addestrato a creare un modello per produrre predizioni ragionevoli come risposta a nuovi dati. Questa categoria include le tecniche di classificazione, che predicono risposte discrete (ad esempio se un tumore è cancerogeno o benigno) e le tecniche di regressione, che forniscono risposte di variabili continue (ad esempio fluttuazioni di temperatura).
Il unsupervised machine learning (apprendimento non supervisionato), invece, riesce a trovare dei pattern nascosti all’interno dei dati, che però non presentano l’output della risposta da predire. Il clustering è la tecnica più comune ed è impiegato per analizzare in modo esplicito i dati e individuarne eventuali naturali raggruppamenti.
Ma in che modo avviene l’apprendimento? Quale è il processo a cui sono sottoposti i dati? Le sfide principali del machine learning sono legate al modo in cui trattare i dati e all’individuazione del giusto modello. Possiamo quindi suddividere il processo di apprendimento in 3 passi principali:
1) Data pre-processing: i dati provengono in tutte le forme e dimensioni. I dataset reali possono essere confusi e incompleti: pertanto, il primo passaggio consiste nell’organizzare e pre-analizzare i dati (ad esempio valutare eventuali outliers, ovvero anomalie, e dati mancanti). Il set di dati sarà quindi costituito da un insieme di istanze (gli esempi), a cui sono associate delle caratteristiche, dette attributi, che serviranno a predire l’output (attributo target).
2) Costruzione del modello e training: parte dei dati di partenza costituiranno il training set (dati di addestramento) che il modello prescelto utilizzerà per apprendere la trama e le regole che caratterizzano i dati.
3) Valutazione del modello: una volta individuato il modello, esso verrà testato e valutato su un set di dati di verifica, che consentiranno di comprenderne accuratezza e precisione. In questa fase si potrà valutare se modificare il modello, semplificandolo oppure aggiungendo complessità per rappresentare meglio il caso in esame.
Il grafico mostra l'andamento dell'indice di creatività (asse y) nell'arco storico tra il 1850 e il 1950 (asse x). La figura è stata riadattata da arXiv:1506.00711 |
Prendere decisioni e fare predizioni è alla base di innumerevoli campi, dalla finanza alla diagnostica, ma in che modo il machine learning può incontrare il mondo dei beni culturali? Il gruppo di ricerca del Dr. Elgammal presso Rutgers’ Art and Artificial Intelligence Laboratory ha proposto un algoritmo in grado di indicare il livello di creatività di un dipinto considerandone il contesto storico-artistico. Il modello è stato valutato su 1700 quadri e ha riscontrato diversi interessanti risultati. Ad esempio, l’algoritmo associa a “Les demoiselles d’Avignon” di Picasso il più alto punteggio in creatività tra tutti i dipinti analizzati tra il 1904 e il 1911. Questo risultato è in linea con il pensiero degli storici dell’arte, che hanno indicato l’opera, per la sua pittura “piatta” e l’applicazione del Primitivismo, un primo esempio dello stile cubista di Picasso.
Questo lavoro mostra come, attraverso il machine learning, non sono solo gli umani a saper giudicare la creatività, ma anche i computer ne sono in grado e, forse, in modo anche più oggettivo!
Alessandra
Riferimenti bibliografici:
- Tom Mitchell, Machine Learning, McGraw Hill, 1997.
- Ian H. Witten, Eibe Frank, Mark A. Hall, Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann.
- Ahmed Elgammal, Babak Saleh, Quantifying Creativity in Art Networks, arXiv:1506.00711
- https://theconversation.com/which-paintings-were-the-most-creative-of-their-time-an-algorithm-may-hold-the-answers-43157
Commenti
Posta un commento