fbpx

Anche questa settimana siamo in Aula, alle prese con la statistica e i suoi modelli.
Chi ci accompagna è Marco Cerri, Head of Marketing Analytics in Sky Italia, con il quale ci poniamo subito una questione centrale:

Come è possibile ridurre una grande mole di dati senza perdere (troppe) informazioni?

A questo scopo, esploriamo le tecniche principali: l’Analisi dei Componenti Principali e la Single Value Decomposition, l’Analisi Fattoriale e quella delle Corrispondenze semplici e multiple.

L’ACP e la SVD si sviluppano entrambe a partire da una matrice di correlazione e lavorano per individuare le variabili quantitative più significative, approdando a una rappresentazione geometrica.

Ma se non abbiamo una matrice di correlazione?

Ci occupiamo di content driven segmentation e, attraverso un esempio di SVD applicata al text mining, scopriamo la possibilità di utilizzare matrici di similarità.

Approdiamo, quindi, all’Analisi Fattoriale e delle Corrispondenze.
Argomenti un po’ spinosi e Marco chiede con regolarità se tutta la classe lo stia seguendo.
Spesso qualche voce o le teste che annuiscono sono decisamente rassicuranti, a volte percepiamo un po’ di silenziosa insicurezza…
Almeno finché il silenzio viene rotto da una richiesta: “Ma… un esempio pratico?!
Sì, in effetti la statistica è una disciplina complessa e a volte abbiamo proprio bisogno di essere guidati passo passo. Fortunatamente il Dott. Cerri ha un programma pieno di case history che ci vengono in soccorso.

 


La data science ha senso solo se si ha un obiettivo. 

Questa citazione che riassume un consiglio di lettura, potrebbe davvero essere il titolo del primo weekend trascorso in compagnia del Dott. Cerri. Infatti, Marco ci presenta un testo che può esserci utile in quanto ad approccio: la statistica non deve mai perdere di vista il proprio scopo.

A proposito di traguardi, ci poniamo quello di ottimizzare il contatto con il cliente attraverso la formazione di gruppi omogenei.
I metodi di Cluster Analysis sono diversi: gerarchico, centroid-distance-based, Density based
Ciò che non cambia è il fatto che ‘fare cluster è un po’ una scienza, un po’ un’arte’: non esiste una metodologia passepartout, dipende tutto da quel che dobbiamo fare, serve esperienza e possiamo farla solo attraverso tentativi ed errori.

Attraverso queste indicazioni metodologiche, arriviamo al Multidimensional scaling metrico e non metrico, un metodo di analisi che produce mappe di posizionamento. La caratteristica peculiare di questa tecnica è la capacità di partire da un ordinamento e tradurlo in una mappa metrica.

Approcciamo, infine, un modello di machine learning.
La differenza principale con i modelli che abbiamo visto in precedenza è chiara a tutti: da una fotografia statica, passiamo a un output dinamico.
Ecco il SOP (Self-Organizing Maps) che ha per prodotto una classificazione di dati semplice da interpretare e che, inoltre, risolve il problema dei dati mancanti che l’analisi statistica si trova ad affrontare se applicata a dataset di dimensioni elevate.

Durante questo denso corso di statistica multivariata ci siamo sempre appoggiati a  JMP per le esercitazioni e abbiamo cominciato a conoscere le caratteristiche principali di R e Python.

Il Dott. Cerri, grazie a una comunicazione diretta, informale e puntuale, ci ha stimolati a uscire dal nostro guscio.
Quando si tratta di argomenti complessi è necessario affrontare il proprio senso di inadeguatezza ed esprimere chiaramente dubbi e perplessità: se ‘il re è nudo’ può esserlo anche l’analisi statistica.

Beh, il nostro ‘il re è nudo’ si è trasformato in un forse più prosaico “Chi ha perplessità può dire: ‘Per me è una cazzata…’” (Cerri dixit) ma il senso è quello.
Tant’è che la domanda con cui abbiamo concluso la lezione di sabato è stata: “Marco, non è che si possiamo ricominciare?” 😀

Richiedi la Ricerca

Indagine sul livello di adozione e utilizzo dell'Intelligenza Artificiale in Italia

Privacy Policy

You have Successfully Subscribed!