All’inizio della nostra serie di approfondimenti sul PNRR (per visualizzare la serie completa cliccare "PNRR" sul menù del sito), avevamo avviato una riflessione su come le società di consulenza attive nei settori della Business Intelligence e Data Analytics possono operare per accompagnare le Organizzazioni Sanitarie nel realizzare, e soprattutto gestire nel tempo, quanto previsto dal Piano.
Avevamo iniziato individuando due passaggi fondamentali:
La strutturazione di una base informativa integrata.
L’elaborazione di tali informazioni basata su tecniche di Data Analytics e Business Intelligence.
Abbiamo poi trattato il tema della strutturazione di una base informativa integrata, sviluppando i concetti di Data Lake (qui) e di approccio data-driven (qui).
Ora entriamo nel merito del punto 2, approfondendo le diverse modalità di analisi dei dati basate sulla Business Intelligence, fermo restando che il fine ultimo di tali analisi è quello di “estrarre valore” dai dati “grezzi”, per ottenere informazioni oggettive da poter utilizzare come indicatori di performance nel monitoraggio dei risultati.
Iniziamo con i modelli predittivi multivariati, utilizzati per il monitoraggio della situazione corrente al fine di anticipare gli eventi, scegliere strategicamente tra diversi possibili scenari e ottimizzare progressivamente l’allocazione delle risorse. Per semplicità, raggruppiamo tali modelli in tre macro-categorie:
Analisi dei trend
Analisi what-if
Machine Learning e Artificial Intelligence
In questa sede ci occuperemo della prima, lasciando ai prossimi approfondimenti il compito di illustrare le successive.
Per quanto ci riguarda, l’analisi dei trend consiste, in estrema sintesi, nel valutare in serie storica le variabili di interesse, per individuare la loro prevedibile evoluzione e quindi intercettare in anticipo la necessità di interventi correttivi.
La valutazione necessita perciò di una rappresentazione delle variabili su scala temporale, sincerandosi innanzi tutto che i dati su cui si basa siano internamente coerenti, cioè non contengano dati anomali, ed omogenei, cioè non subiscano variazioni indotte dal metodo di rilevazione.
Per spiegarci meglio, facciamo un esempio concreto, analizzando un dato particolarmente seguito in questo periodo: il numero giornaliero di soggetti positivi al Covid-19.
Se si analizza semplicemente il dato giornaliero, ci si accorge che i dati subiscono una forte variazione il sabato, e soprattutto la domenica, non perché il virus vada in vacanza nel week-end, ma semplicemente perché in questi giorni si fanno meno tamponi. Si preferisce quindi analizzare il fenomeno su variabili che lo rendono più omogeneo, cioè valutandolo come incidenza dei positivi rispetto al numero di tamponi effettuati, o ancora meglio, operando non sul dato giornaliero, ma sulla sua media mobile a 7 giorni (ovvero la media degli ultimi 7 valori rilevati, tale dunque da includere sempre nel calcolo un sabato ed una domenica).
Definiti quindi i dati strutturati su cui operare e le modalità di rilevazione delle variabili di interesse, si passa ai veri e propri processi di analisi.
Una trattazione dettagliata del tema sarebbe lunga e complessa, esulando dalle finalità informative di questo approfondimento. Semplificheremo quindi di molto i passaggi successivi, a costo di qualche eccesso di sintesi che determinerà necessariamente delle imprecisioni. Ci limiteremo pertanto ad una serie di considerazioni di tipo qualitativo.
Innanzi tutto, partiamo da quello che può essere considerato un assioma alla base di qualsiasi processo di analisi dei trend: “la posizione di una variabile in un dato istante deriva da quelle occupate negli istanti precedenti”. Detto così sembra un’ovvietà, ma dire che una variabile è figlia della sua storia è ciò che di fatto ci consente di sviluppare i modelli previsionali.
Questa “storia” è di solito ben visibile nel grafico che la rappresenta, e su di essa si possono in genere riconoscere diverse componenti (facciamo qui solo un minimo di teoria, cercando di non essere troppo noiosi):
La componente tendenziale, quella che meglio approssima l’andamento principale della variabile considerata, cioè il suo cosiddetto “trend primario”.
La componente congiunturale, cioè quella che meglio approssima le variazioni che si riscontrano sul trend primario, e che descrive quindi i “trend secondari”.
La componente stagionale, cioè quella responsabile di variazioni che si riscontrano in periodi simili (per fare un esempio, i contagi da Covid-19 presentano una evidente stagionalità, nel senso che nei mesi freddi il virus si diffonde più velocemente).
L’individuazione di questi trend, di solito tramite sviluppi in serie ed analisi di regressione, ci fornisce già moltissime informazioni di tipo predittivo, che possiamo ulteriormente incrementare attraverso meccanismi di “riconoscimento dei pattern”.
Tali meccanismi individuano “comportamenti” ripetitivi delle variabili e consentono di sviluppare modelli previsionali basati sul fatto che, a partire da condizioni simili, tali comportamenti tendono a ripetersi. Nei casi più semplici, i pattern possono essere individuati sui grafici in modo diretto, ma nel settore stanno emergendo prepotentemente i temi del “Machine Learning” e dalla “Artificial Intelligence”, in cui l’attività è demandata a sistemi informativi specificamente progettati allo scopo - ma di ciò parleremo nei prossimi approfondimenti.
In conclusione, e in estrema sintesi, possiamo dire che l’analisi dei trend consiste in questa sequenza: analizzare il passato, prevedere il futuro, consigliare le azioni conseguenti.
Su questo stiamo lavorando in BI Health, convinti che dall’enorme mole di dati in possesso delle organizzazioni sanitarie possa essere “estratta” quell’informazione di sintesi, necessaria allo sviluppo di una modellistica previsionale a supporto delle decisioni strategiche.