“CovidStat va all’Istituto Superiore di Sanità”

Alla fine di marzo 2021 è stato siglato un accordo tra l’INFN e l’Istituto Superiore di Sanità (ISS) che consente all’INFN di utilizzare i dati dell’ISS per analisi statistiche. Queste informazioni sono di proprietà del ISS e l’accordo non prevede la possibilità da parte dell’INFN di rendere “aperti” questi dati.

Il dataset, comunque soggetto ad alcune limitazioni relative alla privacy, viene aggiornato con cadenza settimanale e contiene informazioni aggiuntive rispetto a quelle fornite dalla Protezione Civile. Dal 21 aprile 2021 sono cominciati ad arrivare i dati ed abbiamo iniziato ad analizzarli, realizzando i grafici che, per problemi di privacy, sono stati resi disponibili nel sito solo dal 17 luglio 2021: https://covid19.infn.it/iss/.

Ma cosa contengono questi grafici?
Oltre ad essere più precisi in termini di datazione dei casi (le date non sono affette dal ritardo di notifica), contengono informazioni aggiuntive relative all’età, al genere e al personale sanitario.

Vediamo, per esempio, i nuovi casi giornalieri per operatori sanitari e le altre categorie persone:

Ma allora i vaccini funzionano? Caspita se funzionano !!
Il calo dei casi sintomatici per gli operatori sanitari durante i primi mesi del 2021 dimostra l’effetto della campagna di vaccinazione.

E questo si riflette anche sul numero di decessi degli ultra-ottantenni, come è mostrato chiaramente in figura:

 

Ma si ammalano di più le femmine o i maschi?
Non abbiamo notato alcuna differenza perchè la leggera prevalenza dei casi sintomatici delle femmine (2 132 779 casi) rispetto ai casi dei maschi (2 042 281) è esattamente compensata dal maggior numero di femmine nella popolazione italiana (51%, corrispondente a 30 591 392 su 59 641 488 individui). Il rapporto di casi positivi, infatti, normalizzato alla corrispondente popolazione viene uguale al 7% in entrambi i generi.
E in questa figura viene mostrata la distribuzione per età dei casi positivi:

Cosa possiamo dire dell’età alla quale si contrae la malattia?
Vi è una generale tendenza alla diminuzione dell’età media degli ammalati per COVID-19. Questo significa che le persone più anziane, che sono la percentuale più alta di persone vaccinate, sviluppano sempre di meno la malattia. Al contrario dei giovani che sono ora la categoria più esposta al rischio di contagio, anche a causa della loro vita di relazione sociale più intensa.
In questo grafico è riportato l’andamento temporale dell’età mediana e gli intervalli corrispondenti ai quantili al 68% e 95% dei casi positivi:

Ad esempio, il giorno 26 giugno 2021 il valore della mediana dell’età dei casi positivi era 35 anni.

Fino a che livello di dettaglio arrivano i dati?
I dati dei positivi, ricoveri, terapia intensiva e deceduti  sono disponibili fino al livello delle province. Di queste informazioni, che sono affette da una maggior fluttuazione statistica rispetto alle regioni e al dato nazionale, viene riportato solo l’andamento della media mobile a 7 giorni e non il dato giornaliero. La scelta di utilizzare le distribuzioni mediate è motivata anche dal fatto di rispettare le limitazioni relative alla privacy. Nella figura sottostante viene visualizzata la distribuzione dei deceduti giornalieri per la provincia di Milano:

e, per paragone, la stessa distribuzione per la provincia di Napoli:

È evidente il diverso impatto che hanno avuto la prima e la seconda ondata della pandemia nelle due province considerate.

Ma perché è stato condotto questo tipo di analisi, non era sufficiente il bollettino del ISS?
Le analisi compiute dal gruppo CovidStat (sui dati dell’ISS) permettono di avere una visione diversa e complementare rispetto a quelle compiute dal ISS. L’ISS produce un bollettino settimanale (reperibile nel sito https://www.epicentro.iss.it/coronavirus/) dove sono analizzati diversi aspetti epidemiologici e medici della pandemia dovuta al Covid-19. Nel nostro sito, invece, viene compiuta una analisi che è di tipo statistico e vengono resi disponibili i grafici, dove la statistica lo consente, per tutte le regioni e province. Per questo i due approcci sono complementari. Con l’aggiornamento settimanale, inoltre, vengono ricalcolate e graficate tutte le quantita` di tutte le province e di tutte le regioni.

In conclusione, in questo blog vi abbiamo commentato alcuni grafici, ma più che con immagini statiche vi invitiamo a visitare il nostro sito che offre la possibilità di avere maggiori informazioni interattive.

La ripartenza

In Italia la ripartenza dei contagi appare ormai statisticamente evidente. Il risultato lo riportiamo con un aggiornamento quotidiano in questa pagina web.

Si evidenzia una discrepanza che supera di dieci volte la fascia di errore corrispondente ad una deviazione standard, diventando quindi statisticamente significativa. Questo aumento si osserva sistematicamente in molte delle regioni italiane, in maniera più marcata al Nord.

Rispetto a luglio dell’anno scorso, la ripartenza sembra essere più rapida, e parte da circa 1000 contagi al giorno, mentre l’anno scorso era ripartita da circa 100 nuovi positivi giornalieri.

Per il momento, il nostro metodo non permette di prevedere come evolverà la ripartenza.

Va sottolineato che ad un aumento dei contagi potrebbe non seguire un aumento altrettanto importante di ricoverati e di decessi grazie alla maggiore protezione offerta dai vaccini, come osservato nel Regno Unito ed in Israele.

Il metodo utilizzato

In due precedenti post nel nostro blog ([1], [2]) avevamo descritto gli indicatori messi a punto per avere informazioni sulla ripartenza dell’infezione, in particolare a causa del rischio dovuto alla variante delta (“indiana”).

Nel secondo articolo, in particolare, avevamo descritto come si calcolano i residui, che usiamo come indicatore di una possibile ripartenza, e come si interpreta il grafico dell’andamento nel tempo dei residui, riportato qui sotto:

Nel grafico erano evidenti due effetti ancora da correggere, per i quali abbiamo introdotto una nuova procedura che qui descriviamo:

  • resta evidente una modulazione settimanale dovuta al calo del numero di tamponi e conseguentemente di casi che vengono normalmente riportati in occasione dei fine settimana;
  • al diminuire del numero dei casi, la banda di oscillazione dei residui sembra smorzarsi, sintomo di una possibile sottostima delle incertezze.

Per tenere conto di questi effetti, abbiamo applicato due correzioni:

  • per rimuovere la modulazione settimanale, abbiamo utilizzato due possibili approcci, entrambi riportati sul nostro sito:
    1. al posto del numero dei casi giornalieri, abbiamo utilizzato la media mobile a sette giorni, che elimina la modulazione settimanale, fornendo però una risposta meno rapida a fronte di un possibile aumento;
    2. come alternativa, abbiamo introdotto sette fattori correttivi, uno per ciascun giorno della settimana, determinati in maniera tale che, mediati su tutti i giorni usati per calcolare l’interpolazione del nostro modello, il numero di contagi, corretto per questi fattori, risulti costante per tutti e sette giorni della settimana.
  • lo smorzamento della banda di oscillazione è dovuto all’assunzione iniziale che le incertezze derivassero da una distribuzione di Poisson, quindi che ad un numero di conteggi n corrispondesse un’incertezza proporzionale a √n, che avevamo però corretto riscalando queste incertezze per un fattore fisso. Questa non è necessariamente la stima più accurata delle incertezze, per cui abbiamo introdotto un modello più realistico del loro andamento come somma in quadratura di un termine poissoniano, √n, e di una incertezza proporzionale al numero dei conteggi, il cui fattore di proporzionalità abbiamo stimato dai dati stessi pari al 10% del numero di conteggi.

Con queste correzioni, il grafico dei residui è quello che appare all’inizio di questo post, dove non è più presente la modulazione settimanale, e viene aumentata notevolmente la sensibilità con un numero relativamente basso di positivi, come avviene negli ultimi giorni.

Il risultato degli ultimi giorni evidenzia una discrepanza che supera di dieci volte la fascia di errore corrispondente ad una deviazione standard, diventando quindi significativamente discrepante rispetto al modello di discesa che abbiamo interpolato. Questo aumento si osserva sistematicamente in molte delle regioni italiane, in particolare al Nord.