una ripresa che non c’è

All’inizio del mese la rete televisiva americana CNBC ha pubblicato questo grafico sostenendo la narrazione di una veloce ripresa del mercato del lavoro statunitense dopo il tracollo causato dalla crisi per la pandemia Covid-19 che sarebbe provata provata dalla forma a V del grafico, a destra.

In effetti i lettori distratti potrebbero intendere che già a maggio il crollo dei mesi precedenti sia stato recuperato, tornando i dati in territorio positivo. Se non fosse per un piccolo ma fondamentale particolare: l’indice di cui si descrive l’andamento nel corso dei mesi non rappresenta il numero assoluto di posti di lavoro esistenti, ma la variazione del numero assoluto di posti di lavoro rispetto al mese precedente.

In altre parole: ad aprile si sono persi più di 20 milioni di posti di lavoro, a maggio se ne sono guadagnati 2,5 milioni. Fuori luogo dunque parlare di ripresa. Un po’ come fuori luogo sarebbe parlare di recupero di una squadra che nel secondo tempo riesce a segnare un gol dopo averne subiti dieci nel primo tempo.

Il grafico è stato oggetto di commenti feroci sull’account twitter della CNBC. Tanto che la rete televisiva lo ha sostituito con un’altra versione.

incertezza di un campionato

ovvero: un episodio può decidere una partita, una partita può decidere un campionato

Nella presentazione del grafico nel mio ultimo articolo scrivevo che un campionato è tanto più avvincente quanto più è combattuto e incerto.

Una misura di questa caratteristica è data dal numero di sorpassi in classifica, che nel grafico (un particolare grafico a linee chiamato bump chart) corrispondono agli intrecci delle linee corrispondenti alla sequenza delle posizioni di ciascuna squadra.

D’altro canto, a ogni turno di campionato l’assenza di un sorpasso può essere il risultato di due situazioni molto diverse tra loro: una combinazione di risultati che non ha permesso alla squadra inseguitrice di recuperare il distacco con la squadra inseguita, o uno scarto di punti troppo grande per poter essere annullato da qualunque risultato favorevole alla prima e sfavorevole alla seconda.

storia di un campionato

Durante le mie navigazioni delle scorse settimane, m’è capitato di leggere prima sul quotidiano online BergamoNews un grafico animato (a sinistra un fotogramma) sull’evolversi della posizione in classifica dell’Atalanta nel corso del campionato appena concluso, e poi sul blog FiveThirthyEight, dello statistico statunitense Nate Silver, un altro grafico (a destra), stavolta non animato, sull’evolversi delle previsioni circa i play off del torneo di pallacanestro statunitense NBA.

M’è venuta quindi l’idea di combinare le due cose, riproducendo la struttura del secondo grafico per applicarla al contesto del primo. Di proporre cioè un grafico che anche se statico (ma comunque interattivo) riesca in modo chiaro e semplice a mostrare i cambiamenti nella classifica del campionato durante tutto il suo svolgimento.

Ho dovuto come prima cosa trovare un sito che avesse pubblicato la classifica per ciascuna delle 38 giornate del campionato, quindi approntare un programma di web scraping per prelevare tutti i dati, e infine realizzare il grafico replicando lo schema che avevo scelto adattato in alcuni particolari.

la moda dei nomi

pietre-colorate

Nell’aggiornare i dati della mia visualizzazione su popolarità e tendenza dei nomi in Italia all’ultima statistica fornite dall’Istat, ho deciso di dedicare un po’ di tempo ad approfondire il significato che avevo attribuito al termine di tendenza per misurare l’effetto di una moda.

Nel mio articolo di presentazione, avevo brevemente definito la tendenza di un nome come l’intensità con cui negli ultimi cinque anni ha visto crescere o diminuire costantemente (in termini percentuali) la propria diffusione. Il concetto sottinteso è che la genesi (o l’abbandono) di una moda è descritta dal modello di crescita (o decrescita) esponenziale a tasso costante x%, secondo il quale, fatti 100 i casi attuali, se ne avranno 100+x (o 100-x) il periodo successivo.

sul referendum per l’autonomia in Lombardia


La Regione Lombardia, seppure con qualche ritardo, ha reso disponibili online i risultati a livello comunale del cosiddetto referendum per l’autonomia del 22 ottobre.

Desiderando fare qualche esperimento, mi sono cimentato prima nella costruzione di una procedura di raccolta dati, poiché il sito della Regione è stato progettato per l’interrogazione di un solo comune alla volta, e poi nella costruzione di alcuni grafici che potessero aiutare la lettura dei risultati. Li propongo brevemente qui di seguito.

da Achille a Zoe


Il sito dell’Istat ha una pagina dedicata alle statistiche sui nomi dei bambini nati negli anni più recenti, che riporta l’elenco di quelli più diffusi e, una volta selezionato un singolo nome, visualizza il numero dei bambini che hanno avuto quel nome in ciascuno dei quasi ultimi vent’anni e il relativo grafico. Un servizio utile ai curiosi di onomastica e forse anche ai futuri genitori che sono indecisi sul nome da scegliere.

Quando l’ho vista per la prima volta ho pensato che sarebbe stato interessante usarne i dati per costrire una panoramica più generale, che permettesse per esempio di confrontare l’evoluzione nel tempo della popolarità di due o più nomi, o di evidenziare quelli che nel corso degli anni sono diventati più di moda, o sono caduti in disuso.

Il contatore dell’Istat è limitato ai 50 nomi più frequenti ma intervenendo sul codice della pagina è possibile ottenere i dati relativi a tutti i nomi assegnati ai nuovi nati, anche quelli meno usati.

Così, dopo avere scaricato, riordinato e rielaborato tutti i dati disponibili, e dopo avere testato diversi modelli grafici, mi sono concentrato su una particolare rappresentazione visuale, che ho finalmente terminato di implementare.
La figura nell’immagine qui sotto ne offre un’istantanea, anche se per apprezzarne l’interattività conviene provare l’applicazione dal vivo disponibile a questa pagina.

due su tre non per sfortuna ma per forzatura


Da La Repubblica del 2 gennaio 2015:

cortesia di crafty_dame

In molti casi ammalarsi di cancro è solo un fatto di sfortuna e non di stile di vita. […]
Due terzi dei tumori sarebbero infatti dovuti a mutazioni legate al puro caso […], piuttosto che a stili di vita sbagliati come il fumo. Solo un terzo sarebbe invece legato a fattori ambientali o predisposizioni ereditarie. In sintesi, il 66% dei tumori è pura sfortuna, ossia sembrano apparentemente incomprensibili perché si verificano in assenza di comportamenti a rischio.

Così vengono riassunti i risultati della ricerca condotta alla Johns Hopkins School of Medicine del Maryland cui negli ultimi giorni la stampa ha dato tanta eco. Tutti i siti informativi si esprimono in modo praticamente identico, riportando che due tumori su tre sarebbero da attribuire alla sfortuna. E la cosa, almeno fuori dall’Italia, ha generato non poche discussioni.

Ebola comparato

L’epidemia di Ebola è uno degli eventi che ha calamitato l’attenzione giornalistica in quest’anno. I primi casi si sono registrati nel dicembre del 2013. Oggi, a distanza di un anno, con l’attenzione dei media che sta via via scemando, il bilancio delle vittime sfiora quota 7.600.

Tra i numerosi articoli che si sono occupati dell’argomento, ne cito tre, di altrettante prestigiose testate, dove diagrammi e grafici rivestono un ruolo essenziale per mettere a confronto i numeri delle principali malattie infettive ed evidenziare le peculiarità di quella da virus Ebola, ovvero il basso livello di contagio combinato però a un alto livello di mortalità.

analisi dei commenti spam su WordPress

Nella sezione in inglese: launch of wordpress spam analytics, la descrizione di un pannello a tre sezioni che rappresentano graficamente dimensioni (provenienza, distribuzione termporale e destinazione) dei commenti spam su questo blog, interattivamente e in tempo reale.

E’ possibile accedere direttamente alla pagina del pannello all’indirizzo https://www.antoniorinaldi.it/spam-analytics/.

il paradosso di Simpson da vedere

Nella sezione in inglese: visualizing Simpson’s paradox. E’ possibile che il tasso di disoccupazione sia più basso tra i diplomati e laureati, sia nei giovani che negli anziani, e che però il tasso di disoccupazione sia più alto tra i diplomati e laureati, nella popolazione che comprende sia i giovani che gli anziani? Sì. Wikipedia cerca di spiegare questo fenomeno conosciuto come paradosso di Simpson, e nel mio articolo propongo un grafico per aiutare a capire dove sta l’apparente inghippo.