Una cosina facile facile da tenere a mente

Ogni tanto mi capita di sentire alla tv o leggere sui giornali articoli in cui si dice che nel tal paese la malattia X è del 30% superiore alla media. E ciò sarebbe la prova inconfutabile che Y causa un aumento della malattia X.

Al posto di X e Y metteteci quello che volete voi, c’è solo l’imbarazzo della scelta. C’è quello che dice che l’inceneritore causa cancro ai polmoni e ti porta come prova il fatto che nel paese dove c’è l’inceneritore il cancro ai polmoni è superiore del 30% alla media nazionale. O quello secondo cui i tralicci elettrici causano leucemie infatili, tanto che questa malattia è del 30% superiore nell’asilo vicino al traliccio. E così via…

Di solito ti portano questi dati baldanzosi, come se fosse una prova inequivocabile del nesso causa effetto. Un dato che non puoi contestare, la prova scientifica!*

Ora, lo scrivo qua una volta per tutte: dire che il tal valore è superiore dello Z % rispetto alla media NON VUOL DIRE UN CAZZO.

Prendiamo ad esempio venti numeri. Questi qui nel grafico sotto:

Questi venti numeri hanno una media pari a 10. La vedete anche disegnata in rosso.
Bene, ora prendiamo altri 20 numeri. Questi qua:

Anche questi, che ci crediate o no, hanno media pari a 10.
Già, perché i valori superiori a 10 compensano i valori inferiori a 10, in entrambi i casi.

Nel primo esempio il 9,9 compensava il 10,1 mentre nel secondo esempio il 7 compensa il 13.
Quando dai la media quindi dai solo un’informazione sul valore medio (appunto) ma non dici nulla su quanto i singoli valori si discostano dalla media che vanno a comporre.
La prova è che i due insiemi di numeri proposti hanno la stessa identica media (10) ma sono due insiemi completamente diversi.

C’è un altro valore che indica quando i singoli numeri si discostano dalla media: è la varianza (o la sua radice, la deviazione standard).

Nel primo caso la deviazione standard è 0,46, nel secondo caso è 2,55.

Ora, se dico che il numero medio di leucemie infantili  è 10 (ogni 1000 abitanti, dico un valore a caso) allora dire che nel tal paese l’incidenza è di 13 casi ogni 1000 abitanti può indicare qualcosa nel primo caso, ma è assolutamente normale nel secondo caso.
Mettiamo a confronto i grafici di prima:

Nel primo caso un valore pari a 13 è anomalo, nel secondo caso invece è normale. Penso sia visivamente intuitivo anche senza parlare di deviazione standard, no?

Quando si compara un valore con una media bisogna fornire sempre anche la deviazione standard per far capire se quel valore è anomalo o no.
In un certo senso è quello che fanno quando ti danno le analisi del sangue e ti dicono se il valore sta dento un certo intervallo. In pratica ti dicono che deve essere il valore medio più o meno tre (o due) volte la deviazione standard. Non ti dicono mica che hai il colesterolo a 160 e che la media è 180, perché se non ti danno l’intervallo di riferimenti non lo capisci mica se 160 è troppo basso o va bene.

E questo vale per qualsiasi cosa. Vale quando l’ambientalista ti sbandiera i dati, o quando il giornalista fa un’inchiesta pensando di avere prove inconfutabili che il traliccio causa la leucemia infantile (o che altro). In tutti questi casi gli si chiede gentilmente i fornire la deviazione standard di quella media.
E se non te la fornisce gli si dice che quel valore non vuol dire assolutamente nulla. Non è che dice poco: non dice proprio nulla.

Qualora insistessero ad aprire bocca vi autorizzo a dargli dell’asino con invito immediato a studiare l’abici della statistica.
(e dico l’abici perché ci sarebbero altre cose interessanti da dire).

* Piesse: qualora poi il dato fosse veramente anomalo mica vuol dire che la causa è davvero quella che decidi tu. Il nesso di causa effetto mica si prova così. Ma di questo parlo un’altra volta.

4 Comments

  1. AlesSab said:

    Ci crederai o no, ma l’altro giorno stavo pensando proprio a questo fatto in riferimento ai tassi di incidenza di alcuni tumori per chi vive vicino alle centrali nucleari.

    16 Novembre 2010
  2. Turz said:

    Ecco perché l’85% delle affermazioni riguardanti la statistica sono sbagliate 🙂

    16 Novembre 2010
  3. Manuel said:

    Altro che balle, a scuola bisogna far studiare statistica.
    A cominciare dalle elementari.

    16 Novembre 2010

Comments are closed.