12 feb 2016

I sondaggi e la memoria degli italiani: uno studio di caso (2).

Pubblico l'aggiornamento periodico (sto cercando di avere cadenza circa mensile) del mio studio sistematico dei sondaggi.

La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.

Visto che la legge elettorale prevede il ballottaggio tra le prime due liste, voglio azzardare una nuova stima: le probabilità di ballottaggio. La tecnica di stima la trovate qui.

NOVITÀ

Si dice spesso che dei sondaggi non bisogna tener conto come cifre assolute, ma conta la tendenza, o per chi si crede più figo il trend (parola perfettamente traducibile con "tendenza"). Ma qui entra un altro fattore di incertezza: chi è la tendenza? O meglio, quanti dati si devono tenere in conto? Quale funzione di base utilizzare per descriverla?

Qua la trama si infittisce, per cui voglio sottoporvi un esperimento: qual è la durata media della memoria degli italiani
Per questo motivo, da oggi fino alle prossime elezioni per la Camera dei Deputati porto avanti 4 diverse stime della tendenza:
  1. Retta di regressione[1] (pesata dalla cardinalità del campione) con supporto "infinito", ovvero dall'inizio dello studio (Giugno 2014. dal primo sondaggio successivo alle Europee) a 15 giorni prima delle elezioni (a meno che questa assurda legge non cambi nel frattempo);
  2. Retta di regressione pesata con supporto pari a 1 anno;
  3. Retta di regressione pesata con supporto pari a 6 mesi;
  4. Retta di regressione pesata con supporto pari a 3 mesi.
Una volta acquisiti i dati relativi alle elezioni Politiche, andrò a calcolare l'errore quadratico medio e l'errore assoluto medio e valuterò qual è il supporto che è andato più vicino a predire la realtà.

Ovvero, stimerò la memoria degli italiani.

Andiamo dunque a vedere caso per caso.

Supporto "infinito"

In pratica è lo studio eseguito fin qui. Il grafico è il seguente:





Considerando dunque una regressione a supporto infinito, i risultati finali se si votasse domani sarebbero:
  • Destra: (31.6 ± 1.5)%
  • PD: (30.7 ± 1.5)%
  • M5S: (27.3 ± 1.5)%
Andando a calcolare l'integrale delle code sovrapposte delle relative gaussiane normalizzate (vedi qui) calcolo le probabilità di ballottaggio. Le probabilità delle tre possibili combinazioni sono le seguenti:

  • Ballottaggio PD vs Destra: 92.4%
  • Ballottaggio M5S vs PD: 1.3%
  • Ballottaggio Destra vs M5S: 6.2%
Attenzione, per ottenere queste stime ho usato molte ipotesi semplificative, su tutte quella che i dati siano indipendenti, che è sicuramente falsa, ma necessaria per poter fare una trattazione analitica.

Supporto 1 anno

Qual è la tendenza, nell'ipotesi che gli italiani abbiano una memoria pari a circa un anno? Il grafico è il seguente:




Considerando dunque una regressione a supporto 1 anno, i risultati finali se si votasse domani sarebbero:
  • Destra: (30.6 ± 1.5)%
  • PD: (30.6 ± 1.5)%
  • M5S: (28.6 ± 1.5)%
Le probabilità delle tre possibili combinazioni sono le seguenti:

  • Ballottaggio PD vs Destra: 67.4%
  • Ballottaggio M5S vs PD: 13.9%
  • Ballottaggio Destra vs M5S: 18.6%

Supporto 6 mesi

Qual è la tendenza, nell'ipotesi che gli italiani abbiano una memoria pari a circa sei mesi? Il grafico è il seguente:




Considerando dunque una regressione a supporto 6 mesi, i risultati finali se si votasse domani sarebbero:
  • Destra: (30.9 ± 1.5)%
  • PD: (31.7 ± 1.5)%
  • M5S: (27.4 ± 1.5)%
Le probabilità delle tre possibili combinazioni sono le seguenti:

  • Ballottaggio PD vs Destra: 92.6%
  • Ballottaggio M5S vs PD: 3.6%
  • Ballottaggio Destra vs M5S: 3.9%

Supporto 3 mesi

Qual è la tendenza, nell'ipotesi che gli italiani abbiano una memoria pari a circa tre mesi? Il grafico è il seguente:




Considerando dunque una regressione a supporto 3 mesi, i risultati finali se si votasse domani sarebbero:
  • Destra: (31.5 ± 1.5)%
  • PD: (32.0 ± 1.5)%
  • M5S: (25.6 ± 1.5)%
Le probabilità delle tre possibili combinazioni sono le seguenti:

  • Ballottaggio PD vs Destra: 99.5%
  • Ballottaggio M5S vs PD: 0.3%
  • Ballottaggio Destra vs M5S: 0.2%

Ho linkato il vademecum, ma ci tengo a ripeterlo ché visto che gente che dovrebbe essere giornalista continua a dire stronzate, repetita iuvant.

Avviso ai naviganti: se sto facendo questa faticaccia è, oltre perché sono un fottuto nerd, per sparecchiare un po' di cazzate che circolano nel giornalismo italiano quando c'è da leggere un sondaggio. Pertanto scrivo qui alcune cose sempre valide da sapere sui sondaggi, almeno quelli fatti con crismi scientifici.
  1. i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [2];
  2. il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
  3. la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
  4. ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
  5. in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
  6. l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
  7. il modo migliore per leggere un dato affetto da incertezza è il seguente [3] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
  8. in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
  9. esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [4];
  10. i sondaggi su 500 persone hanno in genere incertezza 4.5%, quelli su 800 persone 3.5%, quelli su 1000 persone 3%, quelli su 1500 2.5% [5];
  11. facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore o uguale a 1.5%.

_________________________________________________________________________


[1] Tra le infinite funzioni di base che si possono usare scelgo la retta perché le incertezze in gioco sono talmente alte che non avrebbe senso utilizzare metodi più sopraffini.
[2] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50.000.000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[3] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[4] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
[5] Coerentemente con quanto detto al punto 9. e spiegato nella nota [3], raddoppiare il campione non dimezza l'incertezza, per dimezzare l'incertezza bisogna quadruplicare il campione.