21 gen 2014

Studio sistematico dei sondaggi e regressione lineare delle coalizioni

Oggi comincio a pubblicare uno studio dei sondaggi pubblici (la mia unica e sola fonte, in quanto unica certificata, è il sito della Presidenza del Consiglio).

La tecnica che uso è la seguente:
  • segno, per ogni sondaggio, data di esecuzione (non di pubblicazione!), stime sui principali partiti al netto di astensionisti, indecisi, bianche e nulle e cardinalità del campione;
  • se un sondaggio fosse eseguito spalmato su più giorni, prendo la data finale come data indicativa;
  • se in uno stesso giorno ci fossero più sondaggi, il dato per quel giorno è rappresentato dalla media pesata [1] dei sondaggi eseguiti in quel giorno;
  • le coalizioni che considero sono quelle considerate dai principali sondaggisti: PD/all. = PD, SeL, SVP, il Megafono, Socialisti; FI/all. = FI, NCD, Lega, vari post AN (tutti insieme, ovvero La Destra + Movimento per Alleanza Nazionale), MPA e simili, etc; Centro = SC e UDC (FLI ormai non lo riportano nemmeno, immagino sia rientrato nei post AN); Rif/IdV/All quello che alle scorse si è presentato come Rivoluzione Civile; M5S va da solo;
  • messi i dati, eseguo regressione lineare; per chi può capirlo, a costo di avere maggiore incertezza, i termini di calcolo della retta non sono pesati in base alla cardinalità del campione sulla singola data.
  • dal 20 marzo in poi, la regressione lineare è pesata, e questo si dovrebbe tradurre in maggiore accuratezza, diciamo che la mia stima dell'incertezza di questo studio è 1.5% a partito.
Avviso ai naviganti: se sto facendo questa faticaccia è, oltre perché sono un fottuto nerd, per sparecchiare un po' di cazzate che circolano nel giornalismo italiano quando c'è da leggere un sondaggio. Pertanto scrivo qui alcune cose sempre valide da sapere sui sondaggi, almeno quelli fatti con crismi scientifici.
  1. i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [2];
  2. il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
  3. la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
  4. ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
  5. in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
  6. l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
  7. il modo migliore per leggere un dato affetto da incertezza è il seguente [3] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
  8. in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
  9. esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [4];
  10. i sondaggi su 800 persone hanno in genere incertezza 4.5%, quelli su 1000 persone 3.5%, quelli su 1500 persone 2.5%;
  11. facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore di 2.5%.
Data questa doverosa premessa, la situazione che viene fuori dai sondaggi dall'inizio dell'anno a oggi è quella raffigurata.




Dato che ancora si sa un cazzo di come sarà la legge elettorale, aggiungo il grafico dei 3 principali partiti.



Divertitevi.

_____________________
[1] Se nel sondaggio A, eseguito su 1000 persone, il PD è stimato a 30% e nel sondaggio B, eseguito su 800 persone, il PD è stimato a 29%, il dato del PD per quel giorno nel mio studio sarà:

30% * 1000 + 29% * 800
------------------------------------- = 29.56%
           1000 + 800

[2] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50000000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[3] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[4] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%