23 dic 2014

Studio sistematico dei sondaggi politico-elettorali e calcolo della tendenza come retta di regressione

Oggi ricomincio a pubblicare uno studio dei sondaggi pubblici (la mia unica e sola fonte, in quanto unica certificata, è il sito della Presidenza del Consiglio).

La tecnica che uso è la seguente:
  • segno, per ogni sondaggio, data di esecuzione (non di pubblicazione!), stime sui principali partiti al netto di astensionisti, indecisi, bianche e nulle e cardinalità del campione;
  • se un sondaggio fosse eseguito spalmato su più giorni, prendo la data finale come data indicativa;
  • se in uno stesso giorno ci fossero più sondaggi, il dato per quel giorno è rappresentato dalla media pesata [1] dei sondaggi eseguiti in quel giorno;
  • non considero coalizioni ma solo partiti singoli, con l'eccezione di un'ipotesi "sel+sinistre varie" sulla quale torno dopo per spiegare meglio
  • messi i dati, eseguo regressione lineare.
  • la regressione lineare è pesata, e questo si dovrebbe tradurre in maggiore accuratezza, diciamo che la mia stima dell'incertezza di questo studio è 1.5% a partito.
  • per motivi legati all'imbecillità di Excel non posso mettere ad ogni segnalino la giusta barra di errore (se qualcuno sa come fare mi scriva) per cui ci metto un valore fisso pari al 3.1%, che si può considerare come un valore mediano (corrisponde a sondaggi su 1000 persone).
Capitolo "SEL+sinistre": va da sé che non è per niente scontato che una tale coalizione avvenga; comunque la considero perché sembrerebbe che le singole liste abbiano poche speranze di essere determinanti, In ipotesi di soglia al 3% è verosimile che solo SEL o un insieme "tipo" Altra Europa possa passarlo. Comunque, le "sinistre" che considero sono: Rifondazione Comunista (maggiore dopo SEL), Verdi (anche se non credo ci stiano in realtà), e per quanto ciò mi faccia inorridire, anche IDV e Azione Civile (che tanto messi insieme se fanno lo 0.5% è tanto). Teniamo conto che questo dato è fortemente inaffidabile perché:
  • non è detto, appunto, che l'ensemble sia quello da me delineato
  • alcune volte i dati sugli altri partiti ci sono, la maggior parte si riporta il dato della sola SEL, poche volte si riporta il dato di un'ipotetico "SEL + sinistre" [2]
  • è notorio che in politica 2+2 non fa 4, ovvero se SEL da sola "prenderebbe" il 3% e RC da sola "prenderebbe" il 2%, non è affatto scontato che una lista SEL+RC "prenderebbe" il 5%; affidandoci all'esperienza, in genere prende una quantità minore o uguale, ma esistono eccezioni a ciò (lista "Uniti nell'Ulivo" nel 2006, PdL nel 2008).

Avviso ai naviganti: se sto facendo questa faticaccia è, oltre perché sono un fottuto nerd, per sparecchiare un po' di cazzate che circolano nel giornalismo italiano quando c'è da leggere un sondaggio. Pertanto scrivo qui alcune cose sempre valide da sapere sui sondaggi, almeno quelli fatti con crismi scientifici.
  1. i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [3];
  2. il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
  3. la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
  4. ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
  5. in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
  6. l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
  7. il modo migliore per leggere un dato affetto da incertezza è il seguente [4] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
  8. in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
  9. esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [5];
  10. i sondaggi su 500 persone hanno in genere incertezza 4.5%, quelli su 800 persone 3.5%, quelli su 1000 persone 3%, quelli su 1500 2.5% [6];
  11. facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore o uguale a 1.5%.
Ciò detto, ecco qua il risultato aggiornato ad oggi.



______________________________________________________________________
[1] Se nel sondaggio A, eseguito su 1000 persone, il PD è stimato a 30% e nel sondaggio B, eseguito su 800 persone, il PD è stimato a 29%, il dato del PD per quel giorno nel mio studio sarà:

30% * 1000 + 29% * 800
------------------------------------- = 29.56%
           1000 + 800

[2] Chiedere se si voterebbe un insieme SEL+sinistre non è uguale a chiedere se si vota SEL oppure RC oppure IDV etc e fare la somma
[3] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50.000.000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[4] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[5] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
[6] Coerentemente con quanto detto al punto 9. e spiegato nella nota [5], raddoppiare il campione non dimezza l'incertezza, per dimezzare l'incertezza bisogna quadruplicare il campione.