La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.
Dato che la serie temporale inizia ad essere lunghetta, metto anche due zoom sugli ultimi tempi.
Questa immagine è relativa a tutto il periodo di osservazione, i.e. dal primo sondaggio successivo alle Europee di maggio 2014.
Questa invece zoomma sul periodo dal 1° gennaio 2015 ad oggi.
Infine, zoom sul periodo dal 1° marzo ad oggi.
Ho linkato il vademecum, ma ci tengo a ripeterlo ché visto che gente che dovrebbe essere giornalista continua a dire stronzate, repetita iuvant.
- i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [1];
- il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
- la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
- ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
- in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
- l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
- il modo migliore per leggere un dato affetto da incertezza è il seguente [2] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
- in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
- esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [3];
- i sondaggi su 500 persone hanno in genere incertezza 4.5%, quelli su 800 persone 3.5%, quelli su 1000 persone 3%, quelli su 1500 2.5% [4];
- facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore o uguale a 1.5%.
_________________________________________________________________________
[1] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50.000.000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[2] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[3] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
[4] Coerentemente con quanto detto al punto 9. e spiegato nella nota [3], raddoppiare il campione non dimezza l'incertezza, per dimezzare l'incertezza bisogna quadruplicare il campione.
[2] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[3] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
[4] Coerentemente con quanto detto al punto 9. e spiegato nella nota [3], raddoppiare il campione non dimezza l'incertezza, per dimezzare l'incertezza bisogna quadruplicare il campione.