La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.
NOVITÀ
Si dice spesso che dei sondaggi non bisogna tener conto come cifre assolute, ma conta la tendenza, o per chi si crede più figo il trend (parola perfettamente traducibile con "tendenza"). Ma qui entra un altro fattore di incertezza: chi è la tendenza? O meglio, quanti dati si devono tenere in conto? Quale funzione di base utilizzare per descriverla?
Qua la trama si infittisce, per cui voglio sottoporvi un esperimento: qual è la durata media della memoria degli italiani?
Per questo motivo, da oggi fino alle prossime elezioni per la Camera dei Deputati porto avanti 4 diverse stime della tendenza:
- Retta di regressione[1] (pesata dalla cardinalità del campione) con supporto "infinito", ovvero dall'inizio dello studio (Giugno 2014. dal primo sondaggio successivo alle Europee) a 15 giorni prima delle elezioni (a meno che questa assurda legge non cambi nel frattempo);
- Retta di regressione pesata con supporto pari a 1 anno;
- Retta di regressione pesata con supporto pari a 6 mesi;
- Retta di regressione pesata con supporto pari a 3 mesi.
Una volta acquisiti i dati relativi alle elezioni Politiche, andrò a calcolare l'errore quadratico medio e l'errore assoluto medio e valuterò qual è il supporto che è andato più vicino a predire la realtà.
Ovvero, stimerò la memoria degli italiani.
Andiamo dunque a vedere caso per caso.
Supporto "infinito"
In pratica è lo studio eseguito fin qui. Il grafico è il seguente:
Considerando dunque una regressione a supporto infinito, i risultati finali se si votasse domani sarebbero:
Attenzione, per ottenere queste stime ho usato molte ipotesi semplificative, su tutte quella che i dati siano indipendenti, che è sicuramente falsa, ma necessaria per poter fare una trattazione analitica.
- Destra: (31.7 ± 1.5)%
- PD: (30.5 ± 1.5)%
- M5S: (27.5 ± 1.5)%
Andando a calcolare l'integrale delle code sovrapposte delle relative gaussiane normalizzate (vedi qui) calcolo le probabilità di ballottaggio. Le probabilità delle tre possibili combinazioni sono le seguenti:
- Ballottaggio PD vs Destra: 91%
- Ballottaggio M5S vs PD: 1%
- Ballottaggio Destra vs M5S: 8%
Supporto 1 anno
Qual è la tendenza, nell'ipotesi che gli italiani abbiano una memoria pari a circa un anno? Il grafico è il seguente:
Considerando dunque una regressione a supporto 1 anno, i risultati finali se si votasse domani sarebbero:
- Destra: (30.6 ± 1.5)%
- PD: (30.4 ± 1.5)%
- M5S: (29.1 ± 1.5)%
Le probabilità delle tre possibili combinazioni sono le seguenti:
- Ballottaggio PD vs Destra: 58%
- Ballottaggio M5S vs PD: 18%
- Ballottaggio Destra vs M5S: 25%
Supporto 6 mesi
Qual è la tendenza, nell'ipotesi che gli italiani abbiano una memoria pari a circa sei mesi? Il grafico è il seguente:
Considerando dunque una regressione a supporto 6 mesi, i risultati finali se si votasse domani sarebbero:
- Destra: (30.8 ± 1.5)%
- PD: (31.4 ± 1.5)%
- M5S: (28.2 ± 1.5)%
Le probabilità delle tre possibili combinazioni sono le seguenti:
- Ballottaggio PD vs Destra: 83%
- Ballottaggio M5S vs PD: 8%
- Ballottaggio Destra vs M5S: 9%
Supporto 3 mesi
Qual è la tendenza, nell'ipotesi che gli italiani abbiano una memoria pari a circa tre mesi? Il grafico è il seguente:
Considerando dunque una regressione a supporto 3 mesi, i risultati finali se si votasse domani sarebbero:
- Destra: (31.7 ± 1.5)%
- PD: (31.5 ± 1.5)%
- M5S: (26.5 ± 1.5)%
Le probabilità delle tre possibili combinazioni sono le seguenti:
- Ballottaggio PD vs Destra: 98%
- Ballottaggio M5S vs PD: 1%
- Ballottaggio Destra vs M5S: 1%
Ho linkato il vademecum, ma ci tengo a ripeterlo ché visto che gente che dovrebbe essere giornalista continua a dire stronzate, repetita iuvant.
- i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [2];
- il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
- la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
- ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
- in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
- l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
- il modo migliore per leggere un dato affetto da incertezza è il seguente [3] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
- in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
- esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [4];
- i sondaggi su 500 persone hanno in genere incertezza 4.5%, quelli su 800 persone 3.5%, quelli su 1000 persone 3%, quelli su 1500 2.5% [5];
- facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore o uguale a 1.5%.
_________________________________________________________________________
[1] Tra le infinite funzioni di base che si possono usare scelgo la retta perché le incertezze in gioco sono talmente alte che non avrebbe senso utilizzare metodi più sopraffini.
[2] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50.000.000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[2] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50.000.000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[3] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[4] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
[5] Coerentemente con quanto detto al punto 9. e spiegato nella nota [3], raddoppiare il campione non dimezza l'incertezza, per dimezzare l'incertezza bisogna quadruplicare il campione.
Nessun commento:
Posta un commento
Libertà assoluta, anche se mi offendi al limite ti rispondo ma non ti censuro