29 dic 2015

Studio sistematico dei sondaggi: aggiornamento di fine anno

A grande richiesta (di chi???) pubblico l'aggiornamento del mio studio sitematico dei sondaggi.

La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.

Dato che la serie temporale inizia ad essere lunghetta, metto anche qualche zoom sugli ultimi tempi.
Inoltre, sempre tenendo conto che in politica 2+2 a volte fa 3, altre fa 5, e visto che la destra ha trovato (no, chi l'avrebbe mai detto? Ricordate quando Salvini e Meloni infamavano Berlusconi e Forza Italia?) un "accordo", aggiungo il listone Forza Italia + Lega Nord + Fratelli d'Italia.




Questa immagine è relativa a tutto il periodo di osservazione, i.e. dal primo sondaggio successivo alle Europee di maggio 2014.




Questa invece zoomma sugli ultimi 12 mesi




Ultimi 6 mesi




Ultimi 3 mesi




Ultimo mese

NOVITÀ

Visto che la legge elettorale prevede il ballottaggio tra le prime due liste, voglio azzardare una nuova stima: le probabilità di ballottaggio.
Sperando che lo spirito del Teorema del Limite Centrale mi accompagni, considero come stime finali delle percentuali che le liste maggiori (PDDestraM5S) prenderebbero se si votasse domani l'ultimo valore della retta di regressione. Ipotizzo poi che tale stima sia una variabile aleatoria distribuita secondo distribuzione normale a media pari a tale valore e deviazione standard pari all'incertezza a priori che dichiaro, ovvero ±1.5%. Si otterrebbe dunque come stime finali:

  • Destra: (31.5 ± 1.5)%
  • PD: (30.9 ± 1.5)%
  • M5S: (27.1 ± 1.5)%
Andando a calcolare l'integrale delle code sovrapposte delle relative gaussiane normalizzate (vedi qui) calcolo le probabilità di ballottaggio.

ATTENZIONE!

Che cos'è una probabilità? È un numero compreso tra 0 e 1 che dice che se si fanno tanti tanti tanti esperimenti indipendenti, i risultati saranno abbastanza allineati alle percentuali. Nel singolo esperimento, però, può succedere di tutto [5].
Ciò detto, le probabilità delle tre possibili combinazioni sono le seguenti:

  • Ballottaggio PD vs Destra: 97.34%
  • Ballottaggio M5S vs PD: 0.58%
  • Ballottaggio Destra vs M5S: 2.08%
Ricordo che comunque il dato della Destra potrebbe essere mal stimato perché i voti che prende una lista composita raramente è pari alla somma dei componenti presi singolarmente.

Ho calcolato, per completezza, la probabilità che una di queste tre liste superi il 40% e dunque non ci sia ballottaggio: la probabilità totale che non ci sia ballottaggio è dell'ordine di 10^-80, ovvero non nulla ma assolutamente trascurabile.


30 nov 2015

Studio sistematico dei sondaggi, aggiornamento 30 novembre 2015

A grande richiesta (di chi???) pubblico l'aggiornamento del mio studio sitematico dei sondaggi.

La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.

Dato che la serie temporale inizia ad essere lunghetta, metto anche qualche zoom sugli ultimi tempi.
Inoltre, sempre tenendo conto che in politica 2+2 a volte fa 3, altre fa 5, e visto che la destra ha trovato (no, chi l'avrebbe mai detto? Ricordate quando Salvini e Meloni infamavano Berlusconi e Forza Italia?) un "accordo", aggiungo il listone Forza Italia + Lega Nord + Fratelli d'Italia.



Questa immagine è relativa a tutto il periodo di osservazione, i.e. dal primo sondaggio successivo alle Europee di maggio 2014.




Questa invece zoomma sugli ultimi 12 mesi




Ultimi 6 mesi




Ultimi 3 mesi




Ultimo mese

NOVITÀ

Visto che la legge elettorale prevede il ballottaggio tra le prime due liste, voglio azzardare una nuova stima: le probabilità di ballottaggio.
Sperando che lo spirito del Teorema del Limite Centrale mi accompagni, considero come stime finali delle percentuali che le liste maggiori (PD, Destra, M5S) prenderebbero se si votasse domani l'ultimo valore della retta di regressione. Ipotizzo poi che tale stima sia una variabile aleatoria distribuita secondo distribuzione normale a media pari a tale valore e deviazione standard pari all'incertezza a priori che dichiaro, ovvero ±1.5%. Si otterrebbe dunque come stime finali:

  • Destra: (31.3 ± 1.5)%
  • PD: (31.7 ± 1.5)%
  • M5S: (25.9 ± 1.5)%
Andando a calcolare l'integrale delle code sovrapposte delle relative gaussiane normalizzate (vedi qui) calcolo le probabilità di ballottaggio.

ATTENZIONE!

Che cos'è una probabilità? È un numero compreso tra 0 e 1 che dice che se si fanno tanti tanti tanti esperimenti indipendenti, i risultati saranno abbastanza allineati alle percentuali. Nel singolo esperimento, però, può succedere di tutto [5].
Ciò detto, le probabilità delle tre possibili combinazioni sono le seguenti:

  • Ballottaggio PD vs Destra: 99.91%
  • Ballottaggio M5S vs PD: 0.07%
  • Ballottaggio Destra vs M5S: 0.02%
Ricordo che comunque il dato della Destra potrebbe essere mal stimato perché i voti che prende una lista composita raramente è pari alla somma dei componenti presi singolarmente.

Ho calcolato, per completezza, la probabilità che una di queste tre liste superi il 40% e dunque non ci sia ballottaggio: la probabilità totale che non ci sia ballottaggio è dell'ordine di 10^-79, ovvero non nulla ma assolutamente trascurabile.

ANCORA PIÙ NOVITÀ

Purtroppo solo un sondaggista ha avuto una buona idea: chiedere agli intervistati chi voterebbero se la lista che rappresenta la loro prima scelta non fosse al ballottaggio (Ipsos per Corriere della Sera). Dal mio punto di vista poche sorprese, prima tra tutte la mutua assistenza Lega Nord - Movimento 5 Stelle:



In alto la scelta nel caso di ballottaggio PD - Destra, in basso il caso di ballottaggio PD - M5S.



5 nov 2015

Studio sistematico dei sondaggi, aggiornamento 5 novembre 2015

A grande richiesta (di chi???) pubblico l'aggiornamento del mio studio sitematico dei sondaggi.

La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.

Dato che la serie temporale inizia ad essere lunghetta, metto anche qualche zoom sugli ultimi tempi.
Inoltre, sempre tenendo conto che in politica 2+2 a volte fa 3, altre fa 5, e visto che la destra ha trovato (no, chi l'avrebbe mai detto? Ricordate quando Salvini e Meloni infamavano Berlusconi e Forza Italia?) un "accordo", aggiungo il listone Forza Italia + Lega Nord + Fratelli d'Italia.




Questa immagine è relativa a tutto il periodo di osservazione, i.e. dal primo sondaggio successivo alle Europee di maggio 2014.



Questa invece zoomma sugli ultimi 12 mesi




Ultimi 6 mesi



Ultimi 3 mesi



Ultimo mese

NOVITÀ

Visto che la legge elettorale prevede il ballottaggio tra le prime due liste, voglio azzardare una nuova stima: le probabilità di ballottaggio.
Sperando che lo spirito del Teorema del Limite Centrale mi accompagni, considero come stime finali delle percentuali che le liste maggiori (PD, Destra, M5S) prenderebbero se si votasse domani l'ultimo valore della retta di regressione. Ipotizzo poi che tale stima sia una variabile aleatoria distribuita secondo distribuzione normale a media pari a tale valore e devizaione standard pari all'incertezza a priori che dichiaro, ovvero ±1.5%. Si otterrebbe dunque come stime finali:

  • Destra: (32.2 ± 1.5)%
  • PD: (30.5 ± 1.5)%
  • M5S: (26.4 ± 1.5)%
Andando a calcolare l'integrale delle code sovrapposte delle relative gaussiane normalizzate (vedi qui) calcolo le probabilità di ballottaggio.

ATTENZIONE!

Che cos'è una probabilità? È un numero compreso tra 0 e 1 che dice che se si fanno tanti tanti tanti esperimenti indipendenti, i risultati saranno abbastanza allineati alle percentuali. Nel singolo esperimento, però, può succedere di tutto [5].
Ciò detto, le probabilità delle tre possibili combinazioni sono le seguenti:

  • Ballottaggio PD vs Destra: 98.64%
  • Ballottaggio M5S vs Destra: 1.34%
  • Ballottaggio PD vs M5S: 0.02%
Ricordo che comunque il dato della Destra potrebbe essere mal stimato perché i voti che prende una lista composita raramente è pari alla somma dei componenti presi singolarmente.

Ho calcolato, per completezza, la probabilità che una di queste tre liste superi il 40% e dunque non ci sia ballottaggio: la probabilità totale che non ci sia ballottaggio è dell'ordine di 10^-74, ovvero non nulla ma assolutamente trascurabile.


Ho linkato il vademecum, ma ci tengo a ripeterlo ché visto che gente che dovrebbe essere giornalista continua a dire stronzate, repetita iuvant.

Avviso ai naviganti: se sto facendo questa faticaccia è, oltre perché sono un fottuto nerd, per sparecchiare un po' di cazzate che circolano nel giornalismo italiano quando c'è da leggere un sondaggio. Pertanto scrivo qui alcune cose sempre valide da sapere sui sondaggi, almeno quelli fatti con crismi scientifici.
  1. i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [1];
  2. il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
  3. la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
  4. ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
  5. in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
  6. l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
  7. il modo migliore per leggere un dato affetto da incertezza è il seguente [2] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
  8. in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
  9. esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [3];
  10. i sondaggi su 500 persone hanno in genere incertezza 4.5%, quelli su 800 persone 3.5%, quelli su 1000 persone 3%, quelli su 1500 2.5% [4];
  11. facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore o uguale a 1.5%.

_________________________________________________________________________
[1] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50.000.000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[2] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[3] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
[4] Coerentemente con quanto detto al punto 9. e spiegato nella nota [3], raddoppiare il campione non dimezza l'incertezza, per dimezzare l'incertezza bisogna quadruplicare il campione.
[5] Se non ci credete, provate a lanciare un dado 6 volte, Difficilmente verrà una volta 1, una volta 2, una volta 3, una volta 4, una volta 5 e un volta 6 come la probabilità (1/6 per ogni numero) vorrebbe. Provate a lanciarlo 500 volte, e i numeri usciranno circa 1/6 delle volte (altrimenti il dado è truccato!).

16 set 2015

Studio sistematico dei sondaggi, aggiornamento 16 settembre 2015

A grande richiesta (di chi???) pubblico l'aggiornamento del mio studio sitematico dei sondaggi.

La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.

Dato che la serie temporale inizia ad essere lunghetta, metto anche qualche zoom sugli ultimi tempi; inoltre, sempre tenendo conto che in politica 2+2 a volte fa 3, altre fa 5, aggiungo un'ipotetica (ma neanche tanto) lista unica Forza Italia + Lega.


Questa immagine è relativa a tutto il periodo di osservazione, i.e. dal primo sondaggio successivo alle Europee di maggio 2014.



Questa invece zoomma sugli ultimi 12 mesi




Ultimi 6 mesi



Ultimi 3 mesi



Ultimo mese

Ho linkato il vademecum, ma ci tengo a ripeterlo ché visto che gente che dovrebbe essere giornalista continua a dire stronzate, repetita iuvant.

Avviso ai naviganti: se sto facendo questa faticaccia è, oltre perché sono un fottuto nerd, per sparecchiare un po' di cazzate che circolano nel giornalismo italiano quando c'è da leggere un sondaggio. Pertanto scrivo qui alcune cose sempre valide da sapere sui sondaggi, almeno quelli fatti con crismi scientifici.
  1. i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [1];
  2. il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
  3. la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
  4. ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
  5. in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
  6. l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
  7. il modo migliore per leggere un dato affetto da incertezza è il seguente [2] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
  8. in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
  9. esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [3];
  10. i sondaggi su 500 persone hanno in genere incertezza 4.5%, quelli su 800 persone 3.5%, quelli su 1000 persone 3%, quelli su 1500 2.5% [4];
  11. facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore o uguale a 1.5%.

_________________________________________________________________________
[1] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50.000.000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[2] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[3] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
[4] Coerentemente con quanto detto al punto 9. e spiegato nella nota [3], raddoppiare il campione non dimezza l'incertezza, per dimezzare l'incertezza bisogna quadruplicare il campione.

13 lug 2015

L'Esperanto naturale

Ricordate l'esperanto?
Ovviamente, ed ovviamente a  posteriori, non poteva funzionare. Le lingue non si scrivono a tavolino. Le lingue sono in continua evoluzione, sono materia viva, sono a un tempo significante e significato per certi versi.

Ieri ho ripensato all'esperanto.

Mi trovavo con moglie e figlia da amici in un paesino di collina alle pendici dell'Abetone. Insomma, non esattamente un porto di mare, una grande città, un meltin' pot alla niuiorchese, o anche meno alla fiorentina.

In paese teneva banco la vicenda di un bracciante albanese sparito per tre giorni e ricomparso in paese proprio quel giorno. Il bello dei paeselli, a 3 metri di distanza c'erano il datore di lavoro e i familiari del bracciante. Uno si lamentava ovviamente con un amico, gli altri altrettanto ovviamente facevano un mega cazziatone al suddetto bracciante. Il primo parlava vernacolo locale, i secondi albanese. Eppure, in un discorso come nell'altro entravano ogni tanto termini diversi, provenienti dall'inglese, dall'italiano, dal francese.

Poi il gran bel pomeriggio a casa dei miei amici, un siciliano sposato con una sarda. I bambini che mangiano pane carasau e nutella. Il figlio dei padroni di casa che parla italiano con intromissioni sarde, siciliane, inglesi, nostra figlia che impara subito le 2 3 parole sarde dall'amichetto, e già parla mezzo italiano mezzo leccese con inserimenti inglesi, francesi, spagnoli e... napoletani (ho il vizio di dire "ja' va bbuono" anche se non sono napoletano, e lei mi imita come normale che sia).

Eccolo, l'esperanto. Ecco il futuro. Un diverso esperanto per ogni casa, per ogni discussione, per ogni situazione. Certo, per le cose importanti sarà sempre necessario prevedere la scrittura in più lingue separatemente e tradurre in quelle mancanti, o fornire a chiunque i mezzi (non irraggiungibili) per la traduzione automatica. L'errore dei teorizzatori dell'Esperanto fu quello di voler precorrere la natura. Sì, la Natura, perché sebbene ci crediamo Dio e dunque altro dal Creato (sono agnostico, capite il senso in cui lo dico) siamo invece parte di Gaia come le rocce, i gas, gli animali etc etc. E anche noi seguiamo le leggi della Natura (ovvero della Fisica). E che cose diverse poste a contatto prima o poi tendano ad uno stato globale di equilibrio (con diverse accezioni locali) è dimostrato.

L'Esperanto esiste, è in fieri. Cento anni e sarà completo, ma vario. E sento ancora gente che si oppone alla Federazione Europea per il futile motivo delle lingue diverse.

Guradiamo al futuro, ché dal passato (recente e non) dell'Europa si impara quasi solo a fareci la guerra.

5 mag 2015

Italicum, è legge

Sulla legge elettorale pare quasi (concedetemela, potrebbe non succedere più) che Renzi abbia letto questo. Scherzi a parte, lì, in un vecchio post sta il motivo per cui mi soddisfa l'Italicum. A parte il nome orrendo.
Rimane quello che c'è scritto, il cuore batte per gli uninominali. Ma poteva andare peggio. Il modo è stato brutto da più parti,  ma mi sono sentito come Staino (il che verosimilmente mi ricorda che sto invecchiando).
E anzi, rispetto a quel post il premio a liste e non a coalizioni è un decisivo miglioramento. I cespugli, se vogliono  (legittimamente) mantenere la propria sovranità, di fatto devono rinunciare a governare o collaborare (perché comunque 340 non sono tanti, con 25-30 dissidenti/assenti cade un governo, un partito piccolo può tornare utile, in generale, come principio) senza poter però ricattare.
Se si vuol fare una cosa fatta bene, il Senato deve avere dei contrappesi a questo quasi Premierato/Cancellierato/Cosa italiana (un po' sindaco d'Italia, in effetti).
Che piaccia, come principio, il proporzionale, che da un certo punto di vista appare molto democratico (io lo trovo centralista, però) va bene. Del resto a me piace il maggioritario dei collegi uninominali perché c'è stretto rapporto eletto-elettore. Però nessun proporzionalista rompa le scatole su accordi tra forze estremamente diverse. La Prima Repubblica, non l'ho mai nascosto, mi pare tutto sommato migliore - in qualità della politica - della Seconda, comprendo chi la rimpiange. Perché a quel punto si fa il parlamentarismo puro e al governo deve starci il 51%. Uguale dicasi per l'adagio sui governi eletti dal popolo in barba alla Costituzione.
Onestamente, la battaglia intrapresa dalle minoranze congressuali è stata futile e per me condotta sul terreno sbagliato. Sentire altri che come me vorrebbero l'uninominale chiedere le preferenze, contro cui ci siamo battuti per una vita, solo perché c'è questo trend del Senato dei nominati, della Camera dei nominati...mi ha rotto i coglioni. Sbagliato perché su un argomento lontano dall'uomo della strada, che può infiammare solo pasdaran. Un momento identitario. Bah.
Per fortuna di Renzi, per l'n-sima volta Grillo lo aiuta con l'Aventino più idiota che si possa vedere (come se quello serio avesse funzionato, peraltro).
Forza Italia è puro genio di schizofrenia. Senza Forza Italia, l'Italicum sarebbe piantato al Senato in mano a Finocchiaro, in commissione. Poi vota le pregiudiziali di costituzionalità, urla al fascismo altrui e si aventinizza col Movimento 5 Stelle (la politica crea strani compagni di letto). Il bomba libera tutti è un evento termodinamicamente irreversibile, al voto segreto un tot avrebbe votato (coerentemente!) sì e ci sarebbero stati transfughi da un lato (Ncd) o dall'altro (Lega più che Fdi, il senso discreto della poltrona col 15% dei sondaggi vs il discreto 4 di Fdi).
La Lega fa cose a caso, un po' guarda che fa Fdi e parla di Rom e extracomunitari, un po' allo svuotamento di Forza Italia e parla di flat tax, un po' Ai no €, etc etc.
Sel dà tutta l'impressione di non averci capito un cazzo, e probabilmente ciò è vero. Aspetta supinamente di suicidarsi nella cosa sociale di Landini. Che comunque spero ancora venga su bene.
La conclusione è che nella terra dei ciechi, l'orbo d'un occhio è re.

17 apr 2015

Studio sistematico dei sondaggi politico-elettorali, aggiornamento 17/apr/2015

Scusate la mancanza, checché ne dicano vari pentastellati e no euro, non mi paga nessuno per fare questo lavoraccio.

La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.

Dato che la serie temporale inizia ad essere lunghetta, metto anche due zoom sugli ultimi tempi.



Questa immagine è relativa a tutto il periodo di osservazione, i.e. dal primo sondaggio successivo alle Europee di maggio 2014.


Questa invece zoomma sul periodo dal 1° gennaio 2015 ad oggi.


Infine, zoom sul periodo dal 1° marzo ad oggi.

Ho linkato il vademecum, ma ci tengo a ripeterlo ché visto che gente che dovrebbe essere giornalista continua a dire stronzate, repetita iuvant.

Avviso ai naviganti: se sto facendo questa faticaccia è, oltre perché sono un fottuto nerd, per sparecchiare un po' di cazzate che circolano nel giornalismo italiano quando c'è da leggere un sondaggio. Pertanto scrivo qui alcune cose sempre valide da sapere sui sondaggi, almeno quelli fatti con crismi scientifici.
  1. i sondaggi sono stime eseguite su un sottoinsieme molto piccolo (in genere 800 o 1000 unità, raramente 1500) della popolazione [1];
  2. il campione non è scelto a cazzo di cane, ma è scelto con opportune e scientifiche tecniche di dimostrata validità che sono riportate quando si scarica il sondaggio dal sito;
  3. la gente ha da fare e non è ben disposta a rispondere alle domande perdendo mezz'ora di vita, per cui è normale che per avere 1000 risposte servano 5000-6000 tentativi;
  4. ogni sondaggista ha dei "numeri magici" con cui corregge la stima, e a volte li usa per portare acqua al suo mulino, altre per migliorare le stime; ma prendendo sondaggi da tutte le fonti dal TgCom a Ballarò la cosa si compensa;
  5. in quanto stime, i sondaggi sono endemicamente ed ineliminabilmente affetti da incertezza;
  6. l'incertezza è una stima a priori dell'errore commesso ed è a sua volta una stima affetta da incertezza, ma non è fatta alla cazzo di cane ma anche questa calcolata con tecniche di provata validità scientifica;
  7. il modo migliore per leggere un dato affetto da incertezza è il seguente [2] : se in un sondaggio a incertezza 3.5% il PD è dato al 30%, significa che c'è una probabilità pari al 95% che il dato reale del PD sia tra 30% + 3.5% e 30% - 3.5%;
  8. in conseguenza, quando un giornalista coglione, ignorante o in mala fede dice cose tipo "il PD prende, rispetto alla precedente rilevazione, uno +0.3%" sta dicendo una cosa che è scientificamente una cazzata, mentre la dizione sensata in un caso del genere sarebbe "il dato del PD è compatibile con quello della precedente rilevazione";
  9. esiste una legge matematica per cui, avendo N rilevazioni indipendenti, l'incertezza diminuisce come la radice quadrata di N [3];
  10. i sondaggi su 500 persone hanno in genere incertezza 4.5%, quelli su 800 persone 3.5%, quelli su 1000 persone 3%, quelli su 1500 2.5% [4];
  11. facendo la regressione lineare dovrebbe diminuire l'incertezza, ma non conoscendo quanto siano indipendenti i campioni dei vari sondaggi, non mi arrischio a fare a mia volta una stima di incertezza, tuttavia quest'incertezza è certamente minore o uguale a 1.5%.

_________________________________________________________________________
[1] "Popolazione" è un termine tecnico della statistica, nel nostro caso si intendono i circa 50.000.000 di cittadini maggiorenni in possesso dei diritti politici attivi.
[2] Questo modo non è sempre valido, ha delle ipotesi alla base, ma non voglio fare lezioni di statistica che tra l'altro non sarei in grado di fare.
[3] Cioè se ho 16 sondaggi a incertezza 3.5%, combinando i dati e supponendo che siano indipendenti potrei stimare l'incertezza finale in 3.5%/4=0.88%
[4] Coerentemente con quanto detto al punto 9. e spiegato nella nota [3], raddoppiare il campione non dimezza l'incertezza, per dimezzare l'incertezza bisogna quadruplicare il campione.


21 gen 2015

Studio sistematico dei sondaggi politico-elettorali, aggiornamento 21/gen/2015

La descrizione della tecnica e soprattutto il vademecum alla lettura dei sondaggi li trovate qui.

Niente di nuovo, è diventato visibile l'istante in cui la Lega raggiunge Forza Italia.