Sveins blogg: Statistikk

Etter eit 3-dagars kurs i statistikk på Høgskulen i Sogn og Fjordane (med dyktige kurshaldarar!) er det på sin plass å gå tilbake i historia til eit av dei mest spektakulære statistiske bomskota nokon gong: presidentvalet i USA i 1936.

The Literary Digest hadde køyrt spørjeundersøkingar ved kvart presidentval frå 1920 og kvar gong spådd den rette vinnaren. I 1936 var spørjeundersøkinga større enn nokon gong. 10 millionar personar (!) vart trekte ut og fekk tilsendt eit spørsjeskjema, eller rettare sagt eit kort. 2,3 millionar av desse svarte og Literary Digest utropte Alfred Landon som USAs neste president med klar margin.

Slik gjekk det sjølvsagt ikkje; Theodore Roosevelt vann med solid margin (61 % av stemmene). Spørsmålet vart då: Korleis kunne tidsskriftet bomma så til dei grader?

I ettertid har feilen vorte forklart med skeivt utval ved at lister over bileigarar og telefonkatalogar vart brukte som grunnlag for trekkinga. Eit grunnleggjande krav i statistisk samanheng er at utvalet er tilfeldig trekt. Alle må ha same sjanse for å bli trekt ut, elles vil ikkje statistisk sannsynlegheit gjelda. Parallelt med undersøkinga frå Literary Digest, gjorde George Gallup (yes, "gallupens" far) ei mykje mindre undersøking, men basert på metodar som no er allmenne i statistikk-samanheng. Han spådde at Roosevelt ville vinna.

Peverill Squire konkluderer i ein artikkel at det ikkje var utvalet åleine som var årsaka til feilen. Artikkelen tek utgangspunkt i ei undersøking George Gallup gjorde i 1937 for å finna ut kva som gjekk gale i den store 1936-undersøkinga. Gallup spurde folk om dei hadde motteke spørjeundersøking frå Literary Digest, om dei bil eller telefon, om dei hadde returnert spørjeskjemaet og kva dei hadde stemt. Gallup si undersøking viser at eit fleirtal av dei som returnerte skjemaet, stemde Landon, og at korvidt dei eigde bil eller telefon ikkje var like avgjerande. Pervill Squire konkluderer dermed med at fråfallsskeivheit var minst like viktig som utvalsskeivheit i den berømte undersøkinga.

I spørjeundersøkingar har vi tre grunnleggjande feilkjelder, eller skeivfordelingar:

Utvalsskeivheit: at utvalet ikkje er identisk med heile populasjonen
Fråfallsskeivheit: at det ikkje er tilfeldig kven som svarar og kven som ikkje svarar på spørjeundersøkingar
Responsfeil: at respondentane svarar feil på spørsmål og feil ved seinare inntasting av svar frå papir- eller telefonbaserte undersøkingar

I den berømte 1936-undersøkinga var det altså dei to første som førte til den katastrofale bommen. Særleg viktig var fråfallsskeivheita fordi svarprosenten var relativt låg (mellom 20 og 25 %) og fordi det viste seg at det ikkje var tilfeldig kven som svarte. Undersøkinga var katastrofal fordi Literary Digest gjekk inn i 1938, mykje på grunn av 1936-undersøkinga.

Etter denne undersøkinga vart det vist at eit utval på knappe 1000 personar er nok til å fastslå eit slikt spørsmål gitt at utvalet er tilfeldig trekt. Om vi ikkje skal dela utvalet vårt inn i mindre grupper, held det faktisk med i overkant av 100!

Sveins blogg

søndag 25. mai 2008

Statistikk

Ingen kommentarer:

Legg inn en kommentar