Statistiske overvejelser og mulige veje for uddybelse.

 

 

Stikprøve:

Hvis ikke man skulle have en stikprøve, men i stedet faktisk så hele populationen - så er det faktisk fuldstændigt irrelevant at bruge statistiske test! Det giver fx ikke mening, at teste om resultatet af to folketingsvalg er signifikant forskellige. Det enten er de – eller også er de ikke. Kun hvis man opfatter de afgivne stemmer som en  stikprøve ud af den hele stemmeberettigede population giver testteorien mening. Så bliver den til gengæld svær - for så skal der korrigeres fordi man har en meget stor stikprøve i forhold til populationen!

Sandsynlighed:

Hvad er en sandsynlighed? Frekvensbaseret? Subjektiv? Aksiomatisk. Emnet rummer mange spændende perspektiver. Bayesianske net og ekspert systemer kræver fx som regel den bayesianske synsvinkel med subjektive sandsynligheder. Såvel historiske som filosofiske spørgsmål kan inddrages. Og emnet kan behandles som streng matematisk disciplin.

 

Tilfældig udvælgelse:

Stikprøveudvælgelse vil næsten sikkert komme på bordet i et undervisningsforløb.

Simpel tilfældig udvælgelse - som er den nemmeste at regne på bagefter.

Stratificeret udvælgelse – som bruges til at sikre elementer fra hele populationen. Den tilfældige variation gøres mindre – men beregningerne bliver mere komplicerede.

Klyngeudvælgelse – som bruges for at spare omkostninger i dataindsamlingsfasen – kræver også justeringer af beregninger og forhåndskendskab til problemstillingen.

Belejlighedsudvælgelse – bruges ofte. Nemt og billigt at indsamle. Ubrugeligt at analysere.

Emnet vil nok være tungt og for tidskrævende at gå ind i vedr. de beregningsmæssige metoder.

 

 

Uafhængighed:

Nemt nok at håndtere på basal sandsynlighedsregnings niveau, hvor A og B er uafhængige hændelser. Noget sværere logisk, hvis man fx skal kunne snakke om Simpsons paradox i dette regi.

Så skal man have introduceret stokastiske variable og uafhængighed af disse. Dette er også logisk svære øvelser – specielt med mere end to variable.

 

 

Signifikant forskel:

Man kan eventuelt underbygge forståelsen af, at de statistiske test sammenligner den systematiske med den tilfældige variation ved at studere flere simple test, som fx test for middelværdi, test for andel, eller test i lineær regression

 

En teststørrelse:

Formel set er en teststørrelse en funktion af ens data, hvis fordeling er kendt, under den specificerede nulhypotese. Ved parametriske test er det som regel en funktion af data og parameteren.

 

Stokastisk variabel og dens fordeling:

Introduktion til diskrete og kontinuerte stokastiske variable, deres fordelingsfunktion, sandsynligheds- og tæthedsfunktioner. Emnet vil naturligt dukke op som disciplin, hvis man fx skal snakke om test for fordeling. En rigtig forklaring på, hvad det vil sige at en teststørrelse er approximativt fordelt som … kræver også denne omvej.

 

Fisher’s eksakte test:

I 2*2 tabeller behøver man ikke approximere til χ2- fordelingen. Man kan bruge Fisher’s eksakte test:

http://en.wikipedia.org/wiki/Fisher's_exact_test

 

De simuleringer, jeg indtil nu har set angiveligt som simuleringer af  χ2 testet er i virkeligheden simuleringer af dette test. Approximativt er de ens – men det er svært for mig at se, hvordan simuleringerne kan understøtte den intuitive forståelse af χ2-testet.