4. Variance.
Buijs hoofdstuk 2: Maatstaven [spreiding]
Link: Maatstaven in syllabus Statistiek-1.
Variantie = kwadraatsom / vrijheidsgraden
Kwadraatsom = Som van de gekwadrateerde afwijkingen van het gemiddelde
"... perhaps the most important single quantity in all of statistics."
Vrijheidsgraden = Steekproefgrootte min het aantal parameters wat uit de steekproef is geschat.
Variantie = s^2 = ∑((x-x.gem)^2) / n-1
Waarom delen we door n-1 en niet door n?
"Aangezien de som van de afwijkingen x-x.gem steeds 0 oplevert [zie Crawley, box 4.1], kan de laatste afwijking gevonden worden uit de eerste n-1. We berekenen dus niet het gemiddelde van n getallen zonder verwantschap. Slecht n-1 van de gekwadrateerde afwijkingen kunnen vrij bewegen, daarom berekenen we het gemiddelde door het totaal te delen door n-1. Het getal n-1 noemt men het aantal vrijheidsgraden van de variantie of van de standaardafwijking. " (Moore & MCCabe)
Using Variance.
Dit zijn de belangrijkste zaken waarvoor variantie wordt gebruikt:
* voor het vaststellen van maten van onbetrouwbaarheid (bijv betrouwbaarheidsintervallen van gemiddelden)
* het toetsen van hypotheses (bijv t-test, variantienanalyse).
A Measure of Unreliability.
* Als de variantie van onze verzameling gegevens toeneemt, moet dan de onbetrouwbaarheid van de te schatten parameters toenemen of afnemen?
-> variantie in de teller.
* Als het aantal waarnemingen toeneemt, moet dan de onbetrouwbaarheid van onze schattingen toenemen of afnemen?
-> steekproefgrootte in de noemer.
* In welke eenheid moet onbetrouwbaarheid worden uitgedrukt? Het is beter als onze onbetrouwbaarheidsmaat in dezelfde eenheden wordt uitgedrukt als de parameter waarop de onbetrouwbaarheid betrekking heeft.
Zie ook Buijs, Hoofdstuk 8
Onbetrouwbaarheidsmaten worden standaardfouten (standard errors) genoemd.
Voorbeeld : Standaardfout van het gemiddelde = ((s^2)/n)^0.5
De standaardafwijking van het gemiddelde is dus gelijk aan de standaardafwijking van de steekproef gedeeld door de wortel uit het aantal waarnemingen, s/(n^0.5)
Confidence Interval.
Een vertrouwensinterval, bijv die van het gemiddelde, laat het bereik zien waarbinnen we met een bepaalde zekerheid dat gemiddelde kunnen verwachten als we opnieuw een steekproef trekken uit de zelfde verzameling.
Het is duidelijk dat een vertrouwensinterval groter wordt naarmate de onbetrouwbaarheid toeneemt. Bij het berekenen van een vertrouwensinterval wordt de standaardfout gebruikt als maat voor de onbetrouwbaarheid.
Zie ook Buijs, hoofdstuk 8.