Statistiek-2 + R

Fundamentals

» Start

1. Fundamentals


Crawley: Chapter 1


In eerste instantie lijkt dit hoofdstuk een vreemd begin voor een leerboek statistiek, hoewel de eerste regel briljant is:

"The hardest part of any statistical work is getting started - and one of the hardest things about getting started is choosing the right kind of statistical analysis."


Daarom wordt er direct uitgelegd hoe je dat doet. Door goed na te denken over wat voor soort gegevens je beschikt, en over wat voor soort vraag je beantwoord wil hebben. 

Wat is de response variabele, en welke de explanatory [waar de response afhankelijk van is]? 

Response variabele = afhankelijke variabele = het gevolg.

Explanatory variabele = verklarende variabele = de oorzaak.

Van welke aard zijn ze [continue, discreet: Buijs 1.1.4 en 1.1.5]? Afhankelijk daarvan gebruiken we regressie- [normaal, logistisch, log-lineair, binair-logistisch] dan wel (co)variantie-analyse.


Everything varies.

Omdat er in alle waarnemingen variatie aanwezig is [in ruimte dan wel in tijd] is de konstatering dat de dingen verschillend zijn op zich niet interessant. We zoeken een manier om onderscheid te maken tussen wetenschappelijk interessante variatie, en variatie die alleen maar achtergrondruis voorstelt. Om dat onderscheid te kunnen maken hebben we statistiek nodig.


Key-concept: de hoeveelheid variatie die we kunnen verwachten op basis van toeval alleen, dus wanneer er geen sprake is van welk [wetenschappelijk] interessant effect/proces dan ook. 

Als we meer variatie waarnemen dan we op grond van toeval alleen kunnen verwachten dan spreken we van een significant resultaat.


Significance.

Significantie: Het is niet aannemelijk dat het resultaat door toeval alleen tot stand is gekomen.

Niet-Aannemelijk: komt in minder dan 5% van de gevallen voor.


Good and Bad Hypotheses.

Een goede hypothese is falsifieerbaar, dat wil zeggen dat er waarnemingen denkbaar dan wel mogelijk moeten zijn die in strijd zijn met de hypothese.


Null-Hypothesis.

Nulhypothese: Er is niets aan de hand. Wat je aan variatie [verschillen] waarneemt is door toeval alleen tot stand gekomen.

De nulhypothese wordt verworpen als onze gegevens laten zien dat de nulhypothese voldoende [significant] onaannemelijk is.


p Waarde.

Een schatting van de waarschijnlijkheid dat een bepaald, of nog uitzonderlijker  resultaat door toeval alleen tot stand kan zijn gekomen [onder de konditie dat de nulhypothese waar is]. Met andere woorden: Hoe geloofwaardig is het gegeven resultaat?


Two kinds of mistakes.

Fout Type I en Type II; fout van de eerste en tweede soort.

I:  De nulhypothese wordt verworpen, terwijl hij waar is.

II: De nulhypothese wordt niet verworpen, terwijl hij onwaar is.


Statistical Modelling.

Het doel is om de waarden van de parameters van het model te bepalen, zodanig dat het model onze gegevens zo goed mogelijk beschrijft. De gegevens staan daarbij centraal. Het model wordt gefit op de gegevens; niet andersom!

Het beste model is het model dat zo min mogelijk variatie onverklaard [onbeschreven] laat [minimale rest variatie], onder de voorwaarde dat alle parameters van het model significant zijn.


Maximum Likelihood.

Gegeven de data, en gegeven het model, welke parameterwaarden van het model maken de waargenomen data het meest aannemelijk?


Experimental Design.

Key concepts: replicatie en randomisatie.

Replicatie is noodzakelijk om de betrouwbaarheid te vergroten. Randomisatie is noodzakelijk om fouten [bias] te minimaliseren.


Parsimony.

Gegeven een set van even goede verklaringen voor een bepaald verschijnsel, is de meest simpele verklaring de meest voor de hand liggende [juist].

* een model moet zo min mogelijk parameters hebben.

* lineaire modellen hebben de voorkeur boven niet-lineaire modellen

* experimenten die zo min mogelijk veronderstellingen doen hebben de voorkeur boven die experimenten die veel veronderstellingen doen.

* modellen moeten net zo lang worden afgeslankt tot ze minimaal adekwaat zijn.

* eenvoudige verklaringen hebben de voorkeur boven meer ingewikkelde

"Een model moet zo eenvoudig mogelijk zijn, maar niet eenvoudiger dan dat!"


Replications.

Doel: de betrouwbaarheid van de schattingen van parameterwaarden te vergroten.

Waarnemingen moeten daarom:

* onafhankelijk zijn,

* geen tijdreeks vormen [data verzameld op de zelfde plaats op verschillende tijdstippen],

* ruimtelijk onafhankelijk zijn.

Hoeveel waarnemingen in een goede steekproef? : 30


Power.

Het onderscheidend vermogen [power] van een toets is de waarschijnlijkheid om de nulhypothese te verwerpen wanneer die onjuist is.

Beta is de kans om de nulhypothese te accepteren, terwijl die onjuist is. Het onderscheidend vermogen van de toets is dan 1-beta.

Hoe groot moet een steekproef zijn om met power van 0.8 een verschil van 10% [bij een gemiddelde van 20]te kunnen aantonen bij een variantie gelijk aan 10?


    power.t.test(type="one.sample", power=0.8,sd=sqrt(10), delta=2)


Randomization.