Statistiek-1 + R

correlatiecoefficient

» Start

Correlatiecoefficient


Als we geinteresseerd zijn in de mate waarin twee variabelen met elkaar samenhangen, gebruiken we de correlatiecoëfficient om dat uit te rekenen en vervolgens te toetsen op significantie. De correlatiecoëfficient beweegt zich tussen -1 en +1 voor een maximale [negatieve, dan wel positieve] correlatie, en is 0 als er geen sprake is van enig verband tussen de twee betrokken variabelen.


    animatie_correl.gif


Om de correlatiecoëfficient r van twee variabelen x en y uit te rekenen gebruiken we onderstaande formules:


covariantie.png


correlatie.png


Om te bepalen of de mate van samenhang, dus de hoogte van de correlatiecoëfficient, die we hebben uitgerekend aan het toeval is te wijten of dat er een feitelijke [biologische] oorzaak aan ten grondslag ligt kunnen we de correlatie op significantie toetsen. We toetsen dan of de gevonden correlatiecoëfficient significant afwijkt van nul [= geen verband tussen x en y]. Dat toetsen gebeurt met de zg r-toets, en op basis van de t-verdeling. 

De toetsingsgrootheid is:

t = r * sqrt( (n-2)/(1-r^2) )

waarbij r de gevonden correlatiecoëfficient is, en n het aantal elementen in de variabele x [of y].


In R kunnen we de correlatiecoëfficient als volgt bepalen:

# eerst wat data inlezen:

> bron <- "http://www.mzandee.net/~zandee/statistiek/data/gegevens.txt"

> cohort <- read.table(bron, header=T)

> attach(cohort)

> names(cohort)

[1] "lichaam"  "arm"      "pols"     "geslacht" "hand"     "ogen"    

# en vervolgens de correlatie tussen lichaamslengte en lengte bovenarm uitrekenen.

> cor(lichaam,arm)

[1] 0.7366281


# en een plaatje maken, met regressielijn:

> plot(lichaam,arm)

> abline(lm(arm~lichaam))    # of: abline(lsfit(lichaam,arm))

lichaam+arm-r.pdf

We kunnen ook direct r uitrekenen en toetsen als we dat willen:

> cor.test(lichaam,arm, method="pearson")

Pearson's product-moment correlation

data:  lichaam and arm 

t = 8.7137, df = 64, p-value = 1.792e-12

alternative hypothesis: true correlation is not equal to 0 

95 percent confidence interval: 0.6019085 0.8305786 

sample estimates:

cor 0.7366281 

In deze lijst is t de toetsingsgrootheid, df is het aantal vrijheidsgraden (= n-2), en p-value is de zg overschrijdingskans, dat wil zeggen de kans dat je een correlatiecoëfficient, die met de gegeven grootte (r = 0.7366281) van de waarde r=0 afwijkt, aan zult treffen puur op basis van toeval in plaats van op basis van een of ander [biologisch] effect of proces. 


Nu is de hier gevonden p-waarde [heel veel] kleiner dan de standaard afgesproken waarde van 5 procent, zodat we moeten aannemen dat de gevonden waarde van r niet door puur toeval zo veel afwijkt van nul, maar als resultaat van een of ander effect of proces. We zeggen dan dat de gevonden waarde van r significant is [= significant afwijkt van nul].


De 95 percent confidence interval betekent dat wanneer je nog eens een steekproef trekt uit dezelfde populatie [in dit geval Leidse 1e jrs biologiestudenten] je er met een zekerheid van 95% van uit kunt gaan dat de waarde van r die je uitrekent op basis van die nieuwe steekproef tussen de aangegeven waarden 0.6019085 en 0.8305786 zal liggen.


Bron:

Buijs, A. - Statistiek om mee te werken. Stenfert Kroese, Groningen (2003)

Crawley, M.J. - Statistics. An introduction using R. Wiley, Hoboken, NJ, USA (2005)

Zijp, W.L. - Handleiding voor statistische toetsen. Tjeenk Willink, Groningen (1974)