1 - Dataverwerking met R
Doel: Ervaring opdoen in het gebruik van R, en de weg vinden in de vele mogelijkheden. Kennis van R op zich wordt niet getoetst, maar is noodzakelijk om statistiek opdrachten te maken.
- Om actief met de stof uit de hoofdstukken 1 en 2 van het boek van Buijs om te gaan is het belangrijk dat we leren wat we in R met gegevensbestanden kunnen doen [zelf maken, invoeren, uitvoeren]. Daarvoor gebruiken we de beschrijving en oefeningen in de eerste 5 paragrafen van de tekst op deze webpagina. Je hoeft voor dit deel van Opdracht 1 niets in te leveren.
- In de hoofdstukken 1 en 2 van het boek van Buijs speelt de grafische voorstelling van eigenschappen van gegevensbestanden al direct een belangrijke rol. Het is daarom verstandig wat langer stil te staan bij de plot mogelijkheden van R. Doe dat aan de hand van de oefeningen op deze webpagina [eventueel met behulp van Rweb]. Je hoeft voor dit deel van Opdracht 1 niets in te leveren.
- Gegevens verzamelen, en verwerken met R.
- Iedere groep van 2 studenten verzameld van elkaar de volgende gegevens:
lichaamslengte, lengte linkerarm, omtrek van de pols, kleur van de ogen, m/v, links- of rechtshandigheid.
De gegevens van alle studenten moeten worden verzameld in 1 overzicht.
Dat doen we ouderwets analoog met viltstift op grote flap-over vellen, opgehangen in de tussenruimte, - Sla de gegevens van alle studenten uit het totaal overzicht op in Excel, en bewaar de file in text format [bijv.: cohort2008.txt]. Gebruik de eerste rij van het spreadsheet om de namen van de variabelen in op te slaan [kolom 1 = lichaamslengte, kolom 3 = polsomtrek, etc...]. Gebruik 1 woord voor de naam!
- Start R
- Voer de verzamelde data in in R met behulp van de functie read.table .
- Download de cohort file met de gegevens van de twee vorige jaren (2006 en 2007): cohort0607.txt en sla die file op in je working directory van R.
- Voeg een zevende kolom toe aan je dataframe cohort2008, en zet in alle rijen van die kolom het jaartal (2009). Geef die kolom de naam jaar.
- Plak vervolgens het dataframe cohort2008 rijgewijs (mbv rbind) onderaan het dataframe met de cohort gegevens van 2006 en 2007, zodat je 1 groot dataframe krijgt met de gegevens over 3 jaren (cohort060708).
- Sla ten slotte deze gegevens als file op in de working directory van R.
2 - Beschrijvende Statistiek
- Gegevens verzamelen, en verwerken met R.
- In iedere groep heeft men van elkaar de volgende gegevens verzameld:
lichaamslengte, lengte linkerarm, omtrek van de pols, sexe (m/v), links- of rechtshandigheid (l/r), kleur van de ogen.
Deze gegevens zijn bewaard in een file in txt format [cohort2008.txt]. In de eerste rij van dit rekenblad staan de namen van de variabelen [kolom 1 = lichaamslengte, kolom 2 = armlengte, kolom 3 = polsomtrek, etc...]. - Start R
- Knip en plak de juiste R expressies voor onderstaande opdrachten in een Word-file, samen met de bijbehorende plaatjes [zie Plot saven in IP syllabus], en lever die file in via de file exchange van je groep in Blackboard
- Voer de cohort datamatrix in in R met behulp van de functie read.table
- Voor wat voor soort onderzoeksvraag zou deze verzameling gegevens een representatieve steekproef kunnen zijn?
- Maak frekwentieverdelingen [Buijs 1.2, p. 28] voor elk van de continue variabelen in de datamatrix.
- Maak een kruistabel [Buijs 1.2.3] voor de variabelen oogkleur en geslacht, voor elk van de jaren 2006, 2007, en 2008.
- Maak staafdiagrammen [Buijs 1.4.1, p. 39] voor elk van de continue variabelen in de datamatrix. [zie Rweb graphics voorbeelden]
- Maak een staafdiagram van de totale aantallen voor de verschillende oogkleuren per mannetje/vrouwtje. [Buijs p. 39, 40]
- Download de cohort gegevens van de afgelopen 3 jaar [cohort060708.txt], save die file in je working directory, en haal de file in R binnen mbv de functie read.table.
- Maak stamdiagrammen [Buijs 1.5.1, p. 44] voor elk van de continue variabelen in de datamatrix, apart voor de 3 jaren 2006, 2007 en 2008.
Wat kun je opmerken over de gelijkmatigheid van de verdeling van deze variabelen? - Maak een histogram van de variabele armlengte, met bijbehorende dichtheidsfunctie, voor elk van de jaren 2006, 2007 en 2008. Zorg dat de twee plots in 1 plotvenster verschijnen.
- Tot slot een lastige: Maak een staafdiagram voor lichaamslengte uitgesplitst op zowel mannetje/vrouwtje als jaar van aankomst. [zie Buijs, voorbeeld 1.13; gebruik verschillende kleuren of grijstinten voor de categorien]
- Een dierenrechtenorganisatie heeft onderzoek gedaan naar de levensduur (of verblijfsduur?) van dwerghamsters in Nederlandse huishoudens. Aan 250 mensen die een enkele dwerghamster hielden in de laatste 10 jaar, werd gevraagd hoe lang ze die hadden gehad. Vul de onderstaande tabel met gegevens aan:
bereikte leeftijd frequentie relatieve frequentie cumulatieve frequentie 0 tot < 4 maanden 4 tot < 8 0.14 80 8 tot < 12 75 12 tot < 16 60 16 tot < 20 235 minstens 20 (totaal) 250 250
Je kunt hier de Word-file met deze vraag downloaden. Beantwoord de vraag mbv Word, en lever die file in via de file exchange van je groep in Blackboard.
- Bij elk onderzoek hoort een onderzoeksvraag en een aantal variabelen die onderzocht worden. De volgende vier verzamelingen kunnen (onder diverse nog te specificeren vooronderstellingen) als steekproef en als populatie beschouwd worden. Beschrijf voor elke verzameling het volgende:
- Voor wat voor soort onderzoeksvraag zou de verzameling een representatieve steekproef kunnen zijn?
- Wat voor extra informatie heb je nodig om te weten of de steekproef representatief is voor die onderzoeksvraag?
- Bedenk daarbij als contrast enkele onderzoeksvragen waarvoor de verzameling een vertekende steekproef is.
- De koninginnen van vier wespenkolonies in dezelfde tuin.
- 200 esdoornblaadjes (Acer pseudoplatanum) die in de hortus zijn opgemeten.
- De 20 soorten nematoden (rondwormen) die sinds 1990 voor het eerst in Nederland zijn aangetroffen.
- Alle mensen die zaterdag 13/10 tussen tien en elf uur in de voormiddag langs een hostess lopen die een Whiskas-enquete afneemt.
Je kunt hier de Word-file met deze vraag downloaden. Beantwoord de vraag mbv Word, en lever de file in via de file exchange van je groep in Blackboard.
3 - Maatstaven
-
Hoofdstuk 2.1 van Buijs behandelt Maatstaven voor ligging [voor afzonderlijke waarnemingen], zoals het rekenkundig gemiddelde, de mediaan, de modus, en het gewogen rekenkundig gemiddelde.
-
Welke functies in R kun je gebruiken om deze maatstaven te berekenen?
Gebruik in de eerste plaats de syllabus, en vervolgens andere bronnen zoals de Managing data in R tutorial en de R help functie om ze op het spoor te komen [bijv: help.search("mean")], of maak anders gebruik van de R documentatie op CRAN, de webstek van het R-project, of raadpleeg een van de bronnen die op de Statistiek webstek worden genoemd, zoals het boek van Verzani. -
Pas deze functies toe op alle variabelen ["arm", "geslacht", "hand", "lichaam", "ogen", "pols"] in de dataset die je op de eerste werkgroep zelf hebt gemaakt [download: cohort2008.txt]
Bewaar je R-sessie [Save to file... in File menu], en lever die in via de File-Exchange van je groep.
Als je deze optie niet kunt vinden/gebruiken, bijvoorbeeld omdat er teveel vergissingen en verkeerde output tussen zit, selecteer dan de betreffende regels van je R-sessie, doe Copy, en Paste vervolgens in een nieuwe Notepad file, sla die op ['Rsessie-wg3-vrg1.txt] en lever die in ['Rsessie-wg3-vrg1.txt]. - Bij welke variabelen gaat dat voor welke maatstaf fout, en waarom? [zie ook Buijs p. 69]
- Schrijf met behulp van de R-functies sum en length een R-opdracht om het rekenkundig gemiddelde uit te rekenen van de variabele "arm".
- Idem voor het gewogen rekenkundig gemiddelde, met een identieke weegfactor 2 voor iedere waarneming in "arm"
-
Welke functies in R kun je gebruiken om deze maatstaven te berekenen?
-
Hoofdstuk 2.3 van Buijs behandelt Maatstaven voor spreiding [voor afzonderlijke waarnemingen], zoals de spreidingsbreedte, de gemiddelde absolute afwijking, de halve kwartielafstand [IQR], en de variantie [en standaarddeviatie].
-
Welke functies in R kun je gebruiken om deze maatstaven te berekenen?
Gebruik in de eerste plaats de syllabus, en vervolgens andere bronnen zoals de Managing data in R tutorial en de R help functie om ze op het spoor te komen [bijv: help.search("mean")], of maak anders gebruik van de R documentatie op CRAN, de webstek van het R-project, of raadpleeg een van de bronnen die op de Statistiek webstek worden genoemd, zoals het boek van Verzani. -
Pas deze functies toe op alle variabelen ["arm", "geslacht", "hand", "lichaam", "ogen", "pols"] in de dataset die je op de eerste werkgroep zelf hebt gemaakt [bereikbaar via menu College Docs in Blackboard]
Bewaar je R-sessie [Save to file... in File menu], en lever die in ['Rsessie-wg3-vrg2.txt] via File-Exchange in je groep.
Als je deze optie niet kunt vinden/gebruiken, bijvoorbeeld omdat er teveel vergissingen en verkeerde output tussen zit, selecteer dan de juiste regels in het R-venster, doe Copy, en Paste vervolgens in een nieuwe Notepad file, sla die op ['Rsessie-wg3-vrg2.txt] en lever die in. - Bij welke variabelen gaat dat voor welke maatstaf fout, en waarom? [zie ook Buijs p. 69]
- Schrijf een instructie in R waarmee je de standaarddeviatie van een variabele kunt uitrekenen [gebruik R als rekenmachine, zonder gebruik te maken van de ingebakken functie sd]
- Deelt de functie var bij het berekenen van de variantie door n, of door n-1?
- Als ik de lichaamslengte ipv in centimeters nu in milimeters uitdruk, welke maatstaven [voor ligging en spreiding] zullen dan ook veranderen, en op welke manier? [zie Buijs: 2.7.2]
-
Welke functies in R kun je gebruiken om deze maatstaven te berekenen?
-
Boxplot [Hfdstk 2.5 van Buijs]
Bewaar de R-expressies en uitkomsten [ook plaatjes] van de volgende vragen, en lever die als text-file (Notepad, TextWrangler) in ['Rsessie-wg3-vrg3.txt] via de File-Exchange van je groep.-
Maak met behulp van R een boxplot van elk van de daarvoor geschikte variabelen uit de eigen dataset [zie vb R-graphics tutorial, of type help(boxplot) in R en bekijk de voorbeelden aan het eind van de helpfile, of zie pag 19 in Verzani's boek]
Wat kun je aan de hand van de boxplots voor elk van de variabelen zeggen over:- de mate van spreiding?
- de scheefheid van de verdeling?
- de aanwezigheid van uitbijters?
- Maak een boxplot waarin we de lichaamslengte van personen met verschillende kleuren ogen met elkaar kunnen vergelijken.
- Maak een boxplot waarin we de lichaamslengte van mannen en vrouwen met elkaar kunnen vergelijken.
- Wat zijn je voorzichtige gevolgtrekkingen als je de laatste twee plots met elkaar vergelijkt?
- Download de cohort data van de afgelopen 3 jaar (cohort060708.txt). Bewaar de file in de working directory van R. Lees de file in in R mbv de functie read.table. Herhaal vervolgens bovenstaande 3 opdrachten, maar nu zodanig dat ook de jaren 2006, 2007 en 2008 met elkaar vergeleken worden.
-
Maak met behulp van R een boxplot van elk van de daarvoor geschikte variabelen uit de eigen dataset [zie vb R-graphics tutorial, of type help(boxplot) in R en bekijk de voorbeelden aan het eind van de helpfile, of zie pag 19 in Verzani's boek]
-
Variatiecoefficient [Hfdstk 2.7.4 uit Buijs]
Gebruik R om een antwoord te vinden op de onderstaande vragen. Bewaar de benodigde R-expressies en hun uitkomsten, en lever die in ['Rsessie-wg3-vrg4.txt] via de File-Exchange van je groep.
Gebruik de volgende aanwijzingen om onderdelen van de data matrix te gebruiken voor een analyse. Er is meer dan 1 manier om rijen [of kolomen] uit een data matrix te selecteren. Dit is de snelste:datav <- cohort[geslacht=='v',]
selecteert die rijen uit cohort waarvoor de variabele met de naam geslacht de waarde 'v' bezit, en maakt voor die rijen een nieuwe datamatrix datav.which(cohort[,4]=='v')
geeft je de rijnummers waarvoor de variabele met de naam geslacht de waarde 'v' bezit. Maar je moet dus weten in welke kolom die m/v staan. Vervolgens kun je zo:datav <- cohort[which(cohort[,4]=='v'),]
de rijen met alleen de gegevens voor de vrouwen uit de data matrix selecteren.
Maar je zou ook de functie tapply kunnen toepassen op de afzonderlijke variabelen, bijv:tapply(lichaam,ogen,mean)
om de gemiddelde lichaamslengte uit te rekenenen voor de groepen personen met een verschillende oogkleur.
- Gebruik de variatiecoefficient om een antwoord te geven op de vraag welk van de op een ratio-schaal gemeten kenmerken uit onze data set het meest variabel is.
- Voor welke van de op een ratio-schaal gemeten variabelen uit onze dataset laten de mannen een grotere variatie zien dan de vrouwen (over de 3 gemeten jaren samen)?
- Vertonen de personen met blauwe ogen een grotere variatie in lichaamslengte dan die met groene of bruine ogen?
- Herhaal bovenstaande 3 opdrachten, maar dan uitgesplits naar de jaren 2006, 2007 en 2008, dus bijv:
Vertonen de studenten van cohort 2006 met blauwe ogen een grotere variatie in lichaamslengte dan die met groene of bruine ogen, en is dat ook voor de studenten van cohort 2007 en/of 2008 het geval?
Uitwerking opdracht 3
De uitwerking van de opdrachten van werkgroep 3 staan in Blackboard (Opdrachten -> blok 3), en ook hier (.pdf)
4 - Kansrekening
Opdracht 4: Kansrekening
Vragen downloaden [.doc], en in Word beantwoorden. Vervolgens inleveren via File Exchange van je Blackboard groep!
-
In een vijver zwemmen 10 vissen. 3 mannetjes met een lichaamslengte van 2.5 centimeter en 7 vrouwtjes van 4 centimeter lang. Alle vissen zijn precies even schuw en handig in het ontwijken van een schepnet.
- Met de eerste schep vangen we twee vissen. Wat is de kans dat het twee vrouwtjes zijn?
- Als we na elke vangst terug zetten, wat is dan de kans dat we drie keer na elkaar een mannetje vangen?
- Wat is de gemiddelde lichaamslengte in de (kleine) vissenpopulatie waar je uit vangt?
- Als je twee vissen vangt, zijn er verschillende vangst-combinaties mogelijk. Bereken de gemiddelde lichaamslengte van elke combinatie van twee vissen die je kan vangen.
- Veronderstel dat je na elke vangst terugzet. Als je een steekproef neemt van twee vissen, welke waarde van de gemiddeldes berekend in deelvraag (1.4) heeft dan de grootste kans om geobserveerd te worden?
- We kijken naar de test voor de aanwezigheid van een ziekte. Als de patient echt ziek is, is de kans op een positieve uitslag 0.9. Als de patient niet ziek is, is de kans op een vals positieve uitslag 0.01. De relatieve frequentie van voorkomen van de ziekte in de gescreende bevolkingsgroep is 0.001. Hoe groot is de kans dat iemand die een positief testresultaat laat zien ook echt ziek is?
- We werpen verschillende keren met een dobbelsteen, en noteren de uitkomsten. Gebruik hiervoor de functies runif en ceiling in R.
tal <- runif (10,0,6) # geeft 10 random getrokken getallen tussen 0 en 6 [met drijvende komma]
Maak een tabel met de frekwenties van de getallen 1 tot en met 6 voor de eerste 10 worpen.
tal <- ceiling(tal) # rond die getallen naar boven af op geheel getal.
Herhaal dit proces van werpen met de dobbelsteen en het maken van een frekwentietabel nog 2 keer, zodat je een totaal van 3 series van 10 worpen met bijbehorende tabel hebt.T10 <- table(ceiling(runif(10,0,6)))
Doe het zelfde, maar nu voor 100 worpen.
T20 <- table(ceiling(runif(10,0,6)))
T30 <- table(ceiling(runif(10,0,6)))
En nog een keer voor 1000 worpen.
En tot slot nog een keer voor 10000 worpen.
Iedere keer dat je een tabel maakt worden er dus nieuwe trekkingen gedaan.
Zorg dat er relatieve frekwenties in de tabellen komen te staan, bijv.:T10rel <- T10 / 10
T20rel <- T20 / 10
T30rel <- T30 / 10Zet de tabellen voor dezelfde n naast elkaar en die voor verschillende n onder elkaar.
Maak staafdiagrammen van die tabellen, en plak die bij de overeenkomstige tabel in je antwoord. [Hoe save ik een grafiek?]
Zorg dat de grafieken een overeenkomstige min en max waarde op de y-as hebben [ylim=c(0,0.5)], zodat je ze goed kunt vergelijken.
Wat merk je op?
Uitwerking opdracht 4
De uitwerking van de opdrachten van werkgroep 4 staan in Blackboard (Opdrachten -> blok 3), en ook hier (.pdf)
5 - Kansvariabelen
Download de opdracht [Word doc], en vul je antwoord in na elke opgave.
Na afloop van de werkgroep het Word doc ingevuld inleveren via de File Exchange van je groep.
Welke van de volgende functies a, b, c, en d kan/kunnen als kansfunctie aangemerkt worden en waarom?
k f(k = k) 10 20 30 40 a 0.10 0.15 0.30 0.40 b 0.50 0.00 0.00 0.50 c 0.05 0.10 0.15 0.80 d 0.10 -0.10 0.90 0.10-
De Engelse evolutiebioloog Paul Manning beweert dat bij mannen het verschil in lengte tussen wijs- en ringvinger de kans op een vroege hartaanval helpt voorspellen en ook bijvoorbeeld de kans om in een eerste klasse voetbalteam te spelen. Stel dat de lengte van elk van je vingers een kansvariabele is.
Schrijf een uitdrukking voor de verwachtingswaarde en de variantie van het verschil tussen de lengte van linkerwijs- (w) en linker ringvinger (r): Noem het verschil v. Schrijf vervolgens E(v) en Var(v) als functies van de verwachtingswaarden en varianties van w en r. [De lengtes van de vingers mogen als onafhankelijk worden beschouwd]
Welkom in de wereld van de transgene tomaat. In een bioscience bedrijf wordt hard gewerkt aan de optimisatie van het rottingsproces in tomaten, om ze klaar te maken voor de groeiende markt van antiglobalisten. Het bedrijf gebruikt kruisingen van twee bekende antiglobale tomatenrassen, "Killer Wally" (KW) en "Wet Maxima" (WM).
In een kweekschaal staan 10 planten van twee genotypes KW/KW en KW/WM door elkaar. Drie planten van genotype KW/KW en zeven planten van het andere genotype. Je neemt een aselecte steekproef van 3 planten.
Bereken de kansen op de verschillende genotypecombinaties van planten in de steekproef. Maak een tabel met een rij voor elke combinatie. Maak een kolom waarin je de kans op die combinatie schrijft (vergelijk tabel 4.2 op pag 137 in Buijs).
We willen de tomatenplanten gebruiken in een experiment aan de productie van plantenhormonen. Om een aantal praktische dingen in te schatten, bijvoorbeeld op welke dag we meest labowerk zullen moeten doen, gaan we aan het rekenen. We zijn van plan de tomatenplanten in het experiment tot bloeien te brengen. Het is algemeen bekend dat KW/KW planten perfect voorspelbaar bloeien na twintig dagen en KW/WM planten na 24 dagen. Genotype KW/KW wordt 35 cm hoog en KW/WM 44 cm hoog.
- Maatstaven die je berekent aan een steekproef kun je beschouwen als kansvariabelen. Elke keer als je een nieuwe steekproef neemt krijg je nieuwe, meestal andere, waarden van die maatstaven.
Bereken voor elke mogelijke steekproef (= combinatie van genotypen) het rekenkundig gemiddelde k en de steekproefvariantie sk2 van het aantal dagen tot bloeien (maak in je tabel twee kolommen er bij). Bereken de verwachtingswaarde van het steekproef rekenkundig gemiddelde k.
(Aanwijzing: Wat zijn de kansen dat je de 1e, 2e, .. waarde voor het rekenkundig gemiddelde vindt? Hoe was een verwachting van een grootheid ook weer gedefinieerd? Gebruik die formule met de in de 2e kolom ingevulde rekenkundig gemiddelden ingevuld voor de waarden van de grootheid en de in de 1e kolom ingevulde kansen.)
Zelfde als vorige vraag, maar nu voor de steekproefvariantie sk2.
Bereken voor elke mogelijke steekproefcombinatie de gemiddelde hoogte h (maak weer een kolom er bij) en bereken daarmee de verwachtingswaarde h van de gemiddelde hoogte in een steekproef.
Uitwerking opdracht 5
De uitwerking van de opdrachten van werkgroep 5 staan in Blackboard (Opdrachten -> blok 3), en ook hier (.pdf)
Antwoorden Tentamen Statistiek-1
De antwoorden van het tentamen Statistiek 1, blok 3, staan in Blackboard (Opdrachten -> blok 3) en ook hier (.txt).
Uitwerking opdracht 6
De uitwerking van de opdrachten van werkgroep 6 staan in Blackboard (Opdrachten -> blok 5), en ook hier (.pdf)
8 - Poissonverdeling
Opdracht 8 in doc format of als pdf. Zie ook Rooster.
Nota Bene: Vraag 5b overslaan!
Uitwerking opdracht 7
De uitwerking van de opdrachten van werkgroep 7 staan in Blackboard (Opdrachten -> blok 5), en ook hier (.pdf)
Uitwerking opdracht 8
De uitwerking van de opdrachten van werkgroep 8 staan in Blackboard (Opdrachten -> blok 5), en ook hier (.pdf)
Uitwerking opdracht 9
De uitwerking van de opdrachten van werkgroep 9 staan in Blackboard (Opdrachten -> blok 5), en ook hier (.pdf)
Uitwerking opdracht 10
De uitwerking van de opdrachten van werkgroep 10 staan in Blackboard (Opdrachten -> blok 5), en ook hier (.pdf)
Antwoorden Tentamen Statistiek-1 blok 5
De antwoorden van het tentamen Statistiek-1, blok 5, staan in Blackboard (Opdrachten -> blok 5), en ook hier (.pdf)
Uitwerking opdracht 11
De uitwerking van de opdrachten van werkgroep 11 staan in Blackboard (Opdrachten -> blok 6), en ook hier (.pdf)
Uitwerking opdracht 12
De uitwerking van de opdrachten van werkgroep 12 staan in Blackboard (Opdrachten -> blok 6), en ook hier (.pdf)
Uitwerking opdracht 13
De uitwerking van de opdrachten van werkgroep 13 staan in Blackboard (Opdrachten -> blok 6), en ook hier (.pdf som 1, 2 en 3) en hier (.pdf som 4)
Uitwerking opdracht 14
De uitwerking van de opdrachten van werkgroep 14 staan in Blackboard (Opdrachten -> blok 6), en ook hier (.pdf)
Uitwerking opdracht 15
De uitwerking van de opdrachten van werkgroep 15 staan in Blackboard (Opdrachten -> blok 6), en ook hier (.pdf)
Uitwerking opdracht 16
De uitwerking van de opdrachten van werkgroep 16 staan in Blackboard (Opdrachten -> blok 6), en ook hier (.pdf)
Antwoorden Tentamen Statistiek-1, blok 6
De antwoorden van het tentamen Statistiek-1, blok 6, staan in Blackboard (Opdrachten -> blok 6), en ook hier (.pdf)
