Gegevens inlezen uit een file, en bewaren in een dataframe
Omdat dataframes nog het meeste weg hebben van een spreadsheet is het de meest voor de hand liggende manier om gegevens in R in te lezen uit een file, zoals bijv een Excel spreadsheet.
Verzamel je gegevens en sla ze op in een Excel spreadsheet. Gebruik de eerste regel van dat spreadsheet om de namen van de variabelen in op te slaan. Let op dat je hele woorden gebruikt als naam. Alle waarnemingen staan op de volgende regels van dat spreadsheet:

Save je spreadsheet in text format (bijv 'gegevens.txt'). In files met dit format zijn de oorspronkelijke kolommen uit excel nu gescheiden door spaties.
Het is het handigst als je die file opslaat in de working directory van R. Met het commando dir kun je controleren welke files in je working directory aanwezig zijn:
> dir()
[1] "R Console.txt" "cohort" "gegevens.txt" "gegevens.xls" "gm.r"
Type nu de volgende opdracht op de commandoregel van R:
dataset<-read.table("gegevens.txt", header=TRUE)
Je kunt ook het volledige pad naar de file gebruiken:
dataset<-read.table("C:\\directory\\subdirectory\\gegevens.txt", header=T)
Let op de dubbele backslash ( \\ ) die hier gebruikt wordt om de namen van de directories te scheiden. Een enkele backslash wordt in R gebruikt als escape karakter, bijvoorbeeld om het commando voor nieuwe regel, "\n", of tab, "\t", aan te duiden.
Let ook op het argument TRUE (of eenvoudigweg T) wat er op duidt dat de eerste regel van de in te lezen datamatrix de namen van de variabelen bevat.
In het geval dat je de te gebruiken file totaal ergens anders hebt opgeslagen, en je bent ook niet van plan om die file in je working directory te gaan bewaren, dan kun je gebruiki maken van de functie file.choose() om de file te zoeken:
dataset<-read.table(file.choose(), header=TRUE)
Je krijgt dan de bekende dialoogbox op je scherm te zien met behulp waarvan je door directories kunt bladeren om je file te zoeken.
Je kunt een rekenblad uit Excel ook bewaren in het zg cvs format. CVS is een afkorting voor comma separated variables. Dergelijke files kun je in R inlezen met de functie read.csv in plaats van read.table.
Samenvattend: als de kolommen van de tabel gescheiden zijn door komma's gebruik je read.csv om de file in te lezen in R; als de kolommen van de tabel gescheiden zijn door spaties gebruik je read.table
dataset<-read.table("gegevens.txt", header=TRUE)
dataset<-read.csv("gegevens.csv", header=TRUE)
De data zullen door de functie read.table worden ingelezen als dataframe met de naam dataset. Je kunt zelf controleren of de variabele dataset bestaat door het commando ls of objects in te gebruiken:
> ls()
> objects()
Je ziet een lijst van objecten die op dit moment in het geheugen van R aanwezig zijn.
De functie dim vertelt je uit hoeveel rijen en kolommen het dataframe met de naam dataset bestaat:
> dim(dataset)
[1] 66 6
Met het commando names kun je de namen van de variabelen in het dataframe te weten komen:
> names(dataset)
[1] "lichaam" "arm" "pols" "geslacht" "hand" "ogen"
Vervolgens zorg je er met het commando attach voor dat die variabelen ook onder die namen te gebruiken zijn in verdere analyses en bewerkingen:
> attach(dataset)
Je kunt een samenvatting van de inhoud van dataset maken door het commando summary te gebruiken:
> summary(dataset)
Zie ook de webpagina over input van externe gegevens op de Quick-R webstek: