Kursilla pyritään käyttämään kaikissa tehtävissä mahdollisimman aitoa ja kiinnostavaa dataa. Käytössä on kolmea erityyppistä dataa: höpödataa, tilasto-/indikaattoridataa sekä tutkimusdataa. Alla olevassa videossa käydään läpi tämän sivun datat ja niiden käyttöönotto.
Käyn alla läpi kaikki aineistot sekä sen miten ne tallennetaan omalle koneelle projektin datasetit
-kansioon csv
-muodossa. Aivan aluksi luodaan ko. kansio komennolla. Muista ladata myös tidyverse
-paketti heti alussa komennolla library(tidyverse)
dir.create("./datasetit")
Aivan yksinkertaisimmissa tehtävissä käytämme starwars
-dataa, joka tulee dplyr
-paketin mukana. Datassa on 13 muuttujaa 87:stä eri Star Wars elokuvan hahmosta. Saat datan omaan ympäristöösi komennolla:
starwars <- dplyr::starwars
Datan kuusi ensimmäistä tapausta ja kuusi ensimäistä hahmoa saa seuraavasti
library(tidyverse)
starwars %>% select(1:6) %>% slice(1:6)
## # A tibble: 6 x 6
## name height mass hair_color skin_color eye_color
## <chr> <int> <dbl> <chr> <chr> <chr>
## 1 Luke Skywalker 172 77. blond fair blue
## 2 C-3PO 167 75. <NA> gold yellow
## 3 R2-D2 96 32. <NA> white, blue red
## 4 Darth Vader 202 136. none white yellow
## 5 Leia Organa 150 49. brown light brown
## 6 Owen Lars 178 120. brown, grey light blue
Voit tallentaa datan datasetit
-kansioon .csv
-muodossa seuraavalla komennolla. Pudotetaan muuttujat films
,vehicles
ja starships
pois, koska ne ovat listamuuttujia eivätkä sovellus .csv
-formaattiin.
readr::write_csv(dplyr::starwars %>%
select(-films,-vehicles,-starships), "./datasetit/starwars.csv")
Tilasto-/indikaattoridatana kurssilla käytetään Göteborgin yliopiston Quality of Government Instituutin (QOG) OECD maita käsittelevää dataa. Datassa on 1006 indikaattoria ja se käsittää yhteensä 36 maata.
Sen käyttöönotto on helpointa rqog-paketin avulla, jonka asentaminen ja datan lataaminen tapahtuu seuraavasti:
# Asenna paketti
devtools::install_github("ropengov/rqog")
# Lataa paketti
library(rqog)
# Lataa data
oecd <- read_qog(which.data = "oecd")
Olen käyttänyt QOG-datoja tutkimuksessani ja aineiston metatiedot löytyvät näppärästi täältä: http://data.markuskainu.fi/qog/
QOG-datat ovat tarjolla myös suljettujen tilasto-ohjelmien muodoissa ja tallennamme tässä samalla QOG-datan OECD-aineiston csv
-, Stata
-, Excel
sekä SAS
-muodossa datasetit
-kansioon.
rqog::read_qog(which.data = "oecd",
data.dir = "./datasetit",
file.format = "csv",
download_only = TRUE)
rqog::read_qog(which.data = "oecd",
data.dir = "./datasetit",
file.format = "dta",
download_only = TRUE)
rqog::read_qog(which.data = "oecd",
data.dir = "./datasetit",
file.format = "sav",
download_only = TRUE)
rqog::read_qog(which.data = "oecd",
data.dir = "./datasetit",
file.format = "xlsx",
download_only = TRUE)
Tutkimusdatana käytetään European Social Survey-projektin Integrated file, edition 1.0 round 8-dataa.
Data ei ole suoraan ladattavissa verkosta vaan vaatii tunnistautumisen. Latasin datan eri tilasto-ohjelmien formaateissa itselleni ja voit ladata ne omalle koneellesi seuraavilla komennoilla:
download.file("http://courses.markuskainu.fi/utur2018/datasetit/ESS8e01.sav",
"~/ESS8e01.sav") # SPSS
download.file("http://courses.markuskainu.fi/utur2018/datasetit/ESS8e01.stata/ESS8e01.dta",
"~/ESS8e01.dta") # Stata
download.file("http://courses.markuskainu.fi/utur2018/datasetit/ESS8e01.sas/ess8e01.sas7bdat",
"~/ess8e01.sas7bdat") # SAS
Seuraava skripti kääntää kaikki datat myös R:n omaa binäärimuoton kansioon datasetit/rds
.
read_csv("./datasetit/starwars.csv") %>%
saveRDS("./datasetit/rds/starwars.RDS")
haven::read_sav("./datasetit/qog_oecd_ts_jan18.sav") %>%
saveRDS("./datasetit/rds/qog_oecd_ts_jan18.RDS")
haven::read_dta("./datasetit/ESS8e01.stata/ESS8e01.dta") %>%
saveRDS("./datasetit/rds/ESS8e01.RDS")
Nyt voi ladata ne käyttöösi komennoilla:
starwars <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/starwars.RDS"))
oecd <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/qog_oecd_ts_jan18.RDS"))
ess <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/ESS8e01.RDS"))
2017-2018 Markus Kainu.
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.