Kursilla pyritään käyttämään kaikissa tehtävissä mahdollisimman aitoa ja kiinnostavaa dataa. Käytössä on kolmea erityyppistä dataa: höpödataa, tilasto-/indikaattoridataa sekä tutkimusdataa. Alla olevassa videossa käydään läpi tämän sivun datat ja niiden käyttöönotto.

Käyn alla läpi kaikki aineistot sekä sen miten ne tallennetaan omalle koneelle projektin datasetit-kansioon csv-muodossa. Aivan aluksi luodaan ko. kansio komennolla. Muista ladata myös tidyverse-paketti heti alussa komennolla library(tidyverse)

dir.create("./datasetit")

1 Höpödata

Aivan yksinkertaisimmissa tehtävissä käytämme starwars-dataa, joka tulee dplyr-paketin mukana. Datassa on 13 muuttujaa 87:stä eri Star Wars elokuvan hahmosta. Saat datan omaan ympäristöösi komennolla:

starwars <- dplyr::starwars

Datan kuusi ensimmäistä tapausta ja kuusi ensimäistä hahmoa saa seuraavasti

library(tidyverse)
starwars %>% select(1:6) %>% slice(1:6)
## # A tibble: 6 x 6
##   name           height  mass hair_color  skin_color  eye_color
##   <chr>           <int> <dbl> <chr>       <chr>       <chr>    
## 1 Luke Skywalker    172   77. blond       fair        blue     
## 2 C-3PO             167   75. <NA>        gold        yellow   
## 3 R2-D2              96   32. <NA>        white, blue red      
## 4 Darth Vader       202  136. none        white       yellow   
## 5 Leia Organa       150   49. brown       light       brown    
## 6 Owen Lars         178  120. brown, grey light       blue

Voit tallentaa datan datasetit-kansioon .csv-muodossa seuraavalla komennolla. Pudotetaan muuttujat films,vehicles ja starships pois, koska ne ovat listamuuttujia eivätkä sovellus .csv-formaattiin.

readr::write_csv(dplyr::starwars %>% 
                   select(-films,-vehicles,-starships), "./datasetit/starwars.csv")

2 Tilasto-/indikaattoridata

Tilasto-/indikaattoridatana kurssilla käytetään Göteborgin yliopiston Quality of Government Instituutin (QOG) OECD maita käsittelevää dataa. Datassa on 1006 indikaattoria ja se käsittää yhteensä 36 maata.

Sen käyttöönotto on helpointa rqog-paketin avulla, jonka asentaminen ja datan lataaminen tapahtuu seuraavasti:

# Asenna paketti
devtools::install_github("ropengov/rqog")
# Lataa paketti
library(rqog)
# Lataa data
oecd <- read_qog(which.data = "oecd")

Olen käyttänyt QOG-datoja tutkimuksessani ja aineiston metatiedot löytyvät näppärästi täältä: http://data.markuskainu.fi/qog/

QOG-datat ovat tarjolla myös suljettujen tilasto-ohjelmien muodoissa ja tallennamme tässä samalla QOG-datan OECD-aineiston csv-, Stata-, Excel sekä SAS-muodossa datasetit-kansioon.

rqog::read_qog(which.data = "oecd", 
               data.dir = "./datasetit", 
               file.format = "csv", 
               download_only = TRUE)
rqog::read_qog(which.data = "oecd", 
               data.dir = "./datasetit", 
               file.format = "dta", 
               download_only = TRUE)
rqog::read_qog(which.data = "oecd", 
               data.dir = "./datasetit", 
               file.format = "sav", 
               download_only = TRUE)
rqog::read_qog(which.data = "oecd", 
               data.dir = "./datasetit", 
               file.format = "xlsx", 
               download_only = TRUE)

3 Tutkimusdata

Tutkimusdatana käytetään European Social Survey-projektin Integrated file, edition 1.0 round 8-dataa.

Data ei ole suoraan ladattavissa verkosta vaan vaatii tunnistautumisen. Latasin datan eri tilasto-ohjelmien formaateissa itselleni ja voit ladata ne omalle koneellesi seuraavilla komennoilla:

download.file("http://courses.markuskainu.fi/utur2018/datasetit/ESS8e01.sav", 
              "~/ESS8e01.sav") # SPSS
download.file("http://courses.markuskainu.fi/utur2018/datasetit/ESS8e01.stata/ESS8e01.dta", 
              "~/ESS8e01.dta") # Stata
download.file("http://courses.markuskainu.fi/utur2018/datasetit/ESS8e01.sas/ess8e01.sas7bdat", 
              "~/ess8e01.sas7bdat") # SAS

4 Kaikki datat R:n formaatissa

Seuraava skripti kääntää kaikki datat myös R:n omaa binäärimuoton kansioon datasetit/rds.

read_csv("./datasetit/starwars.csv") %>% 
  saveRDS("./datasetit/rds/starwars.RDS")
haven::read_sav("./datasetit/qog_oecd_ts_jan18.sav") %>% 
  saveRDS("./datasetit/rds/qog_oecd_ts_jan18.RDS")
haven::read_dta("./datasetit/ESS8e01.stata/ESS8e01.dta") %>% 
  saveRDS("./datasetit/rds/ESS8e01.RDS")

Nyt voi ladata ne käyttöösi komennoilla:

starwars <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/starwars.RDS"))
oecd <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/qog_oecd_ts_jan18.RDS"))
ess <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/ESS8e01.RDS"))

2017-2018 Markus Kainu.

Creative Commons -lisenssi
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.