Kursilla pyritään käyttämään kaikissa tehtävissä mahdollisimman aitoa ja kiinnostavaa dataa. Käytössä on kolmea erityyppistä dataa: höpödataa, tilasto-/indikaattoridataa sekä tutkimusdataa. Alla olevassa videossa käydään läpi tämän sivun datat ja niiden käyttöönotto.

Käyn alla läpi kaikki aineistot sekä sen miten ne tallennetaan omalle koneelle projektin datasetit-kansioon csv-muodossa. Aivan aluksi luodaan ko. kansio komennolla. Muista ladata myös tidyverse-paketti heti alussa komennolla library(tidyverse)

dir.create("./datasetit")

Höpödata

Aivan yksinkertaisimmissa tehtävissä käytämme starwars-dataa, joka tulee dplyr-paketin mukana. Datassa on 13 muuttujaa 87:stä eri Star Wars elokuvan hahmosta. Saat datan omaan ympäristöösi komennolla:

starwars <- dplyr::starwars

Datan kuusi ensimmäistä tapausta ja kuusi ensimäistä hahmoa saa seuraavasti

library(tidyverse)
starwars %>% select(1:6) %>% slice(1:6)

Voit tallentaa datan datasetit-kansioon .csv-muodossa seuraavalla komennolla. Pudotetaan muuttujat films,vehicles ja starships pois, koska ne ovat listamuuttujia eivätkä sovellus .csv-formaattiin.

readr::write_csv(dplyr::starwars %>% 
                   select(-films,-vehicles,-starships), "./datasetit/starwars.csv")

Voit lukea datan komennolla:

sw <- readr::read_csv("./datasetit/starwars.csv")

Tilasto-/indikaattoridata

Tilasto-/indikaattoridatana kurssilla käytetään Göteborgin yliopiston Quality of Government Instituutin (QOG) OECD maita käsittelevää dataa. Datassa on 1006 indikaattoria ja se käsittää yhteensä 36 maata.

Sen käyttöönotto on helpointa rqog-paketin avulla, jonka asentaminen ja datan lataaminen verkosta ja tallentaminen ./datasetit-kansioon käy seuraavasti:

# Asenna paketti
devtools::install_github("ropengov/rqog")
# Lataa paketti
library(rqog)
# Lataa data datasetit-kansioon
rqog::read_qog(which_data = "oecd", 
               data_dir = "./datasetit", 
               file_format = "csv", 
               year = 2019,
               download_only = TRUE)
# Voit lukea datan komennolla
oecd <- readr::read_csv("./datasetit/qog_oecd_ts_jan19.csv")

Olen käyttänyt QOG-datoja tutkimuksessani ja aineiston metatiedot löytyvät näppärästi täältä: http://data.markuskainu.fi/qog/

Tutkimusdata

Tutkimusdatana käytetään European Social Survey-projektin Integrated file, edition 1.0 round 8-dataa.

Data ei ole suoraan ladattavissa verkosta vaan vaatii tunnistautumisen. Latasin datan eri tilasto-ohjelmien formaateissa itselleni ja voit ladata ne omalle koneellesi seuraavilla komennoilla:

download.file("http://courses.markuskainu.fi/utur2018/datasetit/ESS8e01.sav", 
              "./datasetit/ESS8e01.sav") # SPSS
# lue data R:ään ja tallenna .csv-muodossa
ess <- haven::read_sav("./datasetit/ESS8e01.sav")
readr::write_csv(ess, "./datasetit/ess.csv")

Voit lukea datan nyt R:ään csv-tiedostosta

ess <- readr::read_csv("./datasetit/ess.csv")

Jos on kiire tai levytila lopussa koneelta

Voit ladata datat käyttöösi myös seuraavasi:

starwars <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/starwars.RDS"))
oecd <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/qog_oecd_ts_jan18.RDS"))
ess <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/ESS8e01.RDS"))

2017-2019 Markus Kainu.

Creative Commons -lisenssi
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.