Kursilla pyritään käyttämään kaikissa tehtävissä mahdollisimman aitoa ja kiinnostavaa dataa. Käytössä on kolmea erityyppistä dataa: höpödataa, tilasto-/indikaattoridataa sekä tutkimusdataa. Alla olevassa videossa käydään läpi tämän sivun datat ja niiden käyttöönotto.
Käyn alla läpi kaikki aineistot sekä sen miten ne tallennetaan omalle koneelle projektin datasetit
-kansioon csv
-muodossa. Aivan aluksi luodaan ko. kansio komennolla. Muista ladata myös tidyverse
-paketti heti alussa komennolla library(tidyverse)
dir.create("./datasetit")
Aivan yksinkertaisimmissa tehtävissä käytämme starwars
-dataa, joka tulee dplyr
-paketin mukana. Datassa on 13 muuttujaa 87:stä eri Star Wars elokuvan hahmosta. Saat datan omaan ympäristöösi komennolla:
starwars <- dplyr::starwars
Datan kuusi ensimmäistä tapausta ja kuusi ensimäistä hahmoa saa seuraavasti
library(tidyverse)
starwars %>% select(1:6) %>% slice(1:6)
Voit tallentaa datan datasetit
-kansioon .csv
-muodossa seuraavalla komennolla. Pudotetaan muuttujat films
,vehicles
ja starships
pois, koska ne ovat listamuuttujia eivätkä sovellus .csv
-formaattiin.
readr::write_csv(dplyr::starwars %>%
select(-films,-vehicles,-starships), "./datasetit/starwars.csv")
Voit lukea datan komennolla:
sw <- readr::read_csv("./datasetit/starwars.csv")
Tilasto-/indikaattoridatana kurssilla käytetään Göteborgin yliopiston Quality of Government Instituutin (QOG) OECD maita käsittelevää dataa. Datassa on 1006 indikaattoria ja se käsittää yhteensä 36 maata.
Sen käyttöönotto on helpointa rqog-paketin avulla, jonka asentaminen ja datan lataaminen verkosta ja tallentaminen ./datasetit
-kansioon käy seuraavasti:
# Asenna paketti
devtools::install_github("ropengov/rqog")
# Lataa paketti
library(rqog)
# Lataa data datasetit-kansioon
rqog::read_qog(which_data = "oecd",
data_dir = "./datasetit",
file_format = "csv",
year = 2019,
download_only = TRUE)
# Voit lukea datan komennolla
oecd <- readr::read_csv("./datasetit/qog_oecd_ts_jan19.csv")
Olen käyttänyt QOG-datoja tutkimuksessani ja aineiston metatiedot löytyvät näppärästi täältä: http://data.markuskainu.fi/qog/
Tutkimusdatana käytetään European Social Survey-projektin Integrated file, edition 1.0 round 8-dataa.
Data ei ole suoraan ladattavissa verkosta vaan vaatii tunnistautumisen. Latasin datan eri tilasto-ohjelmien formaateissa itselleni ja voit ladata ne omalle koneellesi seuraavilla komennoilla:
download.file("http://courses.markuskainu.fi/utur2018/datasetit/ESS8e01.sav",
"./datasetit/ESS8e01.sav") # SPSS
# lue data R:ään ja tallenna .csv-muodossa
ess <- haven::read_sav("./datasetit/ESS8e01.sav")
readr::write_csv(ess, "./datasetit/ess.csv")
Voit lukea datan nyt R:ään csv-tiedostosta
ess <- readr::read_csv("./datasetit/ess.csv")
Voit ladata datat käyttöösi myös seuraavasi:
starwars <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/starwars.RDS"))
oecd <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/qog_oecd_ts_jan18.RDS"))
ess <- readRDS(url("http://courses.markuskainu.fi/utur2018/datasetit/rds/ESS8e01.RDS"))
2017-2019 Markus Kainu.
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.