Harjotustyön tarkoituksena on soveltaa itsenäisesti kurssilla opittuja data-analyysin taitoja prosessin eri vaiheisiin. Opiskelijan tulee joko yksin tai pareittain laatia itseä kiinnostavasta aiheesta suppea data-analyysi, jossa:
readr
,haven
,readxl
)tidyr
,dplyr
,stringr
)dplyr
)dplyr
,forcats
,ggplot2
)Koko prosessi kirjoitetaan yhtenä toistettavana .Rmd
-dokumenttina. Mallipohjan voit ladata alta.
.Rmd
-muodossa (aloita oma työ tästä jos haluat!):.html
-muodossaSaat harjoitustyön pohjan myös komennoilla:
# päivitä paketti
devtools::install_git("https://gitlab.com/muuankarski/utur2018")
# tarkista että versio on 0.1.6 tai uudempi
packageVersion("utur2018")
# lataa harjoitustyön pohja
utur2018::lataa_harjoitustehtava_demo(tiedostonimi = "mun_oma_analyysi.Rmd")
Toimi siis seuraavasti
utur2018harjoitustyo
.Knit
-nappulaa tai käytä pikanäppäintä Ctrl + Shift + k
, ja varmista että RStudio saa generoitua outputin valmiiksi (identtinen .html tiedosto kuin yllä esikatselulinkissä!)Knit
-prosessi menee läpi ilman virheitä)Älä tee työstä liian pitkää, mutta yritä vaikeita asioita. Voit saada palautteesta enemmän irti kun yrität jotain missä et onnistu..!
Harjoitustyö palautetaan perjantaina 27. huhtikuuta kello 16.00 mennessä. Palauta harjoitustyö harjoitusten tapaan.
Voit käyttää ESS-ää harjoitustyössä. Koko ESS-data on turhan suuri harjotustyöhön ja siitä syystä joidenkin R saattoi kaatui. Tein ESS-dastasta vain Pohjoismaat sisältävän subsetin ja samalla poistin datasta kaikki Statan “attribuutit”. Käytin siihen tidyvmetadata::strip_attributes()
-funktiota, joka käytännössä ajaa joka sarakkeelle funktion as.vector()
. Tein Stata-datasta myös ns. metadatan funktiolla tidyvmetadata::create_metadata()
, jonka voit ladata joko .csv
tai .xlsx
muodossa.
ESS-datan käsittely harjoitustyötä varten
library(dplyr)
stata <- haven::read_dta("./datasetit/ESS8e01.stata/ESS8e01.dta")
stata_subset <- stata %>%
filter(cntry %in% c("FI","NO","SE","DK","IS"))
d <- tidymetadata::strip_attributes(stata_subset)
m <- tidymetadata::create_metadata(stata_subset)
readr::write_csv(d, "./datasetit/ess_subset.csv")
readr::write_csv(m, "./datasetit/ess_metadata.csv")
writexl::write_xlsx(m, "./datasetit/ess_metadata.xlsx")
Käsitellyn datan lataaminen omaan harjoitustyöhön!
ess_data <- readr::read_csv(url("http://courses.markuskainu.fi/utur2018/datasetit/ess_subset.csv"))
dim(ess_data)
ess_meta <- readr::read_csv(url("http://courses.markuskainu.fi/utur2018/datasetit/ess_metadata.csv"))
dim(ess_meta)
Metadatan excelinä voit ladata tästä
European Social Survey
Monille tuttu data, helppo tehdä jotain kenties oman opinnäytteen suhteen relevanttia.
Helsingin kaupunkifillarijärjestelmä
Avointa dataa Turusta
joku muu mikä?
Mikäli käytät jotain eksoottisempaa aineistoa, muista kuvata se tarkasti harjotustyössä!
2017-2018 Markus Kainu.
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.