1 Ohjeet

1.1 Vaatimukset

Harjotustyön tarkoituksena on soveltaa itsenäisesti kurssilla opittuja data-analyysin taitoja prosessin eri vaiheisiin. Opiskelijan tulee joko yksin tai pareittain laatia itseä kiinnostavasta aiheesta suppea data-analyysi, jossa:

  1. haetaan dataa internetistä joko tiedostosta tai rajapinnasta (paketit readr,haven,readxl)
  2. puhdistaa, muokata ja yhdistellä datoja (paketit tidyr,dplyr,stringr)
  3. laskea yhteenvetoja ja raportoida tunnuslukuja (paketit dplyr)
  4. raportoida tuloksia taulukoilla, kuvioilla ja mahdollisesti myös tilastollisilla malleilla (paketit dplyr,forcats,ggplot2)

1.2 Työn tekninen rakenne

Koko prosessi kirjoitetaan yhtenä toistettavana .Rmd-dokumenttina. Mallipohjan voit ladata alta.

Saat harjoitustyön pohjan myös komennoilla:

# päivitä paketti
devtools::install_git("https://gitlab.com/muuankarski/utur2018")
# tarkista että versio on 0.1.6 tai uudempi 
packageVersion("utur2018")
# lataa harjoitustyön pohja
utur2018::lataa_harjoitustehtava_demo(tiedostonimi = "mun_oma_analyysi.Rmd")

Toimi siis seuraavasti

  1. Luo uusi projekti RStudiossa, vaikka nimellä utur2018harjoitustyo.
  2. Tallenna harjoitustyön mallipohja ko. kansioon
  3. Varmista että kaikki mallipohjan tarvitsemat paketit on asennettu
  4. Klikkaa editorin ylälaidasta Knit-nappulaa tai käytä pikanäppäintä Ctrl + Shift + k, ja varmista että RStudio saa generoitua outputin valmiiksi (identtinen .html tiedosto kuin yllä esikatselulinkissä!)
  5. Tee oma harjoitustyösi mallipohjan päälle ja testaa eri koneilla että se toimii. (Knit-prosessi menee läpi ilman virheitä)
  6. Palauta kotitehtävä

Älä tee työstä liian pitkää, mutta yritä vaikeita asioita. Voit saada palautteesta enemmän irti kun yrität jotain missä et onnistu..!

1.3 Palauttaminen

Harjoitustyö palautetaan perjantaina 27. huhtikuuta kello 16.00 mennessä. Palauta harjoitustyö harjoitusten tapaan.

1.4 ESS-data harjoitustyössä

Voit käyttää ESS-ää harjoitustyössä. Koko ESS-data on turhan suuri harjotustyöhön ja siitä syystä joidenkin R saattoi kaatui. Tein ESS-dastasta vain Pohjoismaat sisältävän subsetin ja samalla poistin datasta kaikki Statan “attribuutit”. Käytin siihen tidyvmetadata::strip_attributes()-funktiota, joka käytännössä ajaa joka sarakkeelle funktion as.vector(). Tein Stata-datasta myös ns. metadatan funktiolla tidyvmetadata::create_metadata(), jonka voit ladata joko .csv tai .xlsx muodossa.

ESS-datan käsittely harjoitustyötä varten

library(dplyr)
stata <- haven::read_dta("./datasetit/ESS8e01.stata/ESS8e01.dta")
stata_subset <- stata %>% 
  filter(cntry %in% c("FI","NO","SE","DK","IS")) 
d <- tidymetadata::strip_attributes(stata_subset)
m <- tidymetadata::create_metadata(stata_subset)

readr::write_csv(d, "./datasetit/ess_subset.csv")
readr::write_csv(m, "./datasetit/ess_metadata.csv")
writexl::write_xlsx(m, "./datasetit/ess_metadata.xlsx")

Käsitellyn datan lataaminen omaan harjoitustyöhön!

ess_data <- readr::read_csv(url("http://courses.markuskainu.fi/utur2018/datasetit/ess_subset.csv"))
dim(ess_data)
ess_meta <- readr::read_csv(url("http://courses.markuskainu.fi/utur2018/datasetit/ess_metadata.csv"))
dim(ess_meta)

Metadatan excelinä voit ladata tästä

2 Aiheita

European Social Survey

Monille tuttu data, helppo tehdä jotain kenties oman opinnäytteen suhteen relevanttia.

Helsingin kaupunkifillarijärjestelmä

Avointa dataa Turusta

joku muu mikä?

Mikäli käytät jotain eksoottisempaa aineistoa, muista kuvata se tarkasti harjotustyössä!


2017-2018 Markus Kainu.

Creative Commons -lisenssi
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.