Ohjeet

Vaatimukset

Harjotustyön tarkoituksena on soveltaa itsenäisesti kurssilla opittuja data-analyysin taitoja prosessin eri vaiheisiin. Opiskelijan tulee joko yksin tai pareittain laatia itseä kiinnostavasta aiheesta suppea data-analyysi, jossa:

  1. haetaan dataa internetistä joko tiedostosta tai rajapinnasta (paketit readr,haven,readxl)
  2. puhdistaa, muokata ja yhdistellä datoja (paketit tidyr,dplyr,stringr)
  3. laskea yhteenvetoja ja raportoida tunnuslukuja (paketit dplyr)
  4. raportoida tuloksia taulukoilla, kuvioilla ja mahdollisesti myös tilastollisilla malleilla (paketit dplyr,forcats,ggplot2)

Työn tekninen rakenne

Koko prosessi kirjoitetaan yhtenä toistettavana .Rmd-dokumenttina. Mallipohjan voit ladata alta.

Saat harjoitustyön pohjan myös komennoilla:

lns <- readLines("http://courses.markuskainu.fi/utur2018/harjoitukset/harjoitustyo_demo.Rmd")
writeLines(lns, "./harjoitustyo_demo.Rmd")
file.edit("./harjoitustyo_demo.Rmd")

Toimi siis seuraavasti

  1. Luo uusi projekti RStudiossa, vaikka nimellä utur2019harjoitustyo.
  2. Tallenna harjoitustyön mallipohja ko. kansioon
  3. Varmista että kaikki mallipohjan tarvitsemat paketit on asennettu
  4. Klikkaa editorin ylälaidasta Knit-nappulaa tai käytä pikanäppäintä Ctrl + Shift + k, ja varmista että RStudio saa generoitua outputin valmiiksi (identtinen .html tiedosto kuin yllä esikatselulinkissä!)
  5. Tee oma harjoitustyösi mallipohjan päälle ja testaa eri koneilla että se toimii. (Knit-prosessi menee läpi ilman virheitä)
  6. Palauta kotitehtävä

Älä tee työstä liian pitkää, mutta yritä vaikeita asioita. Voit saada palautteesta enemmän irti kun yrität jotain missä et onnistu..!

Palauttaminen

Harjoitustyö palautetaan maanantaina 3.kesäkuuta kello 16.00 mennessä. Palauta harjoitustyö harjoitusten tapaan.


2017-2019 Markus Kainu.

Creative Commons -lisenssi
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.