1 Correct answers: import

1.1. Quality of Governmentin Basic data on osoitteessa http://www.qogdata.pol.gu.se/data/qog_bas_cs_jan18.csv. Miten luot kansion datasets ja tallennan ko. tiedoston sinne?

dir.create("./aineisto")
download.file(url = "http://www.qogdata.pol.gu.se/data/qog_bas_cs_jan18.csv", destfile = "./aineisto/qog_bas_cs_jan18.csv", mode = "wb")

1.2. Miten luet edellä lataamasi csv-datan R:n käyttäen molempien readr::read_csv() ja read.csv() -funktioita?

read.csv("./aineisto/qog_bas_cs_jan18.csv", stringsAsFactors = FALSE)
# Or
readr::read_csv("./aineisto/qog_bas_cs_jan18.csv")

1.3. Miten tuot datasetin pensions R:ään sivulta: https://vincentarelbundock.github.io/Rdatasets/datasets.html

read.csv('https://vincentarelbundock.github.io/Rdatasets/csv/robustbase/pension.csv', stringsAsFactors=FALSE)
# Or
readr::read_csv('https://vincentarelbundock.github.io/Rdatasets/csv/robustbase/pension.csv')

1.4. Miten lataat ja tallennat datasetin pensions kansioon aineisto sivulta: https://vincentarelbundock.github.io/Rdatasets/datasets.html ja luet sen R:ään

dir.create("./aineisto")
download.file(url = "https://vincentarelbundock.github.io/Rdatasets/csv/plm/Males.csv", destfile = "./aineisto/males.csv")
read.csv("./aineisto/males.csv", header = TRUE, stringsAsFactors = FALSE)

1.5. Lataa ‘Life in Transition II’ aineisto kansioon aineisto sivulta: http://www.ebrd.com/news/publications/special-reports/life-in-transition-survey-ii.html ja lue se R:ään. Selvitä kuinka monta riviä ja saraketta aineistossa on?

download.file(url = "http://www.ebrd.com/downloads/research/surveys/lits2.dta", "./aineisto/lits2.dta", mode = "wb")
lits <- haven::read_dta("./aineisto/lits2.dta")
dim(lits)

1.6. Maailmanpankki ylläpitää ekseliä, johon on koottu taloudellista eriarvoisuutta kuvaavan gini-indeksin arvoja eri maista eri tutkimusprojekteista. Ekseli sijaitsee täällä: http://siteresources.worldbank.org/INTRES/Resources/469232-1107449512766/allginis_2013.xls - miten luet sen R:ään?

download.file("http://siteresources.worldbank.org/INTRES/Resources/469232-1107449512766/allginis_2013.xls",
              "./aineisto/allginis_2013.xls", mode="wb")
d <- readxl::read_excel("./aineisto/allginis_2013.xls")

1.7. Laita joku excel-tiedosto johonkin paikkaan internetissä ja kirjoita alle koodi, jolla jokainen voi sen ladata sen R:ään

download.file(url = "http://www.randomsite.com/file.xlsx", "./file.xlsx", mode = "wb")
df <- readxl::read_excel("./file.xlsx")

1.8. Miten saan pxweb-paketilla Tilastokeskuksesta suomenkielisen taulukon kuntien vuoden 2016 avainluvuista siivottuna Akaan kunnasta Alle 15-vuotiaiden osuuden väestöstä

d <- pxweb::interactive_pxweb()

1.9. Eurostatin tilastotietokannassa on dataa mm. kotitalouksien tuloista. Miten haet R:ään jonkun kotitalouksien tuloja kuvaavan datan eurostat-paketilla?

eurostat::search_eurostat(pattern = "household income")
eurostat::get_eurostat(id = "tour_dem_ttinc")

2 Correct answers: transform

2.1. dplyr-paketti sisältää datan starwars. Kukin rivi on yksi elokuvan hahmo. Miten valitset hahmot joilla on ruskeat silmät ja teet siitä objektin suklaasilmat?

suklaasilmat <- dplyr::starwars %>% filter(eye_color == "brown")

2.2. dplyr-paketti sisältää datan starwars. Valitse elokuvan hahmoista ne, jotka ovat painavat alle 100, ovat sukupuoleltaan naisia ja jotka ovat syntyneet vuonna 40 tai sitä aikaisemmin. Tee heistä objekti naishahmot

naishahmot <- dplyr::starwars %>% filter(mass < 200, gender == "female", birth_year <= 40)

2.3. dplyr-paketti sisältää datan starwars. Valitse datasta kolme ensimmäistä muuttujaa ja tee siitä objekti kolme_ekaa

kolme_ekaa <- dplyr::starwars %>% select(1:3)

2.4. dplyr-paketti sisältää datan starwars. Valitse datasta muuttujat name ja species, ja tee siitä objekti nimi_ja_laji

nimi_ja_laji <- dplyr::starwars %>% select(name, species)

2.5. dplyr-paketti sisältää datan starwars. Valitse datasta muuttujat joiden nimessä on sana color, ja tee siitä objekti varit

varit <- dplyr::starwars %>% select(contains("color"))

2.6. dplyr-paketti sisältää datan starwars. Poista datasta muuttujat joiden nimessä on sana color, ja jäljelle jäävistä objekti ei_varit

ei_varit <- dplyr::starwars %>% select(-contains("color"))

2.7. dplyr-paketti sisältää datan starwars. Valitse ainoastaan hahmot jotka kuuluvat ihmislajiin ja heistä muuttujat nimi, sukupuoli ja syntymävuosi. Tee heistä objekti ihmiset

ihmiset <- dplyr::starwars %>% filter(species == "Human") %>% select(name,gender,birth_year)

2.8. dplyr-paketti sisältää datan starwars. Valitse ainoastaan hahmot jotka eivät kuulu ihmislajiin ja heistä muuttujat jotka alkavat kirjaimella h. Tee heistä objekti elukat

elukat <- dplyr::starwars %>% filter(species != "Human") %>% select(starts_with("h"))

2.9. Tuo R:ään QOG-propektin OECD-datan aikasarja komennolla dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series"). Valitse datasta kaikki Maailman pankin World Development Indicators muuttujat (nimi muotoa wdi_*) ja nämä Pohjoismailta vuosilta 2000-2010.

dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
dat %>% filter(cname %in% c("Finland","Sweden","Norway","Denmark","Iceland"),
               year %in% 2000:2010) %>%
  select(starts_with("wdi_"))

2.10. Tuo R:ään QOG-propektin OECD-datan aikasarja komennolla dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series"). Valitse datasta kaikki YK:n inhimillisen kehityksen indeksi ja kaikki Pohjoismaat vuosilta 2000-2010 ja käännä aineisto leveään muotoon tidyr-paketin funktiolla spread()

dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
dat %>% filter(cname %in% c("Finland","Sweden","Norway","Denmark","Iceland"),
               year %in% 2000:2010) %>%
  select("cname","year","undp_hdi") %>% 
  spread(year, undp_hdi) -> levea

2.11. Luo levea data alla olevalla skriptillä ja käännä se takaisin pitkäksi ns. tidy-muotoon tidyr-paketin funktiolla gather()

levea %>% gather(key = vuosi, value = arvo, 2:12)

3 Correct answers: visualise

3.1. dplyr-paketti sisältää datan starwars. Tee hajontakuvio (scatterplot), jossa hahmon pituus on x-akselilla, paino y-akselilla ja pisteen väri on hahmon laji.

ggplot(dplyr::starwars) + geom_point(aes(x=height,y=mass,color=species))

3.2. Tuo R:ään QOG-propektin OECD-datan aikasarja komennolla dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series"). Piirrä funktiolla geom_line() viivakuvio, jossa x-akselilla on vuosi ja y-akselilla YK:n ihnimillisen kehityksen indeksi ja viivan väri on maan nimen mukaan.

dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
ggplot(dat, aes(x = year, y = undp_hdi, color = cname)) + geom_line()

3.3. Tuo R:ään QOG-propektin OECD-datan aikasarja komennolla dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series"). Valitse datasta Suomi. Piirrä funktiolla geom_col() tolppakuvio, jossa x-akselilla on vuosi ja y-akselilla YK:n ihnimillisen kehityksen indeksi. Anna kuviolle otsikko “Inhimillisen kehityksen indeksi Suomessa”

dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
ggplot(dat %>% filter(cname == "Finland"), aes(x = year, y = undp_hdi)) + geom_col() + labs(title = "Inhimillisen kehityksen indeksi Suomessa")

Datan lukeminen, muokkaaminen ja visualisoinnin perusteet

aurelius

2018-03-26 07:54:26

1 Correct answers: import

2 Correct answers: transform

3 Correct answers: visualise