1.1. Quality of Governmentin Basic data on osoitteessa http://www.qogdata.pol.gu.se/data/qog_bas_cs_jan18.csv
. Miten luot kansion datasets
ja tallennan ko. tiedoston sinne?
dir.create("./aineisto")
download.file(url = "http://www.qogdata.pol.gu.se/data/qog_bas_cs_jan18.csv", destfile = "./aineisto/qog_bas_cs_jan18.csv", mode = "wb")
1.2. Miten luet edellä lataamasi csv
-datan R:n käyttäen molempien readr::read_csv()
ja read.csv()
-funktioita?
read.csv("./aineisto/qog_bas_cs_jan18.csv", stringsAsFactors = FALSE)
# Or
readr::read_csv("./aineisto/qog_bas_cs_jan18.csv")
1.3. Miten tuot datasetin pensions
R:ään sivulta: https://vincentarelbundock.github.io/Rdatasets/datasets.html
read.csv('https://vincentarelbundock.github.io/Rdatasets/csv/robustbase/pension.csv', stringsAsFactors=FALSE)
# Or
readr::read_csv('https://vincentarelbundock.github.io/Rdatasets/csv/robustbase/pension.csv')
1.4. Miten lataat ja tallennat datasetin pensions
kansioon aineisto
sivulta: https://vincentarelbundock.github.io/Rdatasets/datasets.html ja luet sen R:ään
dir.create("./aineisto")
download.file(url = "https://vincentarelbundock.github.io/Rdatasets/csv/plm/Males.csv", destfile = "./aineisto/males.csv")
read.csv("./aineisto/males.csv", header = TRUE, stringsAsFactors = FALSE)
1.5. Lataa ‘Life in Transition II’ aineisto kansioon aineisto
sivulta: http://www.ebrd.com/news/publications/special-reports/life-in-transition-survey-ii.html ja lue se R:ään. Selvitä kuinka monta riviä ja saraketta aineistossa on?
download.file(url = "http://www.ebrd.com/downloads/research/surveys/lits2.dta", "./aineisto/lits2.dta", mode = "wb")
lits <- haven::read_dta("./aineisto/lits2.dta")
dim(lits)
1.6. Maailmanpankki ylläpitää ekseliä, johon on koottu taloudellista eriarvoisuutta kuvaavan gini-indeksin arvoja eri maista eri tutkimusprojekteista. Ekseli sijaitsee täällä: http://siteresources.worldbank.org/INTRES/Resources/469232-1107449512766/allginis_2013.xls - miten luet sen R:ään?
download.file("http://siteresources.worldbank.org/INTRES/Resources/469232-1107449512766/allginis_2013.xls",
"./aineisto/allginis_2013.xls", mode="wb")
d <- readxl::read_excel("./aineisto/allginis_2013.xls")
1.7. Laita joku excel-tiedosto johonkin paikkaan internetissä ja kirjoita alle koodi, jolla jokainen voi sen ladata sen R:ään
download.file(url = "http://www.randomsite.com/file.xlsx", "./file.xlsx", mode = "wb")
df <- readxl::read_excel("./file.xlsx")
1.8. Miten saan pxweb
-paketilla Tilastokeskuksesta suomenkielisen taulukon kuntien vuoden 2016 avainluvuista siivottuna Akaan kunnasta Alle 15-vuotiaiden osuuden väestöstä
d <- pxweb::interactive_pxweb()
1.9. Eurostatin tilastotietokannassa on dataa mm. kotitalouksien tuloista. Miten haet R:ään jonkun kotitalouksien tuloja kuvaavan datan eurostat
-paketilla?
eurostat::search_eurostat(pattern = "household income")
eurostat::get_eurostat(id = "tour_dem_ttinc")
2.1. dplyr
-paketti sisältää datan starwars
. Kukin rivi on yksi elokuvan hahmo. Miten valitset hahmot joilla on ruskeat silmät ja teet siitä objektin suklaasilmat
?
suklaasilmat <- dplyr::starwars %>% filter(eye_color == "brown")
2.2. dplyr
-paketti sisältää datan starwars
. Valitse elokuvan hahmoista ne, jotka ovat painavat alle 100, ovat sukupuoleltaan naisia ja jotka ovat syntyneet vuonna 40 tai sitä aikaisemmin. Tee heistä objekti naishahmot
naishahmot <- dplyr::starwars %>% filter(mass < 200, gender == "female", birth_year <= 40)
2.3. dplyr
-paketti sisältää datan starwars
. Valitse datasta kolme ensimmäistä muuttujaa ja tee siitä objekti kolme_ekaa
kolme_ekaa <- dplyr::starwars %>% select(1:3)
2.4. dplyr
-paketti sisältää datan starwars
. Valitse datasta muuttujat name
ja species
, ja tee siitä objekti nimi_ja_laji
nimi_ja_laji <- dplyr::starwars %>% select(name, species)
2.5. dplyr
-paketti sisältää datan starwars
. Valitse datasta muuttujat joiden nimessä on sana color
, ja tee siitä objekti varit
varit <- dplyr::starwars %>% select(contains("color"))
2.6. dplyr
-paketti sisältää datan starwars
. Poista datasta muuttujat joiden nimessä on sana color
, ja jäljelle jäävistä objekti ei_varit
ei_varit <- dplyr::starwars %>% select(-contains("color"))
2.7. dplyr
-paketti sisältää datan starwars
. Valitse ainoastaan hahmot jotka kuuluvat ihmislajiin ja heistä muuttujat nimi, sukupuoli ja syntymävuosi. Tee heistä objekti ihmiset
ihmiset <- dplyr::starwars %>% filter(species == "Human") %>% select(name,gender,birth_year)
2.8. dplyr
-paketti sisältää datan starwars
. Valitse ainoastaan hahmot jotka eivät kuulu ihmislajiin ja heistä muuttujat jotka alkavat kirjaimella h
. Tee heistä objekti elukat
elukat <- dplyr::starwars %>% filter(species != "Human") %>% select(starts_with("h"))
2.9. Tuo R:ään QOG-propektin OECD-datan aikasarja komennolla dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
. Valitse datasta kaikki Maailman pankin World Development Indicators muuttujat (nimi muotoa wdi_*
) ja nämä Pohjoismailta vuosilta 2000-2010.
dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
dat %>% filter(cname %in% c("Finland","Sweden","Norway","Denmark","Iceland"),
year %in% 2000:2010) %>%
select(starts_with("wdi_"))
2.10. Tuo R:ään QOG-propektin OECD-datan aikasarja komennolla dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
. Valitse datasta kaikki YK:n inhimillisen kehityksen indeksi ja kaikki Pohjoismaat vuosilta 2000-2010 ja käännä aineisto leveään muotoon tidyr-paketin funktiolla spread()
dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
dat %>% filter(cname %in% c("Finland","Sweden","Norway","Denmark","Iceland"),
year %in% 2000:2010) %>%
select("cname","year","undp_hdi") %>%
spread(year, undp_hdi) -> levea
2.11. Luo levea data alla olevalla skriptillä ja käännä se takaisin pitkäksi ns. tidy-muotoon tidyr-paketin funktiolla gather()
levea %>% gather(key = vuosi, value = arvo, 2:12)
3.1. dplyr
-paketti sisältää datan starwars
. Tee hajontakuvio (scatterplot), jossa hahmon pituus on x-akselilla, paino y-akselilla ja pisteen väri on hahmon laji.
ggplot(dplyr::starwars) + geom_point(aes(x=height,y=mass,color=species))
3.2. Tuo R:ään QOG-propektin OECD-datan aikasarja komennolla dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
. Piirrä funktiolla geom_line()
viivakuvio, jossa x-akselilla on vuosi ja y-akselilla YK:n ihnimillisen kehityksen indeksi ja viivan väri on maan nimen mukaan.
dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
ggplot(dat, aes(x = year, y = undp_hdi, color = cname)) + geom_line()
3.3. Tuo R:ään QOG-propektin OECD-datan aikasarja komennolla dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
. Valitse datasta Suomi. Piirrä funktiolla geom_col()
tolppakuvio, jossa x-akselilla on vuosi ja y-akselilla YK:n ihnimillisen kehityksen indeksi. Anna kuviolle otsikko “Inhimillisen kehityksen indeksi Suomessa”
dat <- rqog::read_qog(which.data = "oecd", data.type = "time-series")
ggplot(dat %>% filter(cname == "Finland"), aes(x = year, y = undp_hdi)) + geom_col() + labs(title = "Inhimillisen kehityksen indeksi Suomessa")