Asentamalla uusia paketteja saat R:ään käyttöön uusia funktioita. Monissa paketeissa mukana tulee myös pieniä datoja funktioiden käytön harjoitteluun. Useimmat paketeista mahdollistavat jonkun laskennallisen operaation tekemisen, yhä useammat tarjoavat toiminnallisuuksia R:stä esim. tietokantojen (eurostat) tai verkkoteknologioiden (leaflet) rajapintoihin.

# Asenna keskitetystä pakettihallinnasta CRAN
# Ota paketti käyttöön
# Asenna kehitysversiot github:sta devtools-paketin avulla

Ladattujen pakettien uusia funktioita voi käyttää joko A) lataamalla paketin ja kutsumalla funktiota tai B) kutsumalla pakettia ja funktiota yhtä aikaa. Tämän kurssin materiaaleissa pyrin käyttämään aina vaihtoehtoa B, jotta opiskelijoille olisi selkeämpää milloin käytössä oleva funktio on ns. “ulkoisesta” paketista ja milloin taas ns. base-R:stä

# tapa A
d <- get_eurostat(id = "tgs00026")
# tapa B
d <- eurostat::get_eurostat(id = "tgs00026")
Paketit tulee asentaa uudelleen aina uuden R-version myötä (x.y (3.6) version kohdalla, ei x.y.z (3.5.3) kohdalla)

R:n perusteet

To understand computations in R, two slogans are helpful:

  • Everything that exists is an object.
  • Everything that happens is a function call."
John Chambers
Creator of the S programming language, and core member of the R programming language project.

Eli R:n toiminnan ymmärtämisessä on tärkeää muistaa kaksi asiaa:

  1. Kaikki mitä on olemassa ovat objekteja
  2. Kaikki mikä tapahtuu, tapahtuu kutsumalla funktioita

Objektien luominen

Everything that exists is an object

objekti <- objektin_arvo
objekti = objektin_arvo

100 * (0.05 + 0.05)
# [1] 10
# [1] 4

# numeerinen vektori jonka pituus on 1 ja arvo 100
sata <- 100
# [1] 100
# [1] "numeric" "vector"

# character vektori jonka pituus on 1 ja arvo "sata"
sata_tekstina <- "sata"
# [1] "sata"
# [1] "character" "vector" "data.frameRowLabels" "SuperClassMethod"
# Luodaan kaksi 7 elementin pituista vektoria, joista toinen on numeerinen ja toinen character
nimi <- c("Juhani","Tuomas","Aapo","Simeoni","Timo","Lauri","Eero")
ika  <- c(25,23,23,22,20,20,17)
# "character"
# "double"
# loogiset vektorit
looginen_vektori <- c(TRUE,FALSE,T,T,F,FALSE)

Funktioiden kutsuminen/käyttö

Everything that happens is a function call

vektori <- c(1,2,3,4,5,6,7,8)
ka <- mean(vektori)
# [1] 4.5
# [1] "function" "OptionalFunction" "PossibleMethod"
# [1] 36

Koodin kirjoituskonventiot

Koodia kirjoitetaan ensisijaisesti tietokoneelle, mutta sen pitää olla ymmärrettävää myös ihmisille. R-ympäristössä on erilaisia tapoja kirjoittaa komentoja, ja tällä kurssilla pyrin käyttämään paljon ns. ketjutusta (piping ie. pipeline).

R:ään tämän ketjutuksen tarjoaa magrittr-paketti. Pipe-operator tai putkioperaattori %>% voidaan ajatella tarkoittavan then/sitten. Pikanäppäin on Ctrl + Shift + m.

Alla on erilaisia tapoja kirjoittaa/jäsentää koodia/analyysiprosessia. Esimerkissä käsitellään dplyr::starwars

d <- dplyr::starwars
# 1) Yksi operaatio per rivi
d_subset <- select(d, name, height, mass, hair_color, skin_color, eye_color, homeworld, species)
d_non_humans <- filter(d_subset, species != "Human")
d_non_humans_punajasinisilmat <- filter(d_subset, eye_color %in% c("red","blue"))
d_non_humans_punajasinisilmat_by_height <- arrange(d_non_humans_punajasinisilmat, desc(height))
tulos1 <- slice(d_non_humans_punajasinisilmat_by_height, 1:5)

# + analyysin välivaiheet on saatavilla
# - paljon nimeämistä, joka työlästä

# 2) operaatiot sisäkkäin yhdellä rivillä

tulos2 <- slice(arrange(filter(filter(select(d, name, height, mass, hair_color, skin_color, eye_color, homeworld, species),species != "Human"), eye_color %in% c("red","blue")), desc(height)), 1:5)
# - edellyttää lukemista oikealta vasemmalle
# + ei tarvitse nimetä

# 3) Operaatiot ketjutettuina
tulos3 <- d %>%  
  select(name, height, mass, hair_color, skin_color, eye_color, homeworld, species) %>% 
  filter(species != "Human") %>% 
  filter(eye_color %in% c("red","blue")) %>% 
  arrange(desc(height)) %>% 

# + ei tarvitse nimetä
# + vasemmalta oikealle
# - ei pääsyä välivaiheisiin

Funktiot tiedostojärjestelmän käyttöön

Tiedostojärjestelmätoiminnot [fs](

# luo kansio "aineisto" nykyiseen työhakenmistoon
dir.create(path = "./aineisto")
fs::dir_create(path = "./aineisto")
# luo uusi tekstitiedosto "teksti.txt" nykyiseen työhakemistoon ja avaa se muokattavaksi
fs::file_create("./teksti.txt") %>% file.edit()
# listaa työhakemistossa ja sen alahakemistoissa olevat tiedostot, joilla pääte ".R"
list.files(path = "./", all.files = TRUE, full.names = TRUE, recursive = TRUE, pattern = ".R$")
fs::dir_ls(path = "./",  all = TRUE, type = "file",  recursive = TRUE, glob = "*.R")
# listaa kaikki työhakemiston alahakemistot ja niiden alahakemistot
list.dirs(path = "./", recursive = TRUE, full.names = TRUE)
fs::dir_ls(path = "./",  all = TRUE, type = "directory",  recursive = TRUE)
# kopioi tiedosto teksti.txt kansioon aineisto
file.copy(from = "./session1_perusteet.R", to = "./aineisto")
fs::file_copy(path = "./session1_perusteet.R", new_path = "./aineisto/session1_perusteet.R")
# poista kaikki tiedostot kansiosta aineisto, joilla pääte ".R"
file.remove(list.files(path = "./aineisto", pattern = ".R$"))
fs::file_delete(path = fs::dir_ls(path = "./",  all = TRUE, type = "file",  recursive = TRUE, glob = "*.R"))
# fs-paketin näppärät lisämuuttujat
fs::dir_info(path = "./", all = TRUE, recursive = TRUE, type = "file") %>% 
# tiedostojen lataaminen verkosta levylle
download.file(url = "", 
              # windowsissa muista
              mode = "wb",
              destfile = "./aineisto/allginis_2013.xls")
# pakattujen zip-tiedostojen lataaminen ja purkaminen
download.file(url = "",
              destfile = "./Food_Security_Data_E_All_Data_(Normalized).zip")
unzip("./Food_Security_Data_E_All_Data_(Normalized).zip", exdir = "./aineisto")
d <- read.csv("./aineisto/Food_Security_Data_E_All_Data_(Normalized).csv", stringsAsFactors = FALSE)

Datojen lukeminen levyltä ja kirjoittaminen levylle (tiedostot!)

download.file("", "./aineisto_tmp/qog_oecd_cs_jan19.csv", mode = "wb")
download.file("", "./aineisto_tmp/it04ip.sav", mode = "wb")
download.file("", "./aineisto_tmp/it04ip.sas7bdat", mode = "wb")
download.file("", "./aineisto_tmp/it04ip.dta", mode = "wb")

csv   <- readr::read_csv("./aineisto_tmp/qog_oecd_cs_jan19.csv")
spss  <- haven::read_sav("./aineisto_tmp/it04ip.sav")
sas   <- haven::read_sas("./aineisto_tmp/it04ip.sas7bdat")
stata <- haven::read_dta("./aineisto_tmp/it04ip.dta")

haven::write_dta(data = stata, path = "./aineisto_tmp/stata.dta")
haven::write_sas(data = stata, path = "./aineisto_tmp/stata.sas7bdat")
haven::write_sav(data = stata, path = "./aineisto_tmp/stata.sav")

fs::dir_delete(path = "./aineisto_tmp") 

Datojen lukeminen ja kirjoittaminen tietokantaan

con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:")
copy_to(con, nycflights13::flights, "flights",
  temporary = FALSE, 
  indexes = list(
    c("year", "month", "day"), 

# Haetaan flights taulu ns. näkymäksi (reference) tietokannassa! EI SIIS TUODA R:än muistiin!
flights_db <- tbl(con, "flights")
# Sama SQL-kielellä
# flights_db <- odbc::dbGetQuery(con, "SELECT * FROM flights")

# valitaan muuttujia näkymässä
flights_db %>% select(year:day, dep_delay, arr_delay)
## # Source:   lazy query [?? x 5]
## # Database: sqlite 3.22.0 []
##     year month   day dep_delay arr_delay
##    <int> <int> <int>     <dbl>     <dbl>
##  1  2013     1     1         2        11
##  2  2013     1     1         4        20
##  3  2013     1     1         2        33
##  4  2013     1     1        -1       -18
##  5  2013     1     1        -6       -25
##  6  2013     1     1        -4        12
##  7  2013     1     1        -5        19
##  8  2013     1     1        -3       -14
##  9  2013     1     1        -3        -8
## 10  2013     1     1        -2         8
## # … with more rows
# suodatetaan rivejä näkymässä
flights_db %>% filter(dep_delay > 240)
## # Source:   lazy query [?? x 19]
## # Database: sqlite 3.22.0 []
##     year month   day dep_time sched_dep_time dep_delay arr_time
##    <int> <int> <int>    <int>          <int>     <dbl>    <int>
##  1  2013     1     1      848           1835       853     1001
##  2  2013     1     1     1815           1325       290     2120
##  3  2013     1     1     1842           1422       260     1958
##  4  2013     1     1     2115           1700       255     2330
##  5  2013     1     1     2205           1720       285       46
##  6  2013     1     1     2343           1724       379      314
##  7  2013     1     2     1332            904       268     1616
##  8  2013     1     2     1412            838       334     1710
##  9  2013     1     2     1607           1030       337     2003
## 10  2013     1     2     2131           1512       379     2340
## # … with more rows, and 12 more variables: sched_arr_time <int>,
## #   arr_delay <dbl>, carrier <chr>, flight <int>, tailnum <chr>,
## #   origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,
## #   minute <dbl>, time_hour <dbl>
# tehdään ryhmittäisiä yhteenvetoja näkymässä
flights_db %>% 
  group_by(dest) %>%
  summarise(delay = mean(dep_time))
## # Source:   lazy query [?? x 2]
## # Database: sqlite 3.22.0 []
##    dest  delay
##    <chr> <dbl>
##  1 ABQ   2006.
##  2 ACK   1033.
##  3 ALB   1627.
##  4 ANC   1635.
##  5 ATL   1293.
##  6 AUS   1521.
##  7 AVL   1175.
##  8 BDL   1490.
##  9 BGR   1690.
## 10 BHM   1944.
## # … with more rows
# Tehdään uusi näkymä, jossa ryhmittäisiä yhteenvetoja ja suodatuksia
tailnum_delay_db <- flights_db %>% 
  group_by(tailnum) %>%
    delay = mean(arr_delay),
    n = n()
  ) %>% 
  arrange(desc(delay)) %>%
  filter(n > 100)

# Näytetään yo. käsittelyn SQL-koodi
tailnum_delay_db %>% show_query()
## <SQL>
## FROM (SELECT `tailnum`, AVG(`arr_delay`) AS `delay`, COUNT() AS `n`
## FROM `flights`
## GROUP BY `tailnum`)
## ORDER BY `delay` DESC)
## WHERE (`n` > 100.0)
# Haetaan datan R:än muistiin tibble-objektiksi
tailnum_delay <- tailnum_delay_db %>% collect()

Avoimen datan hyödyntäminen

pxweb eli Tilastokeskus, verottaja yms.

dat <- pxweb::pxweb_interactive()

CKAN-alustalla julkaistun datan käyttö (, mm. Väestörekisterikeskus, tulevaisuudessa myös Kela)

# install.packages(ckanr)
ckanr_setup(url = "")
x <- package_search(q = "Väestörekisterikeskus", fq = "title:nimi")
resources <- x$results[[1]]$resources

download.file(resources[[1]]$url, "file.xlsx", mode = "wb")
## [1] "Miehet kaikki" "Miehet ens"    "Miehet muut"   "Naiset kaikki"
## [5] "Naiset ens"    "Naiset muut"   "Saate"
dat <- readxl::read_xlsx("file.xlsx", sheet = "Miehet kaikki") # data
## # A tibble: 6 x 2
##   Etunimi  Lukumäärä
##   <chr>        <dbl>
## 1 Juhani      288179
## 2 Olavi       144642
## 3 Antero      139907
## 4 Tapani      136887
## 5 Johannes    135708
## 6 Tapio       116507

Kansainväliset organisaatiot


res <- search_eurostat("Gross domestic")
dat <- eurostat::get_eurostat("nama_10r_2gdp")
## # A tibble: 6 x 4
##   unit    geo   time       values
##   <fct>   <fct> <date>      <dbl>
## 1 EUR_HAB AT    2017-01-01  42100
## 2 EUR_HAB AT1   2017-01-01  41700
## 3 EUR_HAB AT11  2017-01-01  30000
## 4 EUR_HAB AT12  2017-01-01  34400
## 5 EUR_HAB AT13  2017-01-01  50000
## 6 EUR_HAB AT2   2017-01-01  37500


##       indicator                       
##  [1,] "SH.XPD.TOTL.ZS"                
##  [2,] "SH.XPD.PUBL.ZS"                
##  [3,] "SH.XPD.PRIV.ZS"                
##  [4,] "SH.XPD.KHEX.GD.ZS"             
##  [5,] "SH.XPD.GHED.GD.ZS"             
##  [6,] "SH.XPD.CHEX.GD.ZS"             
##  [7,] "UIS.XGDP.23.FSGOV"             
##  [9,] "UIS.XGDP.1.FSGOV"              
##       name                                                                
##  [1,] "Health expenditure, total (% of GDP)"                              
##  [2,] "Health expenditure, public (% of GDP)"                             
##  [3,] "Health expenditure, private (% of GDP)"                            
##  [4,] "Capital health expenditure (% of GDP)"                             
##  [5,] "Domestic general government health expenditure (% of GDP)"         
##  [6,] "Current health expenditure (% of GDP)"                             
##  [7,] "Government expenditure on secondary education as % of GDP (%)"     
##  [8,] "Government expenditure in primary institutions as % of GDP (%)"    
##  [9,] "Government expenditure on primary education as % of GDP (%)"       
## [10,] "Government expenditure in pre-primary institutions as % of GDP (%)"
dat <- WDI(indicator='NY.GDP.PCAP.KD', country=c('MX','CA','US'), start=1960, end=2012)
##   iso2c country NY.GDP.PCAP.KD year
## 1    CA  Canada       48724.25 2012
## 2    CA  Canada       48456.96 2011
## 3    CA  Canada       47447.48 2010
## 4    CA  Canada       46543.79 2009
## 5    CA  Canada       48510.57 2008
## 6    CA  Canada       48552.70 2007


search_dataset("unemployment", data = dataset_list)
dataset_list <- get_datasets()
search_dataset("gdp", data = dataset_list)
# Katso ohjeita:


Datojen käsittelyn perusteet

Kurssin esimerkeissä tästä eteenpäin näytetään aina kaksi erilaista tapaa toteuttaa sama operaatio, 1) ns. base-R ratkaisu (ilman lisäpaketteja) ja 2) dplyr ratkaisu. Ratkaisut ovat aina peräkkäin ja dplyr-toteutus on aina merkitty eksplisiittisesti dplyr::funktio_x().

Kurssillä pyrimme käyttämään ainoastaan ns. data.frame luokkaan kuuluvia objekteja. Teknisesti ajateltuna R:ssä data.frame on vektoreista koostuva lista. Vektorit voivat olla numeerisia, tekstiä tai faktoreita, mutta niiden tulee olla saman pituisia (ks. 7-veljestä demo).

Käytetään dataa starwars paketista dplyr.

sw <- # tehdään aluksi normaaliksi data.frameksi
nrow(sw) # rivien määrä
## [1] 87
ncol(sw) # sarakkeiden/muuttujien määrä
## [1] 13
dim(sw)  # molemmat
## [1] 87 13
# Kuusi ensimmäistä riviä
head(sw) # tai
##  [ reached 'max' / getOption("max.print") -- omitted 11 rows ]
# tehdään datasta tibble ja tulostetaan
sw_tb <- tibble::as_tibble(sw)
## # A tibble: 87 x 13
##    name  height  mass hair_color skin_color eye_color birth_year gender
##    <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
##  1 Luke…    172    77 blond      fair       blue            19   male  
##  2 C-3PO    167    75 <NA>       gold       yellow         112   <NA>  
##  3 R2-D2     96    32 <NA>       white, bl… red             33   <NA>  
##  4 Dart…    202   136 none       white      yellow          41.9 male  
##  5 Leia…    150    49 brown      light      brown           19   female
##  6 Owen…    178   120 brown, gr… light      blue            52   male  
##  7 Beru…    165    75 brown      light      blue            47   female
##  8 R5-D4     97    32 <NA>       white, red red             NA   <NA>  
##  9 Bigg…    183    84 black      light      brown           24   male  
## 10 Obi-…    182    77 auburn, w… fair       blue-gray       57   male  
## # … with 77 more rows, and 5 more variables: homeworld <chr>,
## #   species <chr>, films <list>, vehicles <list>, starships <list>

Datan suodattaminen: Rivien/tapausten valitseminen (filtering)

# tehdään ensin sw-dastasta tibble
sw <- dplyr::starwars
# valitaan kaikki ruskeatukkaiset hahmot
sw[sw$hair_color == "brown",]
## # A tibble: 23 x 13
##    name  height  mass hair_color skin_color eye_color birth_year gender
##    <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
##  1 <NA>      NA    NA <NA>       <NA>       <NA>              NA <NA>  
##  2 <NA>      NA    NA <NA>       <NA>       <NA>              NA <NA>  
##  3 Leia…    150    49 brown      light      brown             19 female
##  4 Beru…    165    75 brown      light      blue              47 female
##  5 <NA>      NA    NA <NA>       <NA>       <NA>              NA <NA>  
##  6 Chew…    228   112 brown      unknown    blue             200 male  
##  7 Han …    180    80 brown      fair       brown             29 male  
##  8 <NA>      NA    NA <NA>       <NA>       <NA>              NA <NA>  
##  9 <NA>      NA    NA <NA>       <NA>       <NA>              NA <NA>  
## 10 Wedg…    170    77 brown      fair       hazel             21 male  
## # … with 13 more rows, and 5 more variables: homeworld <chr>,
## #   species <chr>, films <list>, vehicles <list>, starships <list>
dplyr::filter(sw, hair_color == "brown") # dplyr
## # A tibble: 18 x 13
##    name  height  mass hair_color skin_color eye_color birth_year gender
##    <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
##  1 Leia…    150    49 brown      light      brown             19 female
##  2 Beru…    165    75 brown      light      blue              47 female
##  3 Chew…    228   112 brown      unknown    blue             200 male  
##  4 Han …    180    80 brown      fair       brown             29 male  
##  5 Wedg…    170    77 brown      fair       hazel             21 male  
##  6 Jek …    180   110 brown      fair       blue              NA male  
##  7 Arve…     NA    NA brown      fair       brown             NA male  
##  8 Wick…     88    20 brown      brown      brown              8 male  
##  9 Qui-…    193    89 brown      fair       blue              92 male  
## 10 Ric …    183    NA brown      fair       blue              NA male  
## 11 Cordé    157    NA brown      light      brown             NA female
## 12 Clie…    183    NA brown      fair       blue              82 male  
## 13 Dormé    165    NA brown      light      brown             NA female
## 14 Tarf…    234   136 brown      brown      blue              NA male  
## 15 Raym…    188    79 brown      light      brown             NA male  
## 16 Rey       NA    NA brown      light      hazel             NA female
## 17 Poe …     NA    NA brown      light      brown             NA male  
## 18 Padm…    165    45 brown      light      brown             46 female
## # … with 5 more variables: homeworld <chr>, species <chr>, films <list>,
## #   vehicles <list>, starships <list>
# valitaan kaikki alle kaksimetriset, joilla siniset silmät
sw[sw$height < 200 & sw$eye_color == "blue",]
## # A tibble: 17 x 13
##    name  height  mass hair_color skin_color eye_color birth_year gender
##    <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
##  1 Luke…    172  77   blond      fair       blue            19   male  
##  2 Owen…    178 120   brown, gr… light      blue            52   male  
##  3 Beru…    165  75   brown      light      blue            47   female
##  4 Anak…    188  84   blond      fair       blue            41.9 male  
##  5 Wilh…    180  NA   auburn, g… fair       blue            64   male  
##  6 Jek …    180 110   brown      fair       blue            NA   male  
##  7 Lobot    175  79   none       light      blue            37   male  
##  8 Mon …    150  NA   auburn     fair       blue            48   female
##  9 Qui-…    193  89   brown      fair       blue            92   male  
## 10 Fini…    170  NA   blond      fair       blue            91   male  
## 11 Ric …    183  NA   brown      fair       blue            NA   male  
## 12 Adi …    184  50   none       dark       blue            NA   female
## 13 Mas …    196  NA   none       blue       blue            NA   male  
## 14 Clie…    183  NA   brown      fair       blue            82   male  
## 15 Lumi…    170  56.2 black      yellow     blue            58   female
## 16 Barr…    166  50   black      yellow     blue            40   female
## 17 Joca…    167  NA   white      fair       blue            NA   female
## # … with 5 more variables: homeworld <chr>, species <chr>, films <list>,
## #   vehicles <list>, starships <list>
dplyr::filter(sw, height < 200, eye_color == "blue") # dplyr
## # A tibble: 17 x 13
##    name  height  mass hair_color skin_color eye_color birth_year gender
##    <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
##  1 Luke…    172  77   blond      fair       blue            19   male  
##  2 Owen…    178 120   brown, gr… light      blue            52   male  
##  3 Beru…    165  75   brown      light      blue            47   female
##  4 Anak…    188  84   blond      fair       blue            41.9 male  
##  5 Wilh…    180  NA   auburn, g… fair       blue            64   male  
##  6 Jek …    180 110   brown      fair       blue            NA   male  
##  7 Lobot    175  79   none       light      blue            37   male  
##  8 Mon …    150  NA   auburn     fair       blue            48   female
##  9 Qui-…    193  89   brown      fair       blue            92   male  
## 10 Fini…    170  NA   blond      fair       blue            91   male  
## 11 Ric …    183  NA   brown      fair       blue            NA   male  
## 12 Adi …    184  50   none       dark       blue            NA   female
## 13 Mas …    196  NA   none       blue       blue            NA   male  
## 14 Clie…    183  NA   brown      fair       blue            82   male  
## 15 Lumi…    170  56.2 black      yellow     blue            58   female
## 16 Barr…    166  50   black      yellow     blue            40   female
## 17 Joca…    167  NA   white      fair       blue            NA   female
## # … with 5 more variables: homeworld <chr>, species <chr>, films <list>,
## #   vehicles <list>, starships <list>
# valitaan kaikki M:llä alkavat hahmot
sw[grepl("^M", sw$name),]
## # A tibble: 3 x 13
##   name  height  mass hair_color skin_color eye_color birth_year gender
##   <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
## 1 Mon …    150    NA auburn     fair       blue              48 female
## 2 Mace…    188    84 none       dark       brown             72 male  
## 3 Mas …    196    NA none       blue       blue              NA male  
## # … with 5 more variables: homeworld <chr>, species <chr>, films <list>,
## #   vehicles <list>, starships <list>
dplyr::filter(sw, grepl("^M", name)) # dplyr
## # A tibble: 3 x 13
##   name  height  mass hair_color skin_color eye_color birth_year gender
##   <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
## 1 Mon …    150    NA auburn     fair       blue              48 female
## 2 Mace…    188    84 none       dark       brown             72 male  
## 3 Mas …    196    NA none       blue       blue              NA male  
## # … with 5 more variables: homeworld <chr>, species <chr>, films <list>,
## #   vehicles <list>, starships <list>
# valitaan rivit väliltä 10-15
## # A tibble: 6 x 13
##   name  height  mass hair_color skin_color eye_color birth_year gender
##   <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
## 1 Obi-…    182    77 auburn, w… fair       blue-gray       57   male  
## 2 Anak…    188    84 blond      fair       blue            41.9 male  
## 3 Wilh…    180    NA auburn, g… fair       blue            64   male  
## 4 Chew…    228   112 brown      unknown    blue           200   male  
## 5 Han …    180    80 brown      fair       brown           29   male  
## 6 Gree…    173    74 <NA>       green      black           44   male  
## # … with 5 more variables: homeworld <chr>, species <chr>, films <list>,
## #   vehicles <list>, starships <list>
dplyr::slice(sw, 10:15)
## # A tibble: 6 x 13
##   name  height  mass hair_color skin_color eye_color birth_year gender
##   <chr>  <int> <dbl> <chr>      <chr>      <chr>          <dbl> <chr> 
## 1 Obi-…    182    77 auburn, w… fair       blue-gray       57   male  
## 2 Anak…    188    84 blond      fair       blue            41.9 male  
## 3 Wilh…    180    NA auburn, g… fair       blue            64   male  
## 4 Chew…    228   112 brown      unknown    blue           200   male  
## 5 Han …    180    80 brown      fair       brown           29   male  
## 6 Gree…    173    74 <NA>       green      black           44   male  
## # … with 5 more variables: homeworld <chr>, species <chr>, films <list>,
## #   vehicles <list>, starships <list>

Datan suodattaminen: Sarakkeiden/muuttujien valitseminen

# valitaan muuttujat "name", "height" ja "mass"
sw[,c("name", "height","mass")]
## # A tibble: 87 x 3
##    name               height  mass
##    <chr>               <int> <dbl>
##  1 Luke Skywalker        172    77
##  2 C-3PO                 167    75
##  3 R2-D2                  96    32
##  4 Darth Vader           202   136
##  5 Leia Organa           150    49
##  6 Owen Lars             178   120
##  7 Beru Whitesun lars    165    75
##  8 R5-D4                  97    32
##  9 Biggs Darklighter     183    84
## 10 Obi-Wan Kenobi        182    77
## # … with 77 more rows
dplyr::select(sw, name, height, mass) # dplyr
## # A tibble: 87 x 3
##    name               height  mass
##    <chr>               <int> <dbl>
##  1 Luke Skywalker        172    77
##  2 C-3PO                 167    75
##  3 R2-D2                  96    32
##  4 Darth Vader           202   136
##  5 Leia Organa           150    49
##  6 Owen Lars             178   120
##  7 Beru Whitesun lars    165    75
##  8 R5-D4                  97    32
##  9 Biggs Darklighter     183    84
## 10 Obi-Wan Kenobi        182    77
## # … with 77 more rows
# valitaan kolme ensimmäistä muuttujaa
## # A tibble: 87 x 3
##    name               height  mass
##    <chr>               <int> <dbl>
##  1 Luke Skywalker        172    77
##  2 C-3PO                 167    75
##  3 R2-D2                  96    32
##  4 Darth Vader           202   136
##  5 Leia Organa           150    49
##  6 Owen Lars             178   120
##  7 Beru Whitesun lars    165    75
##  8 R5-D4                  97    32
##  9 Biggs Darklighter     183    84
## 10 Obi-Wan Kenobi        182    77
## # … with 77 more rows
dplyr::select(sw, 1:3) # dplyr
## # A tibble: 87 x 3
##    name               height  mass
##    <chr>               <int> <dbl>
##  1 Luke Skywalker        172    77
##  2 C-3PO                 167    75
##  3 R2-D2                  96    32
##  4 Darth Vader           202   136
##  5 Leia Organa           150    49
##  6 Owen Lars             178   120
##  7 Beru Whitesun lars    165    75
##  8 R5-D4                  97    32
##  9 Biggs Darklighter     183    84
## 10 Obi-Wan Kenobi        182    77
## # … with 77 more rows
# valitaan ensimmäinen, neljäs ja kuudes muuttuja
## # A tibble: 87 x 3
##    name               hair_color    eye_color
##    <chr>              <chr>         <chr>    
##  1 Luke Skywalker     blond         blue     
##  2 C-3PO              <NA>          yellow   
##  3 R2-D2              <NA>          red      
##  4 Darth Vader        none          yellow   
##  5 Leia Organa        brown         brown    
##  6 Owen Lars          brown, grey   blue     
##  7 Beru Whitesun lars brown         blue     
##  8 R5-D4              <NA>          red      
##  9 Biggs Darklighter  black         brown    
## 10 Obi-Wan Kenobi     auburn, white blue-gray
## # … with 77 more rows
dplyr::select(sw, c(1,4,6)) # dplyr
## # A tibble: 87 x 3
##    name               hair_color    eye_color
##    <chr>              <chr>         <chr>    
##  1 Luke Skywalker     blond         blue     
##  2 C-3PO              <NA>          yellow   
##  3 R2-D2              <NA>          red      
##  4 Darth Vader        none          yellow   
##  5 Leia Organa        brown         brown    
##  6 Owen Lars          brown, grey   blue     
##  7 Beru Whitesun lars brown         blue     
##  8 R5-D4              <NA>          red      
##  9 Biggs Darklighter  black         brown    
## 10 Obi-Wan Kenobi     auburn, white blue-gray
## # … with 77 more rows

Datan suodattaminen: Sekä muuttujien että sarakkeiden valitseminen

# valitaan kaikki alle kaksimetriset hahmot, joilla siniset silmä JA sarakkeet name, eye_color ja mass
sw[sw$height < 200 & sw$eye_color == "blue",c("name", "eye_color","mass")]
## # A tibble: 17 x 3
##    name               eye_color  mass
##    <chr>              <chr>     <dbl>
##  1 Luke Skywalker     blue       77  
##  2 Owen Lars          blue      120  
##  3 Beru Whitesun lars blue       75  
##  4 Anakin Skywalker   blue       84  
##  5 Wilhuff Tarkin     blue       NA  
##  6 Jek Tono Porkins   blue      110  
##  7 Lobot              blue       79  
##  8 Mon Mothma         blue       NA  
##  9 Qui-Gon Jinn       blue       89  
## 10 Finis Valorum      blue       NA  
## 11 Ric Olié           blue       NA  
## 12 Adi Gallia         blue       50  
## 13 Mas Amedda         blue       NA  
## 14 Cliegg Lars        blue       NA  
## 15 Luminara Unduli    blue       56.2
## 16 Barriss Offee      blue       50  
## 17 Jocasta Nu         blue       NA
sw %>%
  dplyr::filter(height < 200, eye_color == "blue") %>%
  dplyr::select(name, eye_color, mass)
## # A tibble: 17 x 3
##    name               eye_color  mass
##    <chr>              <chr>     <dbl>
##  1 Luke Skywalker     blue       77  
##  2 Owen Lars          blue      120  
##  3 Beru Whitesun lars blue       75  
##  4 Anakin Skywalker   blue       84  
##  5 Wilhuff Tarkin     blue       NA  
##  6 Jek Tono Porkins   blue      110  
##  7 Lobot              blue       79  
##  8 Mon Mothma         blue       NA  
##  9 Qui-Gon Jinn       blue       89  
## 10 Finis Valorum      blue       NA  
## 11 Ric Olié           blue       NA  
## 12 Adi Gallia         blue       50  
## 13 Mas Amedda         blue       NA  
## 14 Cliegg Lars        blue       NA  
## 15 Luminara Unduli    blue       56.2
## 16 Barriss Offee      blue       50  
## 17 Jocasta Nu         blue       NA

Uusien muuttujien tekeminen laskemalla vanhoista

# lasketaan uusi muuttuja painoindeksi kullekin hahmolle
sw$bmi <- sw$mass / (sw$height/100)^2
# ja listataan vaan lievästi tai enemmän ylipainoiset
sw[sw$bmi >= 25,(c("name","bmi"))]
## # A tibble: 53 x 2
##    name                    bmi
##    <chr>                 <dbl>
##  1 Luke Skywalker         26.0
##  2 C-3PO                  26.9
##  3 R2-D2                  34.7
##  4 Darth Vader            33.3
##  5 Owen Lars              37.9
##  6 Beru Whitesun lars     27.5
##  7 R5-D4                  34.0
##  8 Biggs Darklighter      25.1
##  9 <NA>                   NA  
## 10 Jabba Desilijic Tiure 443. 
## # … with 43 more rows
sw %>%
  dplyr::mutate(bmi = mass / (height/100)^2) %>%
  dplyr::filter(bmi >= 25) %>% 
  select(name,bmi) %>% 
## # A tibble: 25 x 2
##    name                    bmi
##    <chr>                 <dbl>
##  1 Jabba Desilijic Tiure 443. 
##  2 Dud Bolt               50.9
##  3 Yoda                   39.0
##  4 Owen Lars              37.9
##  5 IG-88                  35  
##  6 R2-D2                  34.7
##  7 Grievous               34.1
##  8 R5-D4                  34.0
##  9 Jek Tono Porkins       34.0
## 10 Darth Vader            33.3
## # … with 15 more rows

Luento 2 - Datan käsittelyn ja visualisoinnin perusteet

Tällä luennolla jatkamme datan datan käsittelyä ja aloitamme grafiikkaharjoitukset ´ggplot2`-paketilla. Starwars-datan ohella otamme käyttöön sivuston data-osiossa kuvatut aineistot.

Datan lukeminen/tuominen R:ään

Datan lukeminen levyltä on melko yksinkertaista, mutta katso oheisen webinaarin alku (0.00 - 14.00): Hadley Wickham - Getting your data into R. Lataa slaidit täältä.

Datan käsittely dplyr & tidyr -paketeilla

Garret Grolemundin Data wrangling with R and RStudio on hyvä johdanto datan käsittelyn perusteisiin sekä tidy-datan konseptiin. Slaidit!!

Visualisoinnin perusteet ggplot2-paketilla

Katso oheinen lyhyt video ggplot2:m perusteista. Jos tykkäät opetella asioita videoilta, katso joku perusteellisempi johdanto ggplot2-pakettiin samaan syssyyn.

Tee ja palauta harjoitustehtävä!

