R for Bio Data Science
Overordnede kursusmål
Det overordnede mål for kurset er at forsyne de studerende med en data science værktøjskasse med konkrete færdigheder i moderne bio data science i Tidyverse R via RStudio IDE’et (Integrated Developer Environment). Der vil være et stærkt anvendelsesorienteret fokus på at komme fra et rodet- til et rent datasæt. Efterfulgt af data transformering, opnåelse af indsigt via EDA (Exploratory Data Analysis) og kommunikation via data-visualisering med ggplot. Alt i kontekst med reproducerbar dataanalyse. Ydermere vil der være fokus på konstruktionen omkring og organiseringen af et moderne bio data science project i Tidyverse R, herunder brug af git/GitHub. I kurset vil vi alene arbejde med biologisk relaterede datasæt.
See course description in English
Læringsmål
- Redegøre for hvorfor reproducerbar dataanalyse er vigtig, samt identificere relevante udfordringer og redegøre for replicerbarhed versus reproducerbarhed
- Beskrive komponenterne i en reproducerbar dataanalyse
- Anvende Tidyverse R til at udføre eksplorativ data analyse (EDA) med henblik på opnåelse af data-indsigt, herunder anvendelse af ggplot til at visualisere multilagsdata fra f.eks. high-througput -omics platforme
- Anvende Tidyverse R til udføre data -oprensning, -transformering, -visualisering og -kommunikering
- Anvende RStudio og git/GitHub til kollaborative analyseprojekter
- Udføre samt fortolke standard dimensionsreduktions- og clustering-teknikker, samt basale statistiske tests og modeller
- Træne og anvende en machine learning model baseret på et neuralt netværk med Keras / Tensorflow i R
- Udarbejde en dynamisk rmarkdown rapport/præsentation for en bio data analyse
- Udarbejde en simpel R-pakke
- Udarbejde en simpel Shiny-app
- Designe og udføre et bio data science projekt med fokus på reproducerbarhed, herunder selvstændigt at anvende online resourcer til at opsøge information om anvendelse og tekniske detaljer af state-of-the-art data science værktøjer
- Analysere et allerede udført bio data science projekt med henblik på at vurdere fremgangsmåde, metoder og reproducerbarhed
Kursusindhold
Moderne bio data science i Tidyverse R, data -oprensning, -transformering, -visualisering og -kommunikering. maskinlæring, statistik og deep Learning (neurale netværk med keras / tensorflow) i kontekst med bioinformatik / computational-biologi. Tidyverse R, RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse, rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science projekt-organisering alt med et anvendelsesoritenteret fokus.
Undervisningsform
Undervisningen er en blanding af små introduktioner til emner og sky-baserede computerøvelser. Studerende skal medbringe egen laptop.