Enkeltfag Engelsk 5 ECTS

R for Bio Data Science

Overordnede kursusmål

Det overordnede mål for kurset er at forsyne de studerende med en data science værktøjskasse med konkrete færdigheder i moderne bio data science i Tidyverse R via RStudio IDE’et (Integrated Developer Environment). Der vil være et stærkt anvendelsesorienteret fokus på at komme fra et rodet- til et rent datasæt. Efterfulgt af data transformering, opnåelse af indsigt via EDA (Exploratory Data Analysis) og kommunikation via data-visualisering med ggplot. Alt i kontekst med reproducerbar dataanalyse. Ydermere vil der være fokus på konstruktionen omkring og organiseringen af et moderne bio data science project i Tidyverse R, herunder brug af git/GitHub. I kurset vil vi alene arbejde med biologisk relaterede datasæt.

See course description in English

Læringsmål

  • Redegøre for hvorfor reproducerbar dataanalyse er vigtig, samt identificere relevante udfordringer og redegøre for replicerbarhed versus reproducerbarhed
  • Beskrive komponenterne i en reproducerbar dataanalyse
  • Anvende Tidyverse R til at udføre eksplorativ data analyse (EDA) med henblik på opnåelse af data-indsigt, herunder anvendelse af ggplot til at visualisere multilagsdata fra f.eks. high-througput -omics platforme
  • Anvende Tidyverse R til udføre data -oprensning, -transformering, -visualisering og -kommunikering
  • Anvende RStudio og git/GitHub til kollaborative analyseprojekter
  • Udføre samt fortolke standard dimensionsreduktions- og clustering-teknikker, samt basale statistiske tests og modeller
  • Træne og anvende en machine learning model baseret på et neuralt netværk med Keras / Tensorflow i R
  • Udarbejde en dynamisk rmarkdown rapport/præsentation for en bio data analyse
  • Udarbejde en simpel R-pakke
  • Udarbejde en simpel Shiny-app
  • Designe og udføre et bio data science projekt med fokus på reproducerbarhed, herunder selvstændigt at anvende online resourcer til at opsøge information om anvendelse og tekniske detaljer af state-of-the-art data science værktøjer
  • Analysere et allerede udført bio data science projekt med henblik på at vurdere fremgangsmåde, metoder og reproducerbarhed

Kursusindhold

Moderne bio data science i Tidyverse R, data -oprensning, -transformering, -visualisering og -kommunikering. maskinlæring, statistik og deep Learning (neurale netværk med keras / tensorflow) i kontekst med bioinformatik / computational-biologi. Tidyverse R, RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse, rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science projekt-organisering alt med et anvendelsesoritenteret fokus.

Anbefalede forudsætninger

01005/02402/22110/27002/27008, Kurset antager, at den studerende har erfaring med programmering (sprog irrelevant), statistik, matematik og molekylærbiologi svarende til niveauet for bachelorkurser på DTU (se foreslåede kursusnumre ovenfor).

Undervisningsform

Undervisningen er en blanding af små introduktioner til emner og sky-baserede computerøvelser. Studerende skal medbringe egen laptop.

Fakultet

Se kurset i kursusbasen

Tilmelding

Sprog

Engelsk

Varighed

13 uger

Institut

Sundhedsteknologi

Kursus ID 22100
Kursustype Kandidat
Semesterstart Uge 35
Semester slut Uge 48
Dage tirs 8-12
Pris

7.500,00 kr.

0 pladser tilbage

Tilmelding