Enkeltfag 5 ECTS

R for Bio Data Science

Overordnede kursusmål

Målet med dette kursus er at udstyre de studerende med praktiske færdigheder i moderne biodatascience ved hjælp af Tidyverse R, RStudio IDE og Quarto-rapporteringssystemet. I løbet af kurset vil de studerende lære at omdanne rodede datasæt til rene og organiserede, udføre dataanalyse, få indsigt gennem undersøgende dataanalyse og kommunikere resultater via datavisualisering og dynamisk rapportering. Der vil blive lagt vægt på vigtigheden af reproducerbar dataanalyse og design, organisering og eksekvering af samarbejdsprojekter inden for biodatascience ved hjælp af Tidyverse R og git/GitHub. Kurset vil udelukkende fokusere på biologiske datasæt.

See course description in English

Læringsmål

  • redegøre for hvorfor reproducerbar dataanalyse er vigtig og for forskellen mellem replikerbarhed og reproducerbarhed.
  • beskrive de grundlæggende begreber for datarensning og transformation, og hvordan de relaterer til reproducerbar dataanalyse.
  • forklare hvilke Tidyverse-værktøjer, der gør hvad, og identificere passende værktøjer til givne opgaver.
  • anvende Tidyverse-værktøjer til at konvertere et rodet datasæt til et rent og konsistent i sammenhæng med undersøgende dataanalyse og opnå indsigt i biologiske data.
  • bruge RStudio og git/GitHub til at arbejde kollaborativt på biodatascience-projekter.
  • udføre basale statistiske test og lineære modeller ved hjælp af Tidyverse framework.
  • konstruere en simpel R-pakke.
  • konstruere en simpel Shiny app.
  • selvstændigt identificere og adaptere relevante nye state-of-the-art biodatascience-værktøjer.
  • bruge Large-Language-Model (LLM) teknologi såsom chatGPT som sparringspartner i et biodatascience-projekt, samt vurdere og redegøre for de potentielle faldgruber og konsekvenser heraf.
  • designe og organisere et kollaborativt end-to-end biodatascience-projekt ved hjælp af Tidyverse R og git/GitHub og præsentere resultaterne i en omfattende dynamisk Quarto-rapport/præsentation.
  • analysere et allerede udført biodatascience-projekt for at vurdere valg af metoder, reproducerbarhed og kvalitet af datakommunikation.

Kursusindhold

Moderne bio data science i Tidyverse R, data -oprensning, -transformering, -visualisering og -kommunikering. Tidyverse R, RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse, rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science projekt-organisering alt med et anvendelsesoritenteret fokus. Nogle elementer af anvendt basal statistik of maskinlæring.

Anbefalede forudsætninger

01005/02402/27024/23214/22101/02631/02632/02633/27002/27008/22111, Det forudsættes, at den studerende har eksisterende viden om matematik, statistik, basal programmering (sprog irrelevant), life science og bioinformatik svarende til niveauet for bachelorkurser på DTU (se relevante kursusnumre ovenfor).

Undervisningsform

Semi-flipped classroom. Eleverne forbereder tildelte skriftlige og videobaserede materialer før undervisningen. Undervisningen indledes med en kort opsummering af nøglepunkter fra sidste uges øvelser efterfulgt af en kort introduktion til nøglepunkter i dagens emne. Resten af klassen er Cloud-baserede øvelser. Studerende skal medbringe egen bærbar computer med fungerende trådløst internet og gyldig DTU-konto.

Fakultet

Se kurset i kursusbasen

Tilmelding

Sprog
Varighed

13 uger

Institut

Sundhedsteknologi

Sted

DTU Lyngby Campus

Kursus ID 22100
Kursustype Bachelor
Semesterstart Uge 35
Semester slut Uge 48
Dage tirs 8-12
Pris

7.500,00 kr.

Tilmelding