Model-based machine learning
Overordnede kursusmål
Dette kursus henvender sig til ingeniører, systemanalytikere, statistikere eller relaterede fagfolk, der ønsker at udføre avancerede dataanalyser i deres fremtidige forskning eller praksis. Modelbaseret maskinindlæring svarer til en klasse af algoritmer, kaldet Probabilistiske grafiske modeller (PGMs), der på en meget enkel måde tillader kombinationen af domæneviden med data drevne metoder.
Selvom Maskine Læring har mange algoritmer (f.eks. neurale netværk, Gauss processer, Support Vector Machines, Decision Trees, osv.) som har den fordel at være “trykknap” løsninger, så er disse sjældent kompatible, når det ikke vedrører det originale design. Opgaven bliver at omdanne problem og data og få det tilpasset den enkelte algoritme. Ofte mistes relevant information (som f.eks. kendt forhold mellem 2 variabler, forskellig støj distribution i indgangsvariabler), hvilket kan have en skadelig indflydelse på resultaterne.
PGMs tillader at omfatte forudgående viden, parametrisk og non-parametriske (under)-modeller, samt usikkerheden om input og parametre. PGMs fungerer perfekt til at kombinere forskellige typer af data, og i løbet af de senere år, har et voksende fællesskab udviklet værktøjer til PGMs, der forenkler design og inferens proces. Sammen med Deep Learning, tilhører PGMs det nyeste indenfor Maskine Læring og datamining forskning, der er afgørende i bearbejdning af Big og Small data.
Selvom dette kursus i sagens natur handler om metodologi, er det baseret på en række eksempler på applikationer, der hovedsagelig er fokuseret på udfordringer indenfor transportsystemer.
See course description in English
Læringsmål
- Forklare centrale begreber inden for modelbaseret maskinlæring, herunder probabilistiske grafiske modeller (PGM’er), Bayesiansk inferens og trosudbredelse
- Undersøg use cases for forskellige PGM’er og skeln mellem deres underliggende antagelser
- Implementere PGM’er i et probabilistisk programmeringssprog (f.eks. Pyro eller Stan)
- Forstå praktiske datamodelleringsaspekter, såsom overtilpasning, systemdynamik (f.eks. rumlig-tidsmæssig) dynamik, betinget uafhængighed, imputation, konjugerer forud
- Evaluere kvaliteten af forskellige modeller for givet et problem og datasæt
- Forbinde eksisterende problemer og data med modelleringsmetoder for at tackle dem
- Formulere nye modeller givet et problem og data
- Udvikle og præsentere et projekt baseret på en PGM
- Præsentere og kunne argumentere for et projekt baseret på en PGM
Kursusindhold
Dette kursus består af forelæsninger understøttet af slides, samt laboratorie arbejde udført med interaktive værktøjer (Jupyter notebooks in Python using a probabilistic programming language like Pyro or STAN). Studerende på dette kursus vil altid arbejde manuelt i hvert modul, under og efter den teoretiske del, for at tilegne sig nye koncepter. Kurset er designet til at være trinvis og stærkt understøttet af praksis.
Moduler:
– Gennemgang af grundprincipperne-stokastisk variable, sandsynlighedsfordelinger, Bayes
Theorem
– Probabilistiske grafiske modeller fundamenter – Bayesian netværk, faktorisering,
D-separation, betinget uafhængighed.
– Probabilistiske grafiske modeller – generative modeller som repræsenterer dit problemfelt
– Forskellige modeller – Regression, Klassifikation, Hierarkiske modeller, Temporale modeller, Generative modeller, Gaussiske processer
– Inferens – Eksakt Inteferens
– Inferens – Markov Chain Monte Carlo
– Inferens – Variationsregning Inferens
– Avancerede emner
Undervisningsform
Forelæsning og praktisk laboratorie med iPython notebook