Länkstig

Maskininlärning för språkteknologi

Kurs
DIT247
Avancerad nivå
7,5 högskolepoäng (hp)

Om utbildningen

Kursen ger en introduktion till maskininlärningsmodeller och arkitekturer som används i moderna system inom språkteknologi.

Den snabba utveckling som sker inom maskininlärning har revolutionerat det språkteknologiska området, inklusive för kommersiellt viktiga tillämpningar som översättning, sammanfattning och informationsextraktion. Språkliga data uppvisar ett antal egenheter som gör dem mer utmanande att arbeta med i jämförelse med andra typer av data som förekommer inom maskininlärning: naturligt språk är diskret, strukturerat och mångtydigt. Det finns en enorm språklig variation: inte bara finns det tusentals språk i världen, men även inom varje språk finns det stora variationer i stil och genre. Många språkliga fenomen har en "långsvansad" statistisk fördelning, vilket gör det mer kostsamt att producera träningsdata. På grund av dessa anledningar är maskininlärningsarkitekturer för språkteknologiska tillämpningar ofta uppbyggda på ett annorlunda sätt än för tillämpningar i andra området.

Kursen täcker följande breda områden:

  • Att arbeta praktiskt med textdata, inklusive fundamentala uppgifter som orduppdelning och ordräkning;
  • probabilistiska språkmodeller, t.ex. ämnesmodeller; översikt över de vanligaste typerna av språkteknologiska tillämpningar;
  • representationsarkitekturer i språkteknologiska modeller, t.ex. ordinbäddningar,faltningsnät, rekurrenta nät och attention models;
  • maskininlärningsmodeller för de vanligaste typerna av språkteknologiska problem, framför allt kategorisering, sekvenstaggning, strukturprediktion samt generering;
  • överföringsinlärning inom språkteknologi.


Behörigheter och urval

Behörighet

För tillträde till kursen krävs att studenten har en examen på kandidatnivå inom något ämne. Utöver detta krävs:



7,5 hp avklarade kurser i programmering eller motsvarande

en kurs i sannolikhetsteori och statistik, t.ex. DIT862 Statistiska metoder för Data Science eller MSG810 Matematisk statistik och diskret matematik

en första kurs i maskininlärning, t.ex. DIT866 Tillämpad maskininlärning, DIT381 Algoritmer för maskininlärning och inferens, eller MSA220 Statistisk slutledning för stora datamängder.



Följande kunskapsnivå i Engelska krävs; Engelska 6/Engelska B eller motsvarande frånett erkänt internationellt test, t.ex. TOELF, IELTS