Tähelepanu! Google Drive-i failide lisamine otse liideses ei ole enam võimalik. Kasutadage failide jagamiseks linke.

IFI6223.DT Keel ja tehnoloogia - sügis 2023/2024

Peasakid

  • Info
  • Õppematerjalid

Kokkuvõte

Kursusel tutvutakse loomuliku keele automaatse analüüsi võimaluste ja tarkvaraga. Antakse ülevaade keeletehnoloogia arengust ning keeleressurssidest ja rakendustest, mida saab kasutada suulise kõne ja kirjalike tekstide (mh keelekorpuste, digiteeritud kirjanduse ja arhiivimaterjalide) töötlemiseks. Andmekaeve põhimõttel otsitakse keelemustreid, mis toovad esile tekstide sisu, keelekasutajate eelistused, tekstiliikide ja autoristiili eripärad. Õpitakse saadud infot kvalitatiivselt tõlgendama, et määrata tekstis kindlaks olulised sündmused, tegijad, nende hoiakud ja hinnangud. Kursuse lõpuks koostatakse individuaalne kursusetöö, milles lahendatakse keeletöötluse abil mõnda huvipakkuvat uurimuslikku või rakenduslikku ülesannet.

Sisu

Kohtume iga nädal teisipäeviti kl 14.15 ja üle nädala kolmapäeviti kl 16.00. Igal teisel nädalal tuleb tutvuda iseseisvalt videomaterjaliga.

 

T 05.09. Sissejuhatus ainesse. Kursusel osalejate enesetutvustus (huvivaldkonnad). Keeletehnoloogia mõiste. Sõnapiirituvastuse harjutus: https://colab.research.google.com/drive/1uhXveWlSxc-UYkshF8rXyLlDVFXfqPxJ?usp=sharing

K 06.09. Keeletehnoloogia rakendused. Keeleressursi mõiste. Tutvumine eesti keele ressurssidega.

 

Kodus: lugeda allikast Muischnek & Lindström 2020 lk 306–318 ja vastata küsimustele.

 

T 12.09. Arutelu loetud materjali põhjal. Praktikum: teksti märgendamine TEI-standardi järgi, märgendatud dokumendist info lugemine. https://colab.research.google.com/drive/10uclDfI5T1s-QfdZuCRBi1g-GjVUpCv0?usp=sharing

Videomaterjal: Teksti sisuanalüüs. Sõnade sagedusloendid, võtmesõnad, sõnad kontekstis (konkordantsid) ja sõnade kooskasutus (kollokatsioonid, n-grammid).

 

T 19.09. Praktikum: tekstikorpuse sisuanalüüs rakendusega LancsBox. Vt juhiseid lehelt "Failid".

K 20.09. Praktikum: tekstikorpuse sisuanalüüs rakendusega LancsBox.

 

Kodus: lugemispäeviku 1. sissekanne – Liin jt 2012.

 

T 26.09. Praktikum: tekstikorpuse sisuanalüüs veebikeskkonnas Sketch Engine.

Videomaterjal: Keeletehnoloogia kujunemine ja arengusuunad Eestis ja maailmas.

 

T 03.10. Arutelu keeletehnoloogia tuleviku teemal. Praktikum: tekstikorpuse sisuanalüüs veebikeskkonnas Sketch Engine.

K 04.10. Teksti lingvistiline analüüs. Automaatne morfoloogia- ja süntaksianalüüs. Keelekasutusmustrid (n-grammid).

 

Kodus: lugemispäeviku 2. sissekanne – Jurafsky & Martin 2009, Sayers jt 2021

 

T 10.10. Praktikum: keelekasutusmustrite leidmine rakendusega Mustrileidja. NB! Valige praktikumis analüüsimiseks omakirjutatud tekst, nt essee, kiri, luuletus.

Videomaterjal: Stilomeetria: autori- ja žanrituvastus. Teksti keerukus.

 

Kodus: kursusetöö teema esmatutvustus.

 

T 17.10. Kursusetöö 1. vaheettekanne: teema esmatutvustus. Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.

K 18.10. Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.

 

VAHENÄDAL

 

T 31.10. Praktikum: nimeolemite (isikud, organisatsioonid, kohad) tuvastamine tekstis, nimede koosesinemise analüüs (Jaagup Kippar, DTI tarkvaratehnika lektor). Koodinäited: https://drive.google.com/drive/folders/1p9PG36YPgqPaz8-phQ5tj1vAVygLqeXH

Slaidiesitlus iseseisvalt tutvumiseks: Infoallikad, infootsing ja viitamine (Hans Põldoja, DTI haridustehnoloogia dotsent)

 

Kodus: kursusetöö temaatilise kirjanduse otsing ja valik.

 

Kohtume Google Meetis: https://meet.google.com/fxy-dwzj-tke

T 07.11. Kursusetöö 2. vaheettekanne: temaatilise kirjanduse tutvustus. Masinõppe põhimõisted.

K 08.11. Praktikum: tekstide klassifitseerimine Pythoni teegiga Scikit-learn.

 

Kodus: lugemispäeviku 3. sissekanne – Pollak jt 2011.

 

T 14.11. Praktikum: Sõnavektorite loomine ja sõnade grupeerimine Word2Vec algoritmiga (Jaagup Kippar, DTI tarkvaratehnika lektor)

Videomaterjal: Einar Meisteri videointervjuud + küsimustele vastamine.

 

Kodus: kursusetöö uurimismaterjali ja analüüsimeetodi(te) valik.

 

Kohtume Google Meetis: https://meet.google.com/fxy-dwzj-tke

T 21.11. Kursusetöö 3. vaheettekanne: uurimismaterjal ja analüüsimeetod(id). Kõnetehnoloogia: kõnetuvastus, kõnesüntees, dialoogsüsteemid. Arutelu E. Meisteri videomaterjalide põhjal.

K 22.11. Praktikum: sõnapilvede koostamine.

 

Kodus: lugemispäeviku 4. sissekanne – Kaalep & Koit 2010.

 

T 28.11. Masintõlge. Arutelu loetud materjali põhjal. Praktiline rühmatöö: eesti keele toega masintõlkeprogrammide võrdlus.

Videomaterjal: Teadmuse visualiseerimise vahendid: ideekaardid, mõistekaardid, infograafika (Hans Põldoja, DTI haridustehnoloogia dotsent)

 

T 05.12. Rühmatöö tulemuste esitamine. Kursusetöö konsultatsioon.

(K 06.12. Soovi korral kursusetöö 4. vaheettekanne: uurimistulemuste visuaalne esitlus.)

Kodus: kursusetöö proovianalüüsi tulemuste visualiseerimise katsetused.

 

T 12.12. Kursusetöö 4. vaheettekanne: uurimistulemuste visuaalne esitlus. Soovi korral kursusetöö ettekanne (kui 4. vaheettekanne jm ülesanded tehtud).

 

T 09.01. Kursusetöö ettekanne

 

T 16.01. Kursusetöö ettekanne (järeleksam)