Attention! It is no longer possible to add Google Drive files directly in the interface. Please use links to share files.

IFI6223.DT Keel ja tehnoloogia - sügis 2024/2025

Primary tabs

  • Info
  • Learning Resources

Excerpt

Kursusel tutvutakse loomuliku keele automaatse analüüsi võimaluste ja tarkvaraga. Antakse ülevaade keeletehnoloogia arengust ning keeleressurssidest ja rakendustest, mida saab kasutada suulise kõne ja kirjalike tekstide (mh keelekorpuste, digiteeritud kirjanduse ja arhiivimaterjalide) töötlemiseks. Andmekaeve põhimõttel otsitakse keelemustreid, mis toovad esile tekstide sisu, keelekasutajate eelistused, tekstiliikide ja autoristiili eripärad. Õpitakse saadud infot kvalitatiivselt tõlgendama, et määrata tekstis kindlaks olulised sündmused, tegijad, nende hoiakud ja hinnangud. Kursuse lõpuks koostatakse individuaalne kursusetöö, milles lahendatakse keeletöötluse abil mõnda huvipakkuvat uurimuslikku või rakenduslikku ülesannet.

Content

Loengud ja praktikumid on iga nädal neljapäeviti kl 16.00 ning üle nädala teisipäeviti kl 16.00. Nädalatel, kus kohtume ühe korra, tuleb tutvuda iseseisvalt videomaterjaliga.

Kui mõjuval põhjusel ei ole võimalik kohapeale tulla, siis saab õppetööst osa võtta Google Meeti teel. Palun sellest soovist eelnevalt teada anda.

 

T 03.09. Sissejuhatus ainesse. Kursusel osalejate enesetutvustus (huvivaldkonnad). Keeletehnoloogia mõiste.

N 05.09. Keeletehnoloogia rakendused. Keeleressursi mõiste. Tutvumine eesti keele ressurssidega.

 

Kodus: lugeda allikast Muischnek & Lindström 2020 lk 306–318 ja vastata küsimustele (Failid > Keelekorpused: küsimused). Vastused failis Keelekorpused: vastused!

 

N 12.09. – Arutelu loetud materjali põhjal. Praktikum: teksti märgendamine TEI-standardi järgi, märgendatud dokumendist info lugemine.

Videomaterjal: Teksti sisuanalüüs. Sõnade sagedusloendid, võtmesõnad, sõnad kontekstis (konkordantsid) ja sõnade kooskasutus (kollokatsioonid).

 

T 17.09.Praktikum: tekstikorpuse sisuanalüüs rakendusega #LancsBox X.

N 19.09.Praktikum: tekstikorpuse sisuanalüüs rakendusega #LancsBox X.

 

Kodus: lugemispäeviku 1. sissekanne – Liin jt 2012.

 

T 24.09.Praktikum: tekstikorpuse sisuanalüüs veebikeskkonnas Sketch Engine. NB! Erandkorras kohtume sel nädalal teisipäeval, mitte neljapäeval.

Videomaterjal: Keeletehnoloogia kujunemine ja arengusuunad Eestis ja maailmas.

 

T 01.10. – Arutelu keeletehnoloogia tuleviku teemal. Praktikum: tekstikorpuse sisuanalüüs veebikeskkonnas Sketch Engine.

N 03.10. – Teksti lingvistiline analüüs. Automaatne morfoloogia- ja süntaksianalüüs. Keelekasutusmustrid (n-grammid).

 

Kodus: lugemispäeviku 2. sissekanne – Jurafsky & Martin 2009, Sayers jt 2021.

 

N 10.10.Praktikum: keelekasutusmustrite leidmine rakendusega Mustrileidja. NB! Valige praktikumis analüüsimiseks omakirjutatud tekst, nt essee, kiri, luuletus.

Videomaterjal: Stilomeetria: autori- ja žanrituvastus. Teksti keerukus.

 

Kodus: kursusetöö teema esmatutvustus.

 

T 15.10. Kursusetöö 1. vaheettekanne: teema esmatutvustus. Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.

N 17.10.Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.

 

VAHENÄDAL

 

N 31.10. – Nimeolemite (isikud, organisatsioonid, kohad) tuvastamine tekstis, nimede koosesinemise analüüs (Jaagup Kippar).

Videomaterjal: Infoallikad, infootsing ja viitamine (Hans Põldoja, DTI haridustehnoloogia dotsent).

 

Kodus: kursusetöö temaatilise kirjanduse otsing ja valik.

 

T 05.11.Kursusetöö 2. vaheettekanne: temaatilise kirjanduse tutvustus. Masinõppe põhimõisted.

N 07.11.Praktikum: Sõnavektorite loomine ja sõnade grupeerimine Word2Vec algoritmiga (Jaagup Kippar).

 

Kodus: lugemispäeviku 3. sissekanne – Pollak jt 2011.

 

N 14.11.Praktikum: tekstide klassifitseerimine Pythoni teegiga Scikit-learn.

Videomaterjal: Einar Meisteri videointervjuud + küsimustele vastamine.

 

Kodus: kursusetöö uurimismaterjali ja analüüsimeetodi(te) valik.

 

T 19.11.Kursusetöö 3. vaheettekanne: uurimismaterjal ja analüüsimeetod(id). Kõnetehnoloogia: kõnetuvastus, kõnesüntees, dialoogsüsteemid. Arutelu E. Meisteri videomaterjalide põhjal.

N 21.11.Praktikum: sõnapilvede koostamine.

 

Kodus: lugemispäeviku 4. sissekanne – Kaalep & Koit 2010.

 

N 28.11. – Masintõlge. Arutelu loetud materjali põhjal. Praktiline rühmatöö: eesti keele toega masintõlkeprogrammide võrdlus.

Videomaterjal: Teadmuse visualiseerimise vahendid: ideekaardid, mõistekaardid, infograafika (Hans Põldoja).

 

T 03.12. – Rühmatöö tulemuste esitamine. Kursusetöö konsultatsioon.

Kodus: kursusetöö tulemuste visualiseerimise katsetused.

N 05.12. – Kursusetöö 4. vaheettekanne: uurimistulemuste visuaalne esitlus. Kursusetöö konsultatsioon.