Excerpt
Kursusel tutvutakse loomuliku keele automaatse analüüsi võimaluste ja tarkvaraga. Antakse ülevaade keeletehnoloogia arengust ning keeleressurssidest ja rakendustest, mida saab kasutada suulise kõne ja kirjalike tekstide (mh keelekorpuste, digiteeritud kirjanduse ja arhiivimaterjalide) töötlemiseks. Andmekaeve põhimõttel otsitakse keelemustreid, mis toovad esile tekstide sisu, keelekasutajate eelistused, tekstiliikide ja autoristiili eripärad. Õpitakse saadud infot kvalitatiivselt tõlgendama, et määrata tekstis kindlaks olulised sündmused, tegijad, nende hoiakud ja hinnangud. Kursuse lõpuks koostatakse individuaalne kursusetöö, milles lahendatakse keeletöötluse abil mõnda huvipakkuvat uurimuslikku või rakenduslikku ülesannet.
Content
Loengud ja praktikumid on iga nädal neljapäeviti kl 16.00 ning üle nädala teisipäeviti kl 16.00. Nädalatel, kus kohtume ühe korra, tuleb tutvuda iseseisvalt videomaterjaliga.
Kui mõjuval põhjusel ei ole võimalik kohapeale tulla, siis saab õppetööst osa võtta Google Meeti teel. Palun sellest soovist eelnevalt teada anda.
T 03.09. Sissejuhatus ainesse. Kursusel osalejate enesetutvustus (huvivaldkonnad). Keeletehnoloogia mõiste.
N 05.09. Keeletehnoloogia rakendused. Keeleressursi mõiste. Tutvumine eesti keele ressurssidega.
Kodus: lugeda allikast Muischnek & Lindström 2020 lk 306–318 ja vastata küsimustele (Failid > Keelekorpused: küsimused). Vastused failis Keelekorpused: vastused!
N 12.09. – Arutelu loetud materjali põhjal. Praktikum: teksti märgendamine TEI-standardi järgi, märgendatud dokumendist info lugemine.
Videomaterjal: Teksti sisuanalüüs. Sõnade sagedusloendid, võtmesõnad, sõnad kontekstis (konkordantsid) ja sõnade kooskasutus (kollokatsioonid).
T 17.09. – Praktikum: tekstikorpuse sisuanalüüs rakendusega #LancsBox X. Praktikumi juhend: https://docs.google.com/document/d/1rOoo92u5zAoRlLNBelUbfdBL8e80lpZG/edit?usp=sharing
N 19.09. – Praktikum: tekstikorpuse sisuanalüüs rakendusega #LancsBox X.
Kodus: lugemispäeviku 1. sissekanne – Liin jt 2012.
T 24.09. – Praktikum: tekstikorpuse sisuanalüüs veebikeskkonnas Sketch Engine. Praktikumi juhend: https://docs.google.com/document/d/1zhqfGicBiGwilew39mLlpRFiMR5_Ex6tvGJdQdmz_is/edit?usp=sharing
Videomaterjal: Keeletehnoloogia kujunemine ja arengusuunad Eestis ja maailmas.
T 01.10. – Arutelu keeletehnoloogia tuleviku teemal. Praktikum: tekstikorpuse sisuanalüüs veebikeskkonnas Sketch Engine.
N 03.10. – Teksti lingvistiline analüüs. Automaatne morfoloogia- ja süntaksianalüüs. Keelekasutusmustrid (n-grammid).
Kodus: lugemispäeviku 2. sissekanne – Jurafsky & Martin 2009, Sayers jt 2021.
N 10.10. – Praktikum: keelekasutusmustrite leidmine rakendusega Mustrileidja. NB! Valige praktikumis analüüsimiseks omakirjutatud tekst, nt essee, kiri, luuletus. Praktikumi juhend: https://docs.google.com/document/d/1dKsLbsdjPN2saJEhxyxTK9qfZeQGINVWPWeXBRpOqj4/edit?usp=sharing
Videomaterjal: Stilomeetria: autori- ja žanrituvastus. Teksti keerukus.
Kodus: kursusetöö teema esmatutvustus.
NB! Ideede saamiseks vt eelmiste aastate kursusetööde teemasid siit: https://www.tlu.ee/~kais/IFI6223_keel_ja_tehnoloogia_kursusetood.html
T 15.10. – Kursusetöö 1. vaheettekanne: teema esmatutvustus. Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.
N 17.10. – Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.
VAHENÄDAL
N 31.10. – Praktikum: Nimeolemite (isikud, organisatsioonid, kohad) tuvastamine tekstis, nimede koosesinemise analüüs (Jaagup Kippar). Praktikumi materjalid: https://drive.google.com/drive/folders/1bPnee4QpSb2ryctOWkkgk9yJpJzs8ohJ
Lisamaterjal: Infoallikad, infootsing ja viitamine (slaidiesitlus, mille on koostanud Hans Põldoja, DTI haridustehnoloogia dotsent).
Kodus: kursusetöö temaatilise kirjanduse otsing ja valik.
T 05.11. – Kursusetöö 2. vaheettekanne: temaatilise kirjanduse tutvustus. Masinõppe põhimõisted.
N 07.11. – Praktikum: Sõnavektorite loomine ja sõnade grupeerimine Word2Vec algoritmiga (Jaagup Kippar). Praktikumi materjalid: https://colab.research.google.com/drive/1Ez5mRrwlVJaiDWf2e5eoeCrZUW5dyonw
Kodus: lugemispäeviku 3. sissekanne – Pollak jt 2011.
N 14.11. – Praktikum: tekstide klassifitseerimine Pythoni teegiga Scikit-learn.
Videomaterjal: Einar Meisteri videointervjuud + küsimustele vastamine.
Kodus: kursusetöö uurimismaterjali ja analüüsimeetodi(te) valik.
T 19.11. – Kursusetöö 3. vaheettekanne: uurimismaterjal ja analüüsimeetod(id). Kõnetehnoloogia: kõnetuvastus, kõnesüntees, dialoogsüsteemid. Arutelu E. Meisteri videomaterjalide põhjal.
N 21.11. – Praktikum: sõnapilvede koostamine.
Kodus: lugemispäeviku 4. sissekanne – Kaalep & Koit 2010.
N 28.11. – Masintõlge. Arutelu loetud materjali põhjal. Praktiline rühmatöö: eesti keele toega masintõlkeprogrammide võrdlus.
Videomaterjal: Teadmuse visualiseerimise vahendid: ideekaardid, mõistekaardid, infograafika (Hans Põldoja).
T 03.12. – Rühmatöö tulemuste esitamine. Kursusetöö konsultatsioon.
Kodus: kursusetöö tulemuste visualiseerimise katsetused (ainult slaidid, suulist esitlust ei toimu)
N 05.12. – Külalisloeng: Keel ja IT: tekstiloome tarkvaratoote arenduses ja turunduses (Scoro tooteturunduse juht Kadri Pultsin)
Eksamiajad:
T 17.12. kl 14.00-16.00
N 09.01. kl 14.00-16.00 (ruum A-303!)
N 16.01. kl 14.00-15.00 (järeleksam)
Learning Resources (Total: 11)