IFI6223.DT Keel ja tehnoloogia - sügis 2022/2023

Peasakid

  • Info
  • Õppematerjalid

Kokkuvõte

Tutvutakse loomuliku keele automaatse analüüsi võimalustega ja eesti keele alusel töötavate tarkvararakendustega. Antakse ülevaade peamiselt eesti keelega seotud tehnoloogilisest arendustööst, keeleressurssidest ja tarkvarast, mida saab kasutada suulise kõne (kõnesüntees, kõnetuvastus) ja kirjalike tekstide töötlemiseks (mh keelekorpuste, digiteeritud kirjanduse ja arhiivimaterjalide analüüsimiseks). Õpitakse kasutama andmekaeve põhimõttel töötavaid rakendusi, mis toovad tekstist esile keelekasutuse mustreid ja võimaldavad analüüsida tekstide sisu. Saadud infot tõlgendatakse kvalitatiivselt, et määrata kindlaks olulised sündmused, tegijad, nende hoiakud ja hinnangud, teha järeldusi individuaalsete, sotsiokultuuriliste, poliitiliste jm seisukohtade osas erinevat liiki tekstides. Kombineeritakse keeletöötlust ja levinud statistilisi meetodeid ning õpitakse kasutama sobivaid vahendeid analüüsi tulemuste visualiseerimiseks, et parimal moel võrrelda mahukaid andmekogusid, nt hinnata keelekasutusmustrite (n-grammid, konkordantsid, kollokatsioonid, võtmesõnad) alusel erinevate ajastute, žanrite või autorite diskursust, selle sarnasust ja erinemist. Arutatakse läbi kursusetöö probleemsed küsimused (nt lähteülesannete aktuaalsus, uurimisküsimused, allikmaterjali valik), hinnatakse nende lahendamiseks valitud meetodite ja analüüsivahendite sobivust, vaieldakse hüpoteeside paikapidavuse üle, põhjendades oma seisukohti rakenduslike ja teoreetiliste argumentidega.

Sisu

Kohtumispaik Google Meetis: https://meet.google.com/fxy-dwzj-tke (Palun andke eelnevalt teada soovist osaleda loengutes-praktikumides veebi kaudu!)

NB! Kolmapäeviti kohtume kl 16.00-17.30 (v.a 07.09.).

06.09. – Sissejuhatus ainesse. Kursusel osalejate enesetutvustus (huvivaldkonnad). Keeletehnoloogia mõiste ja rakendused. Sõnapiiride tuvastuse spikker: http://www.tlu.ee/~kais/Keel_ja_tehnoloogia/2022/sonapiiride_tuvastamine.txt

07.09. – Keeletehnoloogia rakendused. Keeleressursi mõiste.

Kodus: lugeda allikast Muischnek & Lindström 2020 lk 306–318 ja vastata küsimustele.

13.09. – Arutelu loetud materjali põhjal. Tutvumine eesti keele ressurssidega. Harjutus: teksti märgendamine TEI-standardi järgi.

14.09. – Teksti automaatanalüüsi vahendid 1: sisuanalüüs. Sõnade sagedusloendid, võtmesõnad, sõnad kontekstis (konkordantsid) ja sõnade kooskasutuse mustrid (kollokatsioonid).

20.09.Praktikum: kvantitatiivne sisuanalüüs rakendusega LancsBox.

21.09.Praktikum: kvantitatiivne sisuanalüüs rakendusega LancsBox.

Kodus: lugemispäeviku 1. sissekanne – Liin jt 2012.

27.09.Praktikum: kvantitatiivne sisuanalüüs Sketch Engine’i rakendustega.

28.09.Praktikum: kvantitatiivne sisuanalüüs Sketch Engine’i rakendustega. Kollokaatide võrdluse näide: https://jamboard.google.com/d/1K9v0MxpxpL1jvstM_ac8D2JcTAEXE6DFLw7ragjpujA/edit?usp=sharing

04.10. – Keeletehnoloogia kujunemine ja arengusuunad Eestis ja maailmas.

Kodus: lugemispäeviku 2 sissekanne – Jurafsky & Martin 2009, Sayers jt 2021

05.10. – Keeletehnoloogia kujunemine ja arengusuunad (jätk). Videod ja arutelu keeletehnoloogia tuleviku teemal.

11.10. – Teksti automaatanalüüsi vahendid 2: lingvistiline analüüs. Automaatne morfo- ja süntaksianalüüs.

Kodus: valige praktikumis analüüsimiseks omakirjutatud tekst, nt essee, kiri, luuletus.

12.10. – Keelekasutusmustrid ja nende tõlgendamine. Praktikum: keelekasutusmustrite leidmine rakendusega Klastrileidja.

Kodus: kursusetöö teema esmatutvustus.

18.10. – Kursusetöö 1. vaheettekanne: teema esmatutvustus. Praktikum: keelekasutusmustrite leidmine rakendusega Klastrileidja.

19.10. – Videoloeng "Infoallikad, infootsing ja viitamine" (Hans Põldoja, DTI haridustehnoloogia dotsent) - salvestus "Õppematerjalide" all. Slaidid: https://www.slideshare.net/hanspoldoja/infoallikad-infootsing-ja-viitamine-250462774

VAHENÄDAL (Soovituslik on teha ettevalmistusi 08.11. ettekande jaoks.)

01.11. – Keele ja tehnoloogia piirimail: kokkupuutepunktid, olulisemad rändmõisted. Formaalkeeled ja metakeel. (Pille Eslon, keeletehnoloogia dotsent)

02.11. – Stilomeetria: autori- ja žanrituvastus. Teksti keerukus.

Kodus: kursusetöö temaatilise kirjanduse otsing ja valik

08.11. – Kursusetöö 2. vaheettekanne: temaatilise kirjanduse tutvustus. Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.

09.11. – Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.

Kodus: lugemispäeviku 3. sissekanne – Pollak jt 2011.

15.11. – Teadmuse integreerimine: ontoloogiad. (Pille Eslon, DTI keeletehnoloogia dotsent)

16.11. – Praktikum: Semantiline veeb – Microdata, RDF, OWL. (Jaagup Kippar, DTI tarkvaratehnika teenekas lektor)

22.11. – Masinõppe põhimõisted. Praktikum: tekstide klassifitseerimine Pythoni teegiga Scikit-learn.

Kodus: kursusetöö uurimismaterjali ja analüüsimeetodi(te) valik.

23.11. – Kursusetöö 3. vaheettekanne: uurimismaterjal ja analüüsimeetod(id). Praktikum: tekstide klassifitseerimine Pythoni teegiga Scikit-learn.

Kodus: Videoloeng "Teadmuse visualiseerimise vahendid: ideekaardid, mõistekaardid, infograafika". (Hans Põldoja, DTI haridustehnoloogia dotsent) - salvestus "Õppematerjalide" all. Slaidid: https://www.slideshare.net/hanspoldoja/teadmuse-visualiseerimise-vahendid-250709947

29.11. – Teadmuse integreerimine: ontoloogiad. (Kordusloeng)

Kodus: tutvuda E. Meister videomaterjaliga ja vastata küsimustele (vt "Failid").

30.11. – Kõnetehnoloogia. Dialoogsüsteemid, kõnetuvastus ja kõnesüntees. Arutelu E. Meisteri videomaterjalide põhjal.

Kodus: lugemispäeviku 4. sissekanne – Kaalep & Koit 2010.

06.12. – Masintõlge. Arutelu loetud materjali põhjal. Praktiline rühmatöö: eesti keele toega masintõlkeprogrammide võrdlus.

07.12. – Sisuanalüüsi visualiseerimine: sõnapilved. Praktikum. (Kaisa Norak, DTI keeletehnoloogia rühma analüütik) NB! Toimub Meetis kell 18.00-19.30!

Kodus: masintõlkevõrdluse rühmatöö

13.12. – Rühmatöö tulemuste esitamine. Meetis!

Kodus: kursusetöö proovianalüüsi tulemuste visualiseerimise katsetused

14.12. – Kursusetöö 4. vaheettekanne: uurimistulemuste visuaalne esitlus. Konsultatsioon.

10.01. – Kursusetööde kaitsmine

17.01. – Järelkaitsmine