IFI6223.DT Keel ja tehnoloogia - sügis 2021/2022

Primary tabs

  • Info
  • Learning Resources

Excerpt

Tutvutakse loomuliku keele automaatse analüüsi võimalustega ja eesti keele alusel töötavate tarkvararakendustega. Antakse ülevaade peamiselt eesti keelega seotud tehnoloogilisest arendustööst, keeleressurssidest ja tarkvarast, mida saab kasutada suulise kõne (kõnesüntees, kõnetuvastus) ja kirjalike tekstide töötlemiseks (mh keelekorpuste, digiteeritud kirjanduse ja arhiivimaterjalide analüüsimiseks). Õpitakse kasutama andmekaeve põhimõttel töötavaid rakendusi, mis toovad tekstist esile keelekasutuse mustreid ja võimaldavad analüüsida tekstide sisu. Saadud infot tõlgendatakse kvalitatiivselt, et määrata kindlaks olulised sündmused, tegijad, nende hoiakud ja hinnangud, teha järeldusi individuaalsete, sotsiokultuuriliste, poliitiliste jm seisukohtade osas erinevat liiki tekstides. K ombineeritakse keeletöötlust ja levinud statistilisi meetodeid ning õpitakse kasutama sobivaid vahendeid analüüsi tulemuste visualiseerimiseks, et parimal moel võrrelda mahukaid andmekogusid, nt hinnata keelekasutusmustrite (n-grammid, konkordantsid, kollokatsioonid, võtmesõnad) alusel erinevate ajastute, žanrite või autorite diskursust, selle sarnasust ja erinemist. Arutatakse läbi kursusetöö probleemsed küsimused (nt lähteülesannete aktuaalsus, uurimisküsimused, allikmaterjali valik), hinnatakse nende lahendamiseks valitud meetodite ja analüüsivahendite sobivust, vaieldakse hüpoteeside paikapidavuse üle, põhjendades oma seisukohti rakenduslike ja teoreetiliste argumentidega.

Content

Kohtumispaik Google Meetis: meet.google.com/ypb-toyd-yaf (Palun andke eelnevalt teada soovist osaleda loengutes-praktikumides veebi kaudu!)

31.08. – Sissejuhatus ainesse. Kursusel osalejate enesetutvustus (huvivaldkonnad). Keeletehnoloogia mõiste ja rakendused. Sõnapiiride tuvastuse spikker:  http://www.tlu.ee/~kais/Keel_ja_tehnoloogia/2021/sonapiiride_tuvastamine.txt

01.09. – Keeletehnoloogia rakendused. Keeleressursi mõiste.

Kodus: lugeda õppematerjali „Mis on korpus?“ ja vastata küsimustele.

07.09. – Arutelu loetud materjali põhjal. Keeleressursside töötlus, haldus ja jagamine.

08.09. – Tutvumine eesti keele ressurssidega. Praktiline harjutus: teksti märgendamine TEI-standardi järgi. http://www.tlu.ee/~kais/Keel_ja_tehnoloogia/2021/TEI/

Kodus: lugemispäeviku 1. sissekanne – Liin jt 2012.

14.09. – Teksti automaatanalüüsi vahendid 1: sisuanalüüs. Sõnade sagedusloendid, võtmesõnad, sõnad kontekstis (konkordantsid) ja sõnade kooskasutuse mustrid (kollokatsioonid).

15.09.Praktikum: tekstide sisuanalüüs rakendusega LancsBox. http://www.tlu.ee/~kais/Keel_ja_tehnoloogia/2021/LancsBox/

21.09.Praktikum: tekstide sisuanalüüs rakendusega LancsBox.

22.09.Praktikum: tekstide sisuanalüüs Sketch Engine’i rakendustega.

Kodus: kursusetöö teema esmatutvustus.

28.09.Kursusetöö 1. vaheettekanne: teema esmatutvustus.

29.09. Praktikum: tekstide sisuanalüüs Sketch Engine’i rakendustega. Keeletehnoloogia kujunemine Eestis.

05.10. – Keeletehnoloogia arengusuunad. Teksti automaatanalüüsi vahendid 2: lingvistiline analüüs.

Kodus: lugemispäeviku 2 sissekanne – Jurafsky & Martin 2009, Sayers jt 2021

06.10. – Teksti automaatanalüüsi vahendid 2: lingvistiline analüüs. Automaatne morfo- ja süntaksianalüüs.

12.10. – Keelekasutusmustrid ja nende tõlgendamine.

13.10. – Infoallikad, infootsing ja viitamine. Zoomis! Hans Põldoja slaidid: https://www.slideshare.net/hanspoldoja/infoallikad-infootsing-ja-viitamine-250462774 (Loengu salvestus "Õppematerjalide" all.)

VAHENÄDAL. Kodus: kursusetöö temaatilise kirjanduse otsing ja valik + oma kirjutatud teksti valik 27.10. praktikumis analüüsimiseks

26.10.Kursusetöö 2. vaheettekanne: temaatilise kirjanduse tutvustus.

27.10. – Praktikum: keelekasutusmustrite leidmine rakendusega Klastrileidja.

https://jamboard.google.com/d/1tallfa14FtfLJuYuseEHIL_2_wrf2Qh08mX1OdWQ3qw/edit?usp=sharing

02.11. – Oma kirjutatud tekstist keelemustrite otsimine. https://docs.google.com/spreadsheets/d/1HZ11UEymqSzfICvsePppdGTq2uUbjtBOBNsCAjl11l0/edit

Stilomeetria: autori- ja žanrituvastus. Teksti keerukus.

03.11.Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas. http://www.tlu.ee/~kais/Keel_ja_tehnoloogia/2021/Stilomeetria/

Kodus: lugemispäeviku 3. sissekanne – Pollak jt 2011.

09.11. – Keele ja tehnoloogia piirimail: kokkupuutepunktid, olulisemad rändmõisted. Formaalkeeled ja metakeel. Ontoloogiad. Google Meetis!

10.11. – Praktikum: teksti stiili analüüs Pythoni teekidega Stanza ja Pandas.

Kodus: kursusetöö uurimismaterjali ja analüüsimeetodi(te) valik.

16.11.Kursusetöö 3. vaheettekanne: uurimismaterjal ja analüüsimeetod(id). Google Meetis!

17.11.Praktikum: Semantiline veeb – Microdata, RDF, OWL.

23.11. – Teadmuse visualiseerimise vahendid: ideekaardid, mõistekaardid, infograafika. Zoomis! Hans Põldoja slaidid: https://www.slideshare.net/hanspoldoja/teadmuse-visualiseerimise-vahendid-250709947

24.11. – Sisuanalüüsi visualiseerimine: sõnapilved. Praktikum. Google Meetis! https://jamboard.google.com/d/1CwbL3ByXsePU7RYyltDj6WSQp59Ur9TrJBgTAg0-MOI/viewer

Kodus: lugemispäeviku 4. sissekanne – Kaalep & Koit 2010.

30.11. – Praktikum: masinõpe – tekstide klassifitseerimine Microsoft Azure’iga.

01.12. – Masintõlge. Arutelu loetud materjali põhjal. Praktiline rühmatöö: eesti keele toega masintõlkeprogrammide võrdlus.

Kodus: kursusetöö proovianalüüsi tulemuste visuaalse esituse katsetused

07.12. – Masintõlkevõrdluse lõpetamine ja rühmatöö tulemuste esitamine.

Kodus: tutvuda E. Meister videomaterjaliga ja vastata küsimustele (vt "Failid").

08.12. – Kõnetehnoloogia. Dialoogsüsteemid, kõnetuvastus ja kõnesüntees. Kursusetöö joonistele tagasiside andmine "Ülesannete halduris".

15.12. kell 16.00 / 11.01. kell 14.00 – Kursusetööde kaitsmine

18.01. kell 14.00 – Kursusetööde järelkaitsmine