teema: Mitmesõnaliste verbide struktuur eestikeelsetes tekstides
tunnusnumber: ETF5787
projekti tüüp: Eesti Teadusfondi grant
erialad: 2.9. Süsteemitehnika ja infotehnoloogia
6.3. Keeleteadus
seisund: käimasolev
asutus: TÜ Filosoofiateaduskond
projekti juht: Heiki-Jaan Kaalep
kestus: 01.01.2004 - 31.12.2007
kirjeldus: Põhieesmärke on kaks.
1. Leida seaduspärasused, mis võimaldaksid reaalses tekstis esinevaid mitmesõnalisi verbe automaatselt ära tunda. Need seaduspärasused peaksid olema piisavalt universaalsed ja formaliseeritud, et nende alusel saaks luua lingvisti töövahendi - arvutiprogrammi, mis analoogiliselt sõnavorme analüüsivale morfoloogilisele analüsaatorile oskab leida tekstis oleva väljendi kanoonilise e. algvormi-kuju. Seejuures enne peaks see programm oskama konteksti alusel öelda, kas antud väljend üldse selles lauses esineb.
2. Kasutades loodud programmi, leida 1-miljoni sõnalisest tekstikorpusest üles mitmesõnalised verbid (mille loendi aluseks on aadressil http://www.cl.ut.ee/ee/ressursid/pysiyhendid.html olev andmebaas) ja märgendada nad.
Programmi loomiseks ja testimiseks võetakse varem morfoloogiliselt märgendatud ja ühestatud tekstikorpus (200 000 sõna) ning märgendatakse seal püsiväljendid käsitsi.
Seejuures tuleb lahendada teoreetiline probleem (verbikeskse) püsiühendi piiridest. Nii ongi lingvistilisest aspektist huvipakkuvaks probleemiks väljendverbide hulga piiritlemine prototüüpset väljendverbi defineerivate tunnuste määratlemise näol ja selle kirjeldamine, mis juhtub nende tunnustega väljendverbi järk-järgulisel üleminekul vabaks ühendiks.Teoreetilises mõttes on väljendverbi nominaalse komponendi kivinemise, adverbistumise (nt. "lokku lööma") näol tegemist ühe eesti keelele iseloomuliku grammatikaliseerumise tüübiga.
Loodavat arvutiprogrammi võib kasutada iseseisvalt lingvisti töövahendina, nagu meil on kavas kasutada väljendite sageduste leidmiseks. Mis veel olulisem: ta oleks ka oluline komponent eesti keele masintöötluse kõigil etappidel - morfoloogilisel ühestamisel, süntaktilisel analüüsil ja sünteesil ning semantilisel ühestamisel.
Sagedus-infoga varustatud väljendite andmebaasi saab kasutada ka eesti keele kui võõrkeele õppes.

projektiga seotud isikud
nr nimi asutus amet  
1.Heiki-Jaan KaalepTÜ Filosoofiateaduskondvanemteadur 
2.Kadri MuischnekTartu Ülikoolteadur