teema: | Mitmesõnaliste verbide struktuur eestikeelsetes tekstides |
---|---|
tunnusnumber: | ETF5787 |
projekti tüüp: | Eesti Teadusfondi grant |
erialad: |
2.9. Süsteemitehnika ja infotehnoloogia 6.3. Keeleteadus |
seisund: | käimasolev |
asutus: | TÜ Filosoofiateaduskond |
projekti juht: | Heiki-Jaan Kaalep |
kestus: | 01.01.2004 - 31.12.2007 |
kirjeldus: | Põhieesmärke on kaks. 1. Leida seaduspärasused, mis võimaldaksid reaalses tekstis esinevaid mitmesõnalisi verbe automaatselt ära tunda. Need seaduspärasused peaksid olema piisavalt universaalsed ja formaliseeritud, et nende alusel saaks luua lingvisti töövahendi - arvutiprogrammi, mis analoogiliselt sõnavorme analüüsivale morfoloogilisele analüsaatorile oskab leida tekstis oleva väljendi kanoonilise e. algvormi-kuju. Seejuures enne peaks see programm oskama konteksti alusel öelda, kas antud väljend üldse selles lauses esineb. 2. Kasutades loodud programmi, leida 1-miljoni sõnalisest tekstikorpusest üles mitmesõnalised verbid (mille loendi aluseks on aadressil http://www.cl.ut.ee/ee/ressursid/pysiyhendid.html olev andmebaas) ja märgendada nad. Programmi loomiseks ja testimiseks võetakse varem morfoloogiliselt märgendatud ja ühestatud tekstikorpus (200 000 sõna) ning märgendatakse seal püsiväljendid käsitsi. Seejuures tuleb lahendada teoreetiline probleem (verbikeskse) püsiühendi piiridest. Nii ongi lingvistilisest aspektist huvipakkuvaks probleemiks väljendverbide hulga piiritlemine prototüüpset väljendverbi defineerivate tunnuste määratlemise näol ja selle kirjeldamine, mis juhtub nende tunnustega väljendverbi järk-järgulisel üleminekul vabaks ühendiks.Teoreetilises mõttes on väljendverbi nominaalse komponendi kivinemise, adverbistumise (nt. "lokku lööma") näol tegemist ühe eesti keelele iseloomuliku grammatikaliseerumise tüübiga. Loodavat arvutiprogrammi võib kasutada iseseisvalt lingvisti töövahendina, nagu meil on kavas kasutada väljendite sageduste leidmiseks. Mis veel olulisem: ta oleks ka oluline komponent eesti keele masintöötluse kõigil etappidel - morfoloogilisel ühestamisel, süntaktilisel analüüsil ja sünteesil ning semantilisel ühestamisel. Sagedus-infoga varustatud väljendite andmebaasi saab kasutada ka eesti keele kui võõrkeele õppes. |
projektiga seotud isikud | ||||
---|---|---|---|---|
nr | nimi | asutus | amet | |
1. | Heiki-Jaan Kaalep | TÜ Filosoofiateaduskond | vanemteadur | |
2. | Kadri Muischnek | Tartu Ülikool | teadur |