« Atgal į morfemikos duomenų bazę

1. Lietuvių kalbos morfemikos duomenų bazės sandara

Tiriamąją medžiagą sudaro apie 310 tūkst. žodžių rašytinės ir sakytinės kalbos bazė, sudaryta iš skirtingų stilių, kuo įvairesnės tematikos, kiek įmanoma panašesnės apimties tekstų atkarpų iš mokslinio, publicistinio, grožinio stiliaus darbų, ir šiek tiek mažesnės apimties administracinės kalbos pavyzdžių. Į tiriamąją medžiagą įdėta ir eksperimentinės sakytinės kalbos bazės fragmentų. Medžiagos proporcijos maždaug tokios: po ketvirtadalį mokslinių (26 proc.), publicistinių (28 proc.) ir grožinių (25 proc.) tekstų, mažiau nei dešimtadalis (7 proc.) administracinių tekstų ir daugiau nei dešimtadalis (14 proc.) įvairių spontaninės kalbos fragmentų.

Mokslinio stiliaus tekstų atkarpos lygiomis dalimis parinktos iš socialinių, humanitarinių ir fizinių mokslų darbų: D. Crystalo „Kalbos mirtis“ (2005), A. Ivaškevičienės „Pramonės įmonių vadyba“ (1996), A. Kanapicko „Molekulinė fizika“ (2004), B. Masionienės „Baltijos tautos“ (1996), R. Miliūnaitės „Lietuvių kalbos gramatikos norminimo pagrindai“ (2003), A. Paškaus „Dievai, dvasios ir žmonės Naujajame amžiuje“ (1993), J. D. Peterso „Kalbėjimas vėjams: komunikacijos idėjos istorija“ (2004), L. Simanausko „Informacinių sistemų analizė“ (1997), A. Skirkevičiaus „STATISTICA. Pirmieji žingsniai“ (2005), A. Suslavičiaus „Socialinė psichologija“ (1999), R. Tarvydo „Gravitacinio šlaito uolienų slinkimo gamtinės sąlygos ir dinamika“ (1995). Mokslinio stiliaus tekstuose gausu įvairių sutrumpinimų, datų, skaitmenų. Jie, jei tik buvo įmanoma, perrašyti žodžiais.

Publicistinio stiliaus tekstų atkarpos parinktos iš periodinių leidinių: „Kauno diena“, „Lietuvos rytas“, „Mažylis“, „Mokslas ir technika“, „Mūsų gamta“, „Sveikata“, „Tėviškės žinios“, „Žemės ūkis“. Ir mokslo darbai, ir periodiniai leidiniai pasirinkti tokie, kad būtų kuo didesnė teminė įvairovė (moksliniai straipsniai iš periodinių leidinių neįtraukti).

Grožinio stiliaus tekstų panašios apimties atkarpos parinktos iš lietuvių autorių kūrinių: Alės Rūtos „Vargingos Tėvynės vaikai“ (2000), A. Andriuškevičiaus, G. Beresnevičiaus, S. Gedos, S. Parulskio, G. Radvilavičiūtės „Siužetą siūlau nušauti“ (2002), J. Apučio „Skruzdėlynas Prūsijoje“ (1989), S. Babono „Trys sugrįžimai namo“ (1995), V. Dautarto „Senojo gluosnio pasaka“ (1987), J. Erlicko „History of Lithuania“ (2000), V. Girdzijausko „Palūkėk, mirtie“ (2000), L. Gutausko „Laiškai iš Viešvilės“ (2001), J. Kralikausko „Titnago ugnis“ (1993), R. Lankausko „Nė vienas nebuvo pagailėtas“ (1990), R. Marčėno „Išdraskytų lizdų gandrai“ (1991), V. Mykolaičio-Putino „Altorių šešėly“ (1983), B. Pečiokaitės-Adomėnienės „Penktas: nežudyk“ (1994), V. Zaikausko „Pėdsakai baigiasi rojuje“ (2000), J. Žilinsko „Genomas 3000“ (2004).

Administracinio stiliaus tekstų atkarpos parinktos iš Lietuvos Respublikos darbo kodekso patvirtinimo, įsigaliojimo ir įgyvendinimo įstatymo (2002 m. birželio 4 d. Nr. IX-926); Lietuvos profesinių sąjungų konfederacijos įstatų (2005-02-12); Lietuvos Respublikos darbuotojų saugos ir sveikatos įstatymo (2003 m. liepos 1 d. Nr. IX-1672); Lietuvos Respublikos trišalės tarybos nuostatų (2005 m. sausio 25 d.); Lietuvos Respublikos aplinkos ministro įsakymo dėl valstybinės saugomų teritorijų apsaugos kontrolės nuostatų patvirtinimo (2004 m. sausio 27 d. Nr. D1-43); įvairių VDU padalinių nuostatų (2003 m.); VDU Senato posėdžio protokolų (2002 m.). Daugelis sutrumpinimų, jei tik buvo galima, perrašyti žodžiais; datos, skyrių, poskyrių, dokumentų numeriai skaitmenimis neperrašyti.

Panaudoti ir Sakytinės kalbos įrašų bazės fragmentai.

Remiantis šia medžiaga, 2011 m. sudaryti trys morfemikos žodynai:

2. Lietuvių kalbos morfemikos duomenų bazės duomenų anotavimas

Visi duomenų bazę sudarantys tekstai morfologiškai anotuoti (t. y. nustatytos kalbos dalys ir joms būdingos gramatinės žymos). Morfemų ribos žymėtos rankomis. Morfemos žymėtos sutartiniais ženklais. Internete prieinamoje duomenų bazėje ribos tarp morfemų žymimos brūkšneliais. Dėl šios priežasties kol kas negalima ieškoti tam tikrų rūšių morfemų, pvz., šaknų, priešdėlių, galūnių ir pan.

Kai kuriuose prieveiksmiuose (dažniausiai atsiradusiuose iš kaitomų žodžių) ženklu „[“ žymimos buvusių kaitomų žodžių galūnės. Šiems žodžiams sustabarėjus ir tapus prieveiksmiais, galūnės nebeatlieka savo funkcijos, todėl negali būti laikomis tikromis morfemomis. Keletas tokio žymėjimo pavyzdžių: k[o, k[am, nežin[ia, pamaž[u, pikt[uoju, retkarč[iais, slapč[iomis.

Persidengiančių morfemų elementai (fonemos), kurie priklauso dviem morfemos, žymimi "{", pvz.: su-grį-{ž}t-u, at-si-dū-{s}t-u, ne-drį-{s}t-u.

Būdvardžiams, prieveiksmiams nurodomas tik aukštesnysis ir aukščiausiasis laipsniai; nelyginamasis laipsnis nenurodomas.

Visiems duomenų bazėje esantiems žodžiams nurodoma:

3. Paieškos ir duomenų analizės galimybės Lietuvių kalbos morfemikos duomenų bazėje

Duomenų bazėje galima ieškoti:

Pateiktus rezultatus galima rūšiuoti norima tvarka:

Rezultatus galima atsispausdinti (reikia paspausdinti spausdintuvo paveikslėlį) arba išsisaugoti (reikia paspausti rodyklės paveikslėlį). Galima išsisaugoti iki 2 MB duomenų, todėl jei ieškosite labai dažnų morfemų, duomenų nebus galima išsaugoti atskiroje rinkmenoje.

4. Lietuvių kalbos morfemikos duomenų bazės sudarytojai

Duomenų bazę sudarė Erika Rimkutė, Asta Kazlauskienė, Gailius Raškinis, Irena Markievicz.

Bazės naudotojų komentarų, informacijos apie pastebėtas klaidas, netikslumus laukiame adresu e.rimkuteETAhmf.vdu.lt.


« Atgal į morfemikos duomenų bazę