Apie Dabartinės lietuvių kalbos tekstyną
Dabartinės lietuvių kalbos tekstynas – visuma elektroninį pavidalą turinčių ir specialia programine įranga aprūpintų tekstų, skirtų filologinei, statistinei, sociologinei ar kitokiai kalbos vienetų vartosenos analizei. Tai visuotinai pripažintas įvairialypis duomenų šaltinis, kuriuo naudojasi įvairių sričių mokslininkai ir praktikai. Šis tekstynas yra didžiausias lietuvių kalbos tekstynas, kuriamas nuo 1992 m.
Dabartinės lietuvių kalbos tekstynas yra daugiau bendro pobūdžio nei specialus, parengtas pagal skaitomumo, o ne leidybos tendencijas, tęstinis, ištisų tekstų rinkinys, sudaromas pagal kai kurių kitų Europos kalbų (anglų, vokiečių, danų, čekų ir kt.) tekstynų sandaros principus.
Dabartinės lietuvių kalbos tekstyno dydis, žanrų ir temų įvairovė lemia plačias jo pritaikymo galimybes: jis gali būti naudojamas ir kaip enciklopedinis arba kontekstinis žodynas, ir kaip praktinė lietuvių kalbos mokymo ar mokymosi priemonė, ieškantiems gausių autentiškos lietuvių kalbos pavyzdžių.
Tekstyno pildymo ir tvarkymo etapai
-
1992–2001 m. rinkti rašytinės lietuvių kalbos tekstai. Tekstynas taip pat papildytas verstine literatūra – filosofinės literatūros vertimais.
-
2002 m. pasirodė pirmoji tekstyno sąsajos http://donelaitis.vdu.lt versija.
-
2002–2008 m. tekstyno duomenų bazė papildyta rašytinės ir sakytinės kalbos tekstais, kurie sukaupti dalyvaujant Valstybinės lietuvių kalbos komisijos ir Valstybinio mokslo ir studijų fondo remtuose projektuose.
-
2011 m. sausį pristatyta antroji tekstyno sąsajos http://tekstynas.vdu.lt versija.
Tekstyne registruojami tekstai aprašomi pagal tokius požymius: tipas (pvz., negrožinė literatūra), sritis (pvz., mokomoji: vadovėliai, metodinės ir kitos mokymo priemonės), žanras (pvz., gamtos mokslai), tema (pvz., žemės ūkis, miškininkystė, gyvulininkystė, sodininkystė). Registruojant nurodoma svarbiausia bibliografinė informacija: autorius, teksto pavadinimas, išleidimo metai, leidykla (bibliografinės informacijos kiekis nurodomas atsižvelgiant į teksto pobūdį).
Dabartinės lietuvių kalbos tekstyno sandara
Nuo 2009 m. tekstai tvarkomi remiantis TEI P5 reikalavimais. Teksto kodavimo iniciatyva TEI yra konsorciumas (http://www.tei-c.org), plėtojantis ir palaikantis skaitmeniniams tekstams skirtus standartus. TEI konsorciumas sukūrė gaires, kurios apibrėžia kodavimo metodus kompiuteriu apdorojamiems tekstams. Nuo 1994 m. TEI gairės yra plačiai naudojamos bibliotekų, muziejų, leidėjų bei mokslininkų, kurie pateikia tekstus tyrimams, mokymui ir saugojimui.
Ankstesnis Dabartinės lietuvių kalbos tekstyno žymėjimas, kuris neatitiko XML kalbos standartų, netenkino šiandieninių tekstyno vartotojų poreikių ir ribojo tekstyno naudojimo galimybes. Dėl šių priežasčių buvo sudėtinga dalyvauti tarptautiniuose projektuose, jungtis į tarptautines mokslines infrastruktūras ir naudoti standartinę programinę įrangą toliau plėtojant ir analizuojant tekstyną. TEI P5 standartas svarbus ir tuo, kad bus galima lengviau prižiūrėti ir toliau tobulinti tekstyno duomenų sistemą.
Dabartinės lietuvių kalbos tekstyno paieškos galimybės
Paiešką galima atlikti tokiose tekstyno dalyse:
-
grožinės literatūros;
-
negrožinės literatūros (mokslo, mokomosios, pažintinės, mokslo populiarinimo literatūros tekstai);
-
administracinės literatūros;
-
publicistikos (be knygų – memuarų, kronikų, esė – į šią dalį įeina tekstai iš bendrosios, populiariosios, mokslinės periodikos);
-
sakytinės kalbos (čia įeina viešosios ir privačiosios kalbos, stenogramos). Prie sakytinės kalbos nurodomi tik metai; nenurodoma kita su pokalbių dalyviais ir aplinkybėmis susijusi informacija.
Paieška veikia tokiose naršyklėse:
-
Google Chrome (rekomenduojama, sparčiausia)
-
Mozilla Firefox
-
Apple Safari
-
Opera
Vartotojas informacijos gali ieškoti keliais paieškos lygmenimis:
- paprastojoje paieškoje,
- išplėstinėje paieškoje, kurioje yra dar keturi paieškos kriterijai:
- paieška pagal datą;
- paieška pagal autorių;
- paieška pagal pavadinimą;
- paieška pagal leidyklą.
- 1. Paprastojoje paieškoje galima:
- 1.1. Sužinoti, koks konkrečios žodžio formos vartojimo dažnumas atskiroje tekstyno dalyje, keliose dalyse arba visame tekstyne.
- 1.2. Matyti pasirinkto žodžio vartojimo kontekstą (peržiūrėti konkordansą).
- 1.3. Tam tikro žodžio konkordanse ieškoti kontekstinio žodžio.
- 1.4. Matyti konkordansų šaltinius.
- 1.5. Išsaugoti paieškos rezultatus savo kompiuteryje.
Norėdami atlikti paprastąją paiešką:
- Į paieškos laukelį įrašykite žodžio formą.
- Pažymėkite varnelę prie tos tekstyno dalies (arba visų), kurioje norite ieškoti šio žodžio formos, paspauskite „Ieškoti“.
- Atsivėrusiame lange matysite dažnumo lentelę. Lentelėje galima matyti, kiek kartų ieškoma žodžio forma pavartota atskirose tekstyno dalyse arba toje dalyje, kurią pasirinkote; kiek iš viso žodžių sudaro tam tikrą tekstyno dalį.
- Paspaudę ant ieškomo žodžio formos, galėsite peržiūrėti ieškomo žodžio formos konkordansą, t. y. matysite, kokiame kontekste vartojamas ieškomas žodis (jis bus paryškintas). Prie kiekvienos konkordanso eilutės matysite skaičių, ant jo užvedus pelę pasirodys informacija apie šaltinį (pavadinimas, autorius, leidykla, leidimo data, tekstyno dalis), kuriame rastas konkordanso eilutės sakinys ar sakiniai.
- Konkordanse galite atlikti konkretaus kontekstinio žodžio paiešką: paspauskite ant „Paieška su kontekstiniu žodžiu“ ir atsivėrusiame paieškos laukelyje nurodykite kontekstinio žodžio formą (jeigu ieškote konkretaus kontekstinio žodžio) arba žodžio dalį (kuria ieškomas kontekstinis žodis prasideda ar baigiasi). Kontekstinis žodis gali būti pateikiamas kairėje, dešinėje arba abiejose pagrindinio žodžio pusėse – šis pasirinkimas nurodomas prie funkcijos „Kontekstinį žodį pateikti“. Funkcija „Nuotolis nuo žodžio“ leidžia ieškoti kontekstinio žodžio, kuris gali būti nutolęs nuo pagrindinio žodžio per 1, 2, 3, 4, 5 žodžius. Jeigu nesvarbu, per kiek žodžių nutolęs kontekstinis žodis nuo pagrindinio, tada pasirinkite „nesvarbu“. Paspaudus „Filtruoti“, pateikiama tik ta konkordanso dalis, kurioje pagrindinis žodis yra pavartotas kartu su nurodytu kontekstiniu žodžiu. Jeigu analizei reikalingas daugiau negu dviejų žodžių kontekstas, tada ta pačia funkcija „Paieška su kontekstiniu žodžiu“ geriau naudotis išplėstinėje paieškoje: galėsite atsirinkti ne tik tuos pavyzdžius, kur, pavyzdžiui, forma šalį vartojama su prielinksniu pro (pro šalį), bet ir analizuoti ilgesnes frazes (gyvenimas eina pro šalį; būtų ne pro šalį ir pan.)
- Jeigu norite matyti visus šaltinius, kuriuose pavartota ieškoma žodžio forma, galite pasirinkti dvi funkcijas: „Rodyti šaltinių sąrašą tame pačiame lange“ arba „Rodyti šaltinių sąrašą atskirame lange“.
- Šaltinių lentelėje dažniausiai nurodomas teksto pavadinimas, autorius, leidykla, data, tekstyno dalis, kurioje pavartotas žodis ar frazė, taip pat ir ieškomo žodžio ar frazės dažnumas tam tikrame šaltinyje. Konkordanse konkretus pavartojimų skaičius tam tikrame šaltinyje nenurodomas.
- Išsaugoti konkordansą galite taip: prie funkcijos „Saugoti rezultatus“ spauskite „Saugoti“. Jeigu prie funkcijos „Saugoti rezultatus“ padėsite varnelę, išsisaugojus prie kiekvienos konkordanso eilutės bus pateiktas ir šaltinis.
- 2. Išplėstinėje paieškoje galimos tokios pagrindinės funkcijos:
- 2.1. Susiaurinti arba išplėsti savo paieškos rezultatus, atsižvelgiant į tai, ar atliekate darybinę, ar leksinę analizę. Galite ieškoti žodžio formų pagal penkis pasirenkamus kriterijus:
- 2.1.1. sutampa: jeigu norite ieškoti konkretaus žodžio (žodžio formos), pvz., kompiuteris arba kompiuterio, – tada paieškos kriterijuose nurodykite „sutampa“.
- 2.1.2. prasideda: jei paieškos laukelyje „Ieškomas žodis (frazė)“ įrašote žodžio pradžią kompiuter ir paieškos kriterijuose pažymite „prasideda“, jums bus pateikta: kompiuteris, kompiuterio ... kompiuterininkas, kompiuterika ir t. t.
- 2.1.3. baigiasi: jei paieškos laukelyje „Ieškomas žodis (frazė)“ įrašote žodžio pabaigą ris ir paieškos kriterijuose pažymite „baigiasi“. Jums bus pateikta: kompiuteris, adapteris, charakteris ... hakeris, likeris ir t. t.
- 2.1.4. žodžio vidurys: jei ieškote, dalies žodžio, pvz., tarp priešdėlio ir priesagos arba tarp šaknies ir galūnės, kurią sąlyginai galima pavadinti žodžio viduriu, tarkim, kamp, pažymėkite „žodžio vidurys“ ir gausite tokius paieškos rezultatus: trikampis, užkampis, pakampėm, atkampiausių ir t. t.
- 2.1.5. frazė: galite ieškoti frazės (iki penkių žodžių) ir matyti jos vartojimo kontekstą. Pavyzdžiui, paieškos laukelyje „Ieškomas žodis (frazė)“ įrašote kelis žodžius saulė leidžias už kalnų ir paieškos kriterijuose pažymite „frazė“. Jums bus pateiktas frazės konkordansas.
2.2. Išplėstinėje paieškoje galima matyti siauresnį ir platesnį kontekstą, kuris gali būti aktualus, pavyzdžiui, siekiant nustatyti žodžio reikšmę, atpažinti ilgesnius leksinius vienetus, sintaksinius junginius ir pan. Galima pasirinkti konkordanso eilutės plotį:
- 50 simbolių ilgio eilutę;
- 100 simbolių ilgio eilutę;
- 150 simbolių ilgio eilutę;
- 300 simbolių ilgio eilutę.
Toks konkordanso eilutės apribojimas reikalingas dėl to, kad nebūtų pažeistos autorių teisės ir nebūtų galima skaityti viso teksto ar ilgų to teksto ištraukų.
2.3. Pasirenkamas analizuojamų šaltinių kiekis. Paieškos greitis priklauso nuo to, kokioje šaltinių dalyje ieškoma žodžio, žodžio dalies ar frazės. Jei pasirinksite mažiau šaltinių, paieška vyks greičiau, bet negausite visų duomenų. Jeigu norėsite matyti kuo daugiau kontekstų, galėsite peržiūrėti daugiau (arba visus) tam tikros tekstyno dalies šaltinius – tokiu atveju paieška vyks ilgiau. Galima rinktis tokį šaltinių kiekį:
- 20: analizuojama 20 dokumentų iš pasirinktų tekstyno dalių:
- 50: analizuojama 50 dokumentų iš pasirinktų tekstyno dalių;
- 70: analizuojama 70 dokumentų iš pasirinktų tekstyno dalių;
- 100: analizuojama 100 dokumentų iš pasirinktų tekstyno dalių;
- 200: analizuojama 200 dokumentų iš pasirinktų tekstyno dalių;
- 500: analizuojama 500 dokumentų iš pasirinktų tekstyno dalių;
- Visus: analizuojami visi dokumentai iš pasirinktų tekstyno dalių.
Jeigu pasirinksite analizuoti 20, 50, 70, 100, 200 ar 500 šaltinių visose tekstyno dalyse, tai paieška bus vykdoma pirmuose 20-tyje, 50-tyje, 70-tyje, 100-e, 200-uose ar 500-uose grožinės literatūros šaltinių; pirmuose 20-tyje, 50-tyje, 70-tyje, 100-e, 200-uose, 500-uose negrožinės literatūros šaltinių; pirmuose 20-tyje, 50-tyje, 70-tyje, 100-e, 200-uose, 500-uose administracinės literatūros šaltinių; pirmuose 20-tyje, 50-tyje, 70-tyje, 100-e, 200-uose, 500-uose publicistikos šaltinių; pirmuose 20-tyje, 50-tyje, 70-tyje, 100-e, 200-uose, 500-uose sakytinės kalbos šaltinių. Jei ieškomas žodis gana retas, gali būti, kad net ir pasirinkus mažiausią šaltinių skaičių, bus pateiktos visos tam žodžiui aktualios konkordanso ištraukos. Jei žodis tekstyne pavartotas dažnai, tai pasirinktoje šaltinių dalyje matysite tik dalį ieškomo žodžio konkordanso eilučių. Jeigu pasirinksite visus šaltinius, vadinasi, tam tikras žodis bus ieškomas visuose tekstyną sudarančiuose šaltiniuose, t. y. visuose tekstyno failuose.
Tekstyno dalys yra nevienodo dydžio, atsižvelgiant į šaltinių skaičių. Didžiausia tekstyno dalis yra publicistika, ją sudaro daugiau negu 500 šaltinių. Grožinės ir administracinės literatūros, sakytinės kalbos dalis sudaro mažiau nei 500 šaltinių, todėl net ir pasirinkus šių tekstyno dalių 500 šaltinių, paieška vyks visuose minėtas tekstyno dalis sudarančiuose šaltiniuose.
- 2.4. Pasirenkama, kokius duomenis pirmiausia pateikti: dažnumų lentelę ar konkordansą. Dažnumų lentelė parodo dažnumus ir pavartojimo skaičių konkrečioje tekstyno dalyje, todėl aiškiau atspindi dažnines konkretaus žodžio charakteristikas; konkordanse išryškėja vartosenos modeliai, kolokacijos. Jeigu analizuojate žodžio ar frazės vartoseną visose (ar keliose) tekstyno dalyse, tada patogu pirmiausia peržiūrėti dažnumų lentelę ir tik po to įeiti į kiekvienos dalies konkordansą.
- 2.5. Pasirenkama, kurioje tekstyno dalyje bus atliekama paieška: periodikoje, grožinėje literatūroje, negrožinėje literatūroje, administraciniuose tekstuose ar sakytinės kalbos dalyje. Jeigu aktuali tik viena tekstyno dalis, iš karto galima susiaurinti paiešką – gausite mažiau duomenų, galėsite greičiau atlikti analizę.
2.6. Kitos išplėstinės paieškos funkcijos:
Kai atliekate žodžio formų paiešką pagal pasirenkamus kriterijus „prasideda“, „baigiasi“ ir „žodžio vidurys“, gausite formų sąrašą, kuriame galite automatiškai (mygtuku „Pažymėti visus“) pažymėti visas formas ir paspaudus „Ieškoti“, gauti jų visų konkordansus. Jeigu norite analizuoti ne visas rastas formas, galite pasirinkti reikiamas ir prie jų pažymėti varneles.
Dažnumo lentelėje paspaudę ant ieškomo žodžio formos, galėsite peržiūrėti ieškomo žodžio formos konkordansą, t. y. galėsite matyti, kokiame kontekste vartojamas ieškomas žodis (jis bus paryškintas). Prie kiekvienos konkordanso eilutės matysite skaičių, o ant jo užvedus pelę pasirodys informacija apie šaltinį (pavadinimas, autorius, leidykla, leidimo data, tekstyno dalis), iš kurio paimta konkordanso eilutė. Tokią pačią informaciją apie visus šaltinius, kuriuose pavartota ieškoma žodžio forma, galima matyti a) šaltinių sąraše, kuris gali būti pateikiamas dvejopai: tame pačiame lange ar atskirame lange; b) išsisaugotame konkordanse, tik prieš tai reikia pažymėti, kad saugotų su šaltiniais.
Jeigu norite matyti visus šaltinius, kuriuose pavartota ieškoma žodžio forma, galite pasirinkti dvi funkcijas: „Rodyti šaltinių sąrašą tame pačiame lange“ arba „Rodyti šaltinių sąrašą atskirame lange“.
Šaltinių lentelėje dažniausiai nurodomas teksto pavadinimas, autorius, leidykla, data, tekstyno dalis, kurioje pavartotas žodis ar frazė, taip pat ir ieškomo žodžio ar frazės dažnumas tam tikrame šaltinyje. Konkordanse konkretus pavartojimų skaičius tam tikrame šaltinyje nenurodomas.
Išsaugoti konkordansą galite taip: prie funkcijos „Saugoti rezultatus“ spauskite „Saugoti“. Jeigu prie funkcijos „Saugoti rezultatus“ padėsite varnelę, išsisaugojus prie kiekvienos konkordanso eilutės bus pateiktas ir šaltinis.
Išplėstinėje paieškoje, kaip ir paprastoje paieškoje, konkordanse galite atlikti konkretaus kontekstinio žodžio paiešką: paspauskite ant „Paieška su kontekstiniu žodžiu“ ir atsivėrusiame paieškos laukelyje nurodykite kontekstinio žodžio formą (jeigu ieškote konkretaus kontekstinio žodžio) arba žodžio dalį (kuria ieškomas kontekstinis žodis prasideda ar baigiasi). Kontekstinis žodis gali būti pateikiamas kairėje, dešinėje arba abiejose pagrindinio žodžio pusėse – šis pasirinkimas nurodomas prie funkcijos „Kontekstinį žodį pateikti“. Funkcija „Nuotolis nuo žodžio“ leidžia ieškoti kontekstinio žodžio, kuris gali būti nutolęs nuo pagrindinio žodžio per 1, 2, 3, 4, 5 žodžius. Jeigu nesvarbu, per kiek žodžių nutolęs kontekstinis žodis nuo pagrindinio, tada pasirinkite „nesvarbu“. Paspaudus „Filtruoti“, pateikiama tik ta konkordanso dalis, kurioje pagrindinis žodis yra pavartotas kartu su nurodytu kontekstiniu žodžiu. Išplėstinėje paieškoje kontekstinio žodžio paieška leidžia gauti ilgesnius junginius, nes jau pačioje paieškos pradžioje galima nurodyti ieškomą frazę ir gavus jos konkordansą ieškoti kontekstinio žodžio, pavyzdžiui, analizuojant „pro šalį“, gautame konkordanse galima peržiūrėti, kokie dažniausi ir artimiausi kontekstiniai partneriai vartojami kartu su šia fraze, ir toliau tirti ilgesnius vienetus (plg. nuo eina + pro šalį iki gyvenimas + eina pro šalį).
Tokios galimybės leidžia tirti ir gramatinius vartosenos modelius: pavyzdžiui, tiriant bendraties vartojimą administracinėje literatūroje, pirmiausia pagal baigmenį gaunamas visų toje dalyje pavartotų bendraties formų sąrašas, antruoju žingsniu – visų (arba dalies) formų konkordansai ir tada per kontekstinio žodžio paiešką galima analizuoti rūpimus modelius (žinoma, tokiu atveju paieška užtrunka ilgiau, nes turi būti apdorojamas didelis duomenų kiekis): troškimas aplankyti Lietuvą; galimybė atsisakyti bolotiruotis ir pan.
Atsiradus galimybei analizuoti morfologiškai anotuotus duomenis, ši funkcija bus dar naudingesnė ir tikslesnė, nes dabar ieškant tam tikrų gramatinių formų neretai pasitaiko homoformų, pvz., sutampa bendratis ir neveikiamosios rūšies būtojo laiko dalyvis: Komisijų rekomendacijas privalo apsvarstyti valstybiniai ir visuomeniniai organai; įrengimai yra sumontuoti, išbandyti ir statytojo priimti aktais.
Išplėstinėje paieškoje be anksčiau minėtų paieškos funkcijų dar galimi tokie paieškos kriterijai:
paieška pagal datą: galima sužinoti, ar ieškoma žodžio forma vartojama tam tikro laikotarpio tekstuose, pavyzdžiui, analizuojant žodį apkalta, matyti, kad 1992–2000 m. periodikoje šis žodis pavartotas 29 kartus, 2001–2005 m. periodikoje – 65 kartus. Naudojantis šia paieškos funkcija galima tirti naujus kalbos vienetus, žodžių reikšmių, terminų kitimą ir pan.
paieška pagal autorių: galima pasirinkti tik konkretaus (ar konkrečių) autoriaus tekstus iš tekstyno. Svarbu atkreipti dėmesį, kad užsienio autorių kalbos analizė iš esmės yra vertimo kalbos analizė. Tekstas gali būti parašytas kelių autorių – tokiu atveju paieškos eilutėje „Autorius“ iš karto pateiktos kelios pavardės. Prie kai kurių pavardžių nurodytos pažymos sud., red. – tai reiškia, kad asmuo yra tam tikro leidinio sudarytojas arba redaktorius.
paieška pagal pavadinimą: galima pasirinkti konkretų tekstą ir jame tirti rūpimo kalbos vieneto vartoseną.
paieška pagal leidyklą: galima pasirinkti konkrečią leidyklą ir jos leistuose leidiniuose tirti rūpimo kalbos vieneto vartoseną.
Atkreiptinas dėmesys, kad paskutiniai du paieškos kriterijai gali būti aktualūs tik labai specifinius dalykus tiriantiems mokslininkams. Pavyzdžiui, leidykla „Caritas“ leidžia religinio pobūdžio tekstus, todėl tokie tekstai gali būti svarbūs teologinės kalbos tyrinėtojams.
Atliekant paiešką pagal datą, autorių, pavadinimą ar leidyklą, galima ieškoti tik konkretaus žodžio, o ne žodžio dalies ar frazės.
|