Pasívna zásoba slovenčiny predstavuje 130-tisíc slov, bežne nám stačí 20-tisíc, hovorí počítačový lingvista Radovan Garabík.
Autor Tablet.TV
Bratislava 19. decembra (TABLET.TV) - TASR, teda Tlačová agentúra Slovenskej republiky, bola slovom, ktorého výskyty rástli v deväťdesiatych rokoch, konkrétne po roku 1993, najrýchlejšie zo všetkých slov používaných v slovenskej publicistike. Uviedol to počítačový lingvista Radovan Garabík z Jazykovedného ústavu Ľudovíta Štúra Slovenskej akadémie vied (SAV) v relácii Pohľad na oblohu na TABLET.TV. Najčastejším slovom vôbec je sloveso „byť“ a spomedzi podstatných mien slovo „rok“.
Údaje o výskyte slov v písaných textoch obsahuje Frekvenčný slovník slovenčiny, ktorý vydal Jazykovedný ústav Ľudovíta Štúra SAV a Radovan Garabík je jedným z jeho hlavných autorov a redaktorov.
„Počítačová lingvistika sa v posledných dvadsiatich rokoch dostala do popredia. Je to odbor, ktorý súvisí s počítačovým spracovaním jazyka. V dnešnej dobe ide o pokročilé metódy, ako sú četovacie roboty, rozpoznávanie reči, vyhľadávanie,“ povedal Radovan Garabík. Do tejto oblasti patria aj automatické prekladače, ktoré sa takisto často využívajú.
Vyhľadávanie na základe kľúčových slov je v dnešnej dobe podľa Garabíka uspokojivo vyriešené, keďže vyhľadávače už rozpoznávajú slová nielen v základných tvaroch, ale aj ich obmeny vznikajúce pri skloňovaní, časovaní a podobne. „Ak teda napíšeme slovo ´zlom´, je zrejmé, že môže ísť aj o slovo odvodené od slovesa ´zlomiť´, ale je to aj tvar podstatného mena ´zlo´ v siedmom páde, alebo môže ísť o prídavné meno ´zlý´ v šiestom páde, alebo aj podstatné meno ´zlom´ v prvom páde a vyhľadávač podľa toho nájde aj príslušné odkazy,“ uviedol Garabík.
Samozrejme, všetky tieto činnosti so slovami, ktoré vykonáva počítač, musí najprv naprogramovať človek. Na Jazykovednom ústave Ľ. Štúra pripravili tzv. morfologickú databázu, do ktorej sa ručne zadali jednotlivé slová i všetky ich tvary – vyskloňované, vystupňované a pod. Táto databáza obsahuje cca 130.000 základných tvarov slov, ktoré v rôznych tvaroch obsahujú 2,5 milióna unikátnych slov a až 5 miliónov kombinácií slova plus gramatickej kategórie. Tých 130.000 slov v základnom tvare možno považovať za základnú pasívnu slovnú zásobu slovenčiny. „I keď sa hovorí, že v bežnej reči si človek vystačí s 20.000 slovami,“ doplnil Garabík.
Česká databáza napríklad obsahuje 250.000 slov, čo však nemusí znamenať, že má čeština viac slov, ale tiež, že českí jazykovedci na tomto projekte dlhšie pracujú. Práve rozpoznanie základného tvaru slova je potom kľúčové pre ďalšie počítačové spracovanie slovenských slov – s tým súvisí aj obsah tzv. Retrográdneho slovníka súčasnej slovenčiny, na ktorom sa Garabík takisto podieľal ako hlavný autor a redaktor. Slovník obsahuje slová prehľadne roztriedené podľa koncoviek, pretože práve koncovky slov v slovenčine zodpovedajú jednotlivým gramatickým kategóriám a tvarom – kým v angličtine sa napríklad pády pri skloňovaní tvoria predložkami.
Textové korpusy jazykov sú tvorené databázou písomných textov, najlepšie aj s lingvistickými značkami a spôsobmi vyhľadávania v týchto databázach. Exituje niekoľko veľkých korpusov slovenčiny, najvýznamnejším je Slovenský národný korpus. Obsahom týchto korpusov je okrem slov samotných aj tzv. gramatické a lingvistické značkovanie, teda označenie konkrétnych gramatických tvarov a obmien týchto slov, ktoré potom umožňujú aj ich vyhľadávanie, prípadne aj ďalšie užitočné informácie. Jazykovedný ústav vydal aj príručku Slovenský národný korpus – texty, anotácie, vyhľadávania, ktorá odborníkom i pokročilejším laikom uľahčuje orientáciu v Slovenskom národnom korpuse.
Ako doplnil Radovan Garabík, korpus môže v princípe predstavovať akúkoľvek databázu textov. Existujú aj rôzne špecializované korpusy, napríklad historický korpus slovenských textov od 15. storočia, tvoria sa tiež obrovské webové korpusy. „Najznámejší korpus, ktorý celá verejnosť pozná, je google. Je to mnohojazyčný korpus a základná práca s ním je jednoduchá: napíšete slovo alebo postupnosť a on nájde odkazy. Obsahuje aj nejaké gramatické značkovanie – ale nie prístupné verejnosti –, ktoré mu umožňuje rozpoznať rôzne tvary slov. Google je teda kvalitný svojou veľkosťou. Slovenský národný korpus alebo iné korpusy však obsahujú aj dôkladne a precízne označkované slová a ich tvary,“ vysvetlil Garabík.
Oba slovníky – retrográdny aj frekvenčný – vznikli tak, aby v nich boli vyvážené štýly a žánre, ale aj časové obdobia od roku 1955 kedy sa ustálila súčasná podoba pravopisu. Ide o korpus s 250 miliónmi slov.
Radovan Garabík sa venuje aj výskytom slov v jednotlivých obdobiach. Niektoré sa zjavili vyslovene krátkodobo: napríklad „televízorová obraznica“ – termín, ktorý sa objavil v preklade románu poľského autora Stanisława Lema v čase, keď sa u nás televízia len zavádzala a termín „televízna obrazovka“ sa udomácnil až neskôr.
Postupom času klesá výskyt slov Sarajevo (ako synonymum pre atentát či tragickú udalosť), alebo termín „világoš“. Naopak sa dostávajú do slovnej zásoby slová ako „cool“, hoci vo všeobecnosti slovenčinu a jej podobu angličtina ovplyvňuje v menšej miere, ako by sa očakávalo. Medzi najčastejšie z angličtiny prevzaté slová patria „film“, „gól“, „tréner“, ale aj pozdrav „ahoj“.
Podľa Garabíka človek nové slová často vníma subjektívne a čím je starší, tým si na ne ťažšie zvyká. „V širokom ponímaní sa však slovná zásoba nemení. Niektoré slová do nej pribúdajú, niektoré ubúdajú, no základ ostáva,“ dodal počítačový lingvista Radovan Garabík v relácii Pohľad na oblohu na TABLET.TV.
Údaje o výskyte slov v písaných textoch obsahuje Frekvenčný slovník slovenčiny, ktorý vydal Jazykovedný ústav Ľudovíta Štúra SAV a Radovan Garabík je jedným z jeho hlavných autorov a redaktorov.
„Počítačová lingvistika sa v posledných dvadsiatich rokoch dostala do popredia. Je to odbor, ktorý súvisí s počítačovým spracovaním jazyka. V dnešnej dobe ide o pokročilé metódy, ako sú četovacie roboty, rozpoznávanie reči, vyhľadávanie,“ povedal Radovan Garabík. Do tejto oblasti patria aj automatické prekladače, ktoré sa takisto často využívajú.
Vyhľadávanie na základe kľúčových slov je v dnešnej dobe podľa Garabíka uspokojivo vyriešené, keďže vyhľadávače už rozpoznávajú slová nielen v základných tvaroch, ale aj ich obmeny vznikajúce pri skloňovaní, časovaní a podobne. „Ak teda napíšeme slovo ´zlom´, je zrejmé, že môže ísť aj o slovo odvodené od slovesa ´zlomiť´, ale je to aj tvar podstatného mena ´zlo´ v siedmom páde, alebo môže ísť o prídavné meno ´zlý´ v šiestom páde, alebo aj podstatné meno ´zlom´ v prvom páde a vyhľadávač podľa toho nájde aj príslušné odkazy,“ uviedol Garabík.
Samozrejme, všetky tieto činnosti so slovami, ktoré vykonáva počítač, musí najprv naprogramovať človek. Na Jazykovednom ústave Ľ. Štúra pripravili tzv. morfologickú databázu, do ktorej sa ručne zadali jednotlivé slová i všetky ich tvary – vyskloňované, vystupňované a pod. Táto databáza obsahuje cca 130.000 základných tvarov slov, ktoré v rôznych tvaroch obsahujú 2,5 milióna unikátnych slov a až 5 miliónov kombinácií slova plus gramatickej kategórie. Tých 130.000 slov v základnom tvare možno považovať za základnú pasívnu slovnú zásobu slovenčiny. „I keď sa hovorí, že v bežnej reči si človek vystačí s 20.000 slovami,“ doplnil Garabík.
Česká databáza napríklad obsahuje 250.000 slov, čo však nemusí znamenať, že má čeština viac slov, ale tiež, že českí jazykovedci na tomto projekte dlhšie pracujú. Práve rozpoznanie základného tvaru slova je potom kľúčové pre ďalšie počítačové spracovanie slovenských slov – s tým súvisí aj obsah tzv. Retrográdneho slovníka súčasnej slovenčiny, na ktorom sa Garabík takisto podieľal ako hlavný autor a redaktor. Slovník obsahuje slová prehľadne roztriedené podľa koncoviek, pretože práve koncovky slov v slovenčine zodpovedajú jednotlivým gramatickým kategóriám a tvarom – kým v angličtine sa napríklad pády pri skloňovaní tvoria predložkami.
Textové korpusy jazykov sú tvorené databázou písomných textov, najlepšie aj s lingvistickými značkami a spôsobmi vyhľadávania v týchto databázach. Exituje niekoľko veľkých korpusov slovenčiny, najvýznamnejším je Slovenský národný korpus. Obsahom týchto korpusov je okrem slov samotných aj tzv. gramatické a lingvistické značkovanie, teda označenie konkrétnych gramatických tvarov a obmien týchto slov, ktoré potom umožňujú aj ich vyhľadávanie, prípadne aj ďalšie užitočné informácie. Jazykovedný ústav vydal aj príručku Slovenský národný korpus – texty, anotácie, vyhľadávania, ktorá odborníkom i pokročilejším laikom uľahčuje orientáciu v Slovenskom národnom korpuse.
Ako doplnil Radovan Garabík, korpus môže v princípe predstavovať akúkoľvek databázu textov. Existujú aj rôzne špecializované korpusy, napríklad historický korpus slovenských textov od 15. storočia, tvoria sa tiež obrovské webové korpusy. „Najznámejší korpus, ktorý celá verejnosť pozná, je google. Je to mnohojazyčný korpus a základná práca s ním je jednoduchá: napíšete slovo alebo postupnosť a on nájde odkazy. Obsahuje aj nejaké gramatické značkovanie – ale nie prístupné verejnosti –, ktoré mu umožňuje rozpoznať rôzne tvary slov. Google je teda kvalitný svojou veľkosťou. Slovenský národný korpus alebo iné korpusy však obsahujú aj dôkladne a precízne označkované slová a ich tvary,“ vysvetlil Garabík.
Oba slovníky – retrográdny aj frekvenčný – vznikli tak, aby v nich boli vyvážené štýly a žánre, ale aj časové obdobia od roku 1955 kedy sa ustálila súčasná podoba pravopisu. Ide o korpus s 250 miliónmi slov.
Radovan Garabík sa venuje aj výskytom slov v jednotlivých obdobiach. Niektoré sa zjavili vyslovene krátkodobo: napríklad „televízorová obraznica“ – termín, ktorý sa objavil v preklade románu poľského autora Stanisława Lema v čase, keď sa u nás televízia len zavádzala a termín „televízna obrazovka“ sa udomácnil až neskôr.
Postupom času klesá výskyt slov Sarajevo (ako synonymum pre atentát či tragickú udalosť), alebo termín „világoš“. Naopak sa dostávajú do slovnej zásoby slová ako „cool“, hoci vo všeobecnosti slovenčinu a jej podobu angličtina ovplyvňuje v menšej miere, ako by sa očakávalo. Medzi najčastejšie z angličtiny prevzaté slová patria „film“, „gól“, „tréner“, ale aj pozdrav „ahoj“.
Podľa Garabíka človek nové slová často vníma subjektívne a čím je starší, tým si na ne ťažšie zvyká. „V širokom ponímaní sa však slovná zásoba nemení. Niektoré slová do nej pribúdajú, niektoré ubúdajú, no základ ostáva,“ dodal počítačový lingvista Radovan Garabík v relácii Pohľad na oblohu na TABLET.TV.