Prije nekoliko desetljeća znanstvenici su mogli samo sanjati o automatizaciji lingvističkih istraživanja. Rad je rađen ručno, u njega je bio uključen veliki broj učenika, postojala je značajna vjerojatnost greške "nepažnje", a što je najvažnije, sve je to oduzelo puno, puno vremena.
Razvojom računalne tehnologije postalo je moguće mnogo brže provoditi istraživanja, a danas je jedno od perspektivnih područja u proučavanju jezika korpusna lingvistika. Njegova glavna značajka je korištenje velikih količina tekstualnih informacija, konsolidiranih u jedinstvenu bazu podataka, označenih na poseban način i nazvanih korpusom.
Danas postoje mnogi korpusi stvoreni za različite svrhe, temeljeni na različitom jezičnom materijalu, koji pokrivaju od milijuna do desetaka milijardi leksičkih jedinica. Ovaj smjer prepoznat je kao obećavajući i pokazuje značajan napredak u postizanju primijenjenih i istraživačkih ciljeva. Profesionalci, na ovaj ili onaj način koji se baveprirodni jezik, preporučuje se da se upoznate s korpusima teksta barem na osnovnoj razini.
Povijest korpusne lingvistike
Formiranje ovog smjera povezano je sa stvaranjem Brown Corpsa u SAD-u početkom 60-ih godina prošlog stoljeća. Zbirka tekstova sastojala se od samo milijun oblika riječi, a danas bi korpus takvog volumena bio potpuno nekonkurentan. To je uglavnom zbog brzine razvoja računalne tehnologije, kao i sve veće potražnje za novim istraživačkim resursima.
U 90-ima se korpusna lingvistika formirala u punopravnu i samostalnu disciplinu, prikupljale su se i označavale zbirke tekstova za nekoliko desetaka jezika. Tijekom tog razdoblja, na primjer, stvoren je Britanski nacionalni korpus za 100 milijuna korištenja riječi.
Kako se ovaj smjer lingvistike razvija, volumen tekstova postaje sve veći (i doseže milijarde jedinica vokabulara), a oznaka postaje sve raznolikija. Danas u internetskom prostoru možete pronaći korpuse pisanog i usmenog govora, višejezičnog i edukativnog, usmjerenog na beletrističku ili akademsku literaturu, kao i mnoge druge varijante.
Koji slučajevi postoje
Tipovi korpusa u korpusnoj lingvistici mogu se predstaviti na nekoliko načina. Intuitivno je jasno da osnova za klasifikaciju može biti jezik tekstova (ruski, njemački), način pristupa (otvoreni, zatvoreni, komercijalni), žanr izvornog materijala (fikcija).književnost, dokumentarni, akademski, novinarski).
Na zanimljiv način se provodi generiranje materijala koji predstavljaju usmeni govor. Budući da bi namjerno snimanje takvog govora stvaralo umjetne uvjete za ispitanike, a dobiveni materijal se ne bi mogao nazvati "spontanim", moderna korpusna lingvistika otišla je drugim putem. Volonter je opremljen mikrofonom, a tijekom dana se snimaju svi razgovori u kojima sudjeluje. Okruženi ljudi, naravno, ne mogu znati da u svakodnevnom razgovoru doprinose razvoju znanosti.
Kasnije se primljeni audio zapisi pohranjuju u banku podataka i popraćeni su ispisanim tekstom poput transkripta. Na taj način postaje moguće označavanje potrebno za stvaranje korpusa govornog svakodnevnog govora.
Prijava
Tamo gdje je moguće koristiti jezik, moguće je koristiti i korpuse teksta. Svrha korištenja korpusnih metoda u lingvistici može biti:
- Izrada programa za raspoloženje koji se naširoko koriste u politici i poslovanju za praćenje pozitivnih i negativnih povratnih informacija od birača i kupaca.
- Povezivanje informacijskog sustava s rječnicima i prevoditeljima radi poboljšanja njihove izvedbe.
- Različiti istraživački zadaci koji pridonose razumijevanju strukture jezika, povijesti njegovog razvoja i predviđanjima njegove promjene u bliskoj budućnosti.
- Razvoj sustava za ekstrakciju informacija na temelju morfoloških,sintaktičke, semantičke i druge značajke.
- Optimizacija rada raznih jezičnih sustava, itd.
Upotreba školjki
Sučelje resursa slično je tipičnoj tražilici i traži od korisnika da unese neku riječ ili kombinaciju riječi za pretraživanje baze podataka. Uz točan obrazac zahtjeva, možete koristiti proširenu verziju koja vam omogućuje da pronađete tekstualne informacije po gotovo svim jezičnim kriterijima.
Osnova za pretragu može biti:
- pripadati određenoj skupini dijelova govora;
- gramatičke značajke;
- semantika;
- stilsko i emocionalno obojenje.
Također, možete kombinirati kriterije pretraživanja za niz riječi: na primjer, pronaći sve pojave glagola u sadašnjem vremenu, prvom licu, jednini nakon čega slijedi prijedlog "in" i imenica u akuzativu. Rješavanje tako jednostavnog zadatka oduzima korisniku nekoliko sekundi i zahtijeva samo nekoliko klikova mišem u zadanim poljima.
Proces stvaranja
Samo pretraživanje može se provesti kako u svim potkorpusima, tako iu jednom, posebno odabranom, ovisno o potrebama pri postizanju određenog cilja:
- Prije svega, određuje se koji će tekstovi činiti osnovu korpusa. U praktične svrhe često se koriste novinarski, novinski materijali, internetski komentari. U istraživačkim projektima najvišerazne vrste korpusa, ali tekstovi moraju biti odabrani na nekoj zajedničkoj osnovi.
- Rezultirajući skup tekstova je prethodno obrađen, greške se ispravljaju, ako ih ima, priprema se bibliografski i ekstralingvistički opis teksta.
- Sve netekstualne informacije se filtriraju: slike, slike, tablice se brišu.
- Tokeni, obično riječi, dodjeljuju se za daljnju obradu.
- Na kraju se provodi morfološko, sintaktičko i drugo označavanje rezultirajućeg skupa elemenata.
Rezultat svih izvedenih operacija je sintaktička struktura sa skupom elemenata raspoređenih po njoj, za svaki od kojih je definiran dio govora, gramatička i, u nekim slučajevima, semantička obilježja.
Poteškoće u stvaranju slučajeva
Važno je razumjeti da za dobivanje korpusa nije dovoljno sastaviti puno riječi ili rečenica. S jedne strane, zbirka tekstova mora biti uravnotežena, odnosno u određenim omjerima prezentirati različite vrste tekstova. S druge strane, sadržaj kutije mora biti označen na poseban način.
Prvo pitanje rješava se dogovorom: npr. zbirka obuhvaća 60% igranih tekstova, 20% dokumentarnih filmova, određeni udio daje se pisanom izlaganju usmenog govora, zakonskih akata, znanstvenih radova itd. Idealan recept za uravnotežen korpus danas ne postoji.
Drugo pitanje u vezi označavanja sadržaja teže je riješiti. Postoje posebni programi i algoritmi koji se koriste za automatsko označavanje tekstova, ali oni ne daju 100% rezultat, mogu uzrokovati kvarove i zahtijevaju ručno usavršavanje. Mogućnosti i problemi u rješavanju ovog problema detaljno su opisani u radu V. P. Zakharova o korpusnoj lingvistici.
Označavanje teksta se provodi na nekoliko razina, koje ćemo navesti u nastavku.
Morfološka oznaka
Iz školske klupe sjećamo se da u ruskom jeziku postoje različiti dijelovi govora, a svaki od njih ima svoje karakteristike. Na primjer, glagol ima kategorije raspoloženja i vremena koje imenica nema. Izvorni govornik bez oklijevanja odbija imenice i konjugira glagole, ali ručni rad nije prikladan za označavanje korpusa od 100 milijuna riječi. Sve potrebne operacije može izvesti računalo, ali za to ga treba naučiti.
Morfološka oznaka je neophodna da bi računalo "shvatilo" svaku riječ kao neki dio govora koji ima određene gramatičke značajke. Budući da u ruskom (kao iu svakom drugom) jeziku funkcionira niz redovitih pravila, moguće je izgraditi automatsku proceduru morfološke analize stavljanjem niza algoritama u stroj. Međutim, postoje iznimke od pravila, kao i razni komplicirani čimbenici. Kao rezultat toga, čista računalna analiza danas je daleko od idealne, a čak 4% pogrešaka daje vrijednost od 4 milijuna riječi u korpusu od 100 milijuna jedinica, što zahtijeva ručno usavršavanje.
Ovaj problem je detaljno opisan u knjizi V. P. Zakharova "Corpusna lingvistika".
Sintaktička oznaka
Sintaktička analiza ili raščlanjivanje je postupak koji određuje odnos riječi u rečenici. Uz pomoć skupa algoritama postaje moguće odrediti subjekat, predikat, dodatke i razne okrete govora u tekstu. Određivanjem koje su riječi u nizu glavne, a koje zavisne, možemo učinkovito izdvojiti informacije iz teksta i osposobiti stroj da vraća samo informacije koje nas zanimaju kao odgovor na zahtjev za pretraživanje.
Usput, moderne tražilice to koriste za davanje određenih brojeva umjesto dugačkih tekstova kao odgovor na relevantne upite poput: "koliko kalorija ima jabuka" ili "udaljenost od Moskve do Sankt Peterburga". Međutim, da biste razumjeli čak i same osnove opisanog procesa, morat ćete se upoznati s "Uvodom u korpusnu lingvistiku" ili nekim drugim osnovnim udžbenikom.
Semantička oznaka
Semantika riječi je, jednostavno rečeno, njeno značenje. Široko primjenjiv pristup u semantičkoj analizi je pripisivanje oznaka riječi, što odražava njezinu pripadnost skupu semantičkih kategorija i potkategorija. Takve su informacije dragocjene za optimizaciju algoritama analize sentimenta teksta, automatsko referenciranje i izvođenje drugih zadataka korištenjem metoda korpusne lingvistike.
Postoji niz "korijena" stabla, koji su apstraktne riječi koje imajuvrlo široka semantika. Kako se ovo stablo grana, formiraju se čvorovi koji sadrže sve više specifičnih leksičkih elemenata. Na primjer, riječ "stvorenje" može se povezati s konceptima kao što su "ljud" i "životinja". Prva riječ nastavit će se granati na razne profesije, pojmove srodstva, nacionalnosti, a druga - na klase i vrste životinja.
Upotreba sustava za pronalaženje informacija
Sfere uporabe korpusne lingvistike pokrivaju širok raspon područja djelovanja. Korpusi se koriste za sastavljanje i ispravljanje rječnika, stvaranje sustava za automatsko prevođenje, sažimanje, izdvajanje činjenica, određivanje osjećaja i druge obrade teksta.
Osim toga, takvi se resursi aktivno koriste u proučavanju svjetskih jezika i mehanizama funkcioniranja jezika u cjelini. Pristup velikim količinama unaprijed pripremljenih informacija pridonosi brzom i sveobuhvatnom proučavanju trendova u razvoju jezika, formiranju neologizama i stabilnih govornih obrata, promjenama u značenjima leksičkih jedinica, itd.
Budući da rad s tako velikim količinama podataka zahtijeva automatizaciju, danas postoji bliska interakcija između računalne i korpusne lingvistike.
Nacionalni korpus ruskog jezika
Ovaj korpus (skraćeno NKRC) uključuje niz podkorpusa koji omogućuju korištenje resursa za rješavanje širokog spektra zadataka.
Materijal u bazi podataka NCRA podijeljen je na:
- o publikacijama u medijima 90-ih i 2000-ihgodine, domaći i strani;
- snimke usmenog govora;
- akcentološki označeni tekstovi (tj. s naglaskom);
- dijalektni govor;
- poetska djela;
- materijali sa sintaktičkim oznakama, itd.
Informacijski sustav također uključuje podkorpus s paralelnim prijevodima djela s ruskog na engleski, njemački, francuski i mnoge druge jezike (i obrnuto).
Također, baza podataka ima dio povijesnih tekstova koji predstavljaju pisani govor na ruskom jeziku u različitim razdobljima njegova razvoja. Tu je i korpus obuke koji stranim državljanima može biti od koristi u savladavanju ruskog jezika.
Nacionalni korpus ruskog jezika uključuje 400 milijuna leksičkih jedinica i po mnogo čemu je ispred značajnog dijela korpusa europskih jezika.
Prospekti
Činjenica u prilog prepoznavanju ovog područja kao perspektivnog je prisutnost korpusnih lingvističkih laboratorija na ruskim sveučilištima, ali i na stranim sveučilištima. Uz korištenje i istraživanje u okviru razmatranih resursa za pronalaženje informacija, povezan je razvoj nekih područja u području visokih tehnologija, sustava pitanja-odgovora, ali o tome je bilo riječi gore.
Predviđa se daljnji razvoj korpusne lingvistike na svim razinama, od tehničke, u smislu uvođenja novih algoritama koji optimiziraju procese pretraživanja i obrade informacija, širenja mogućnosti računala, povećanja operativnostimemorije, a završava s onima za kućanstvo, jer korisnici pronalaze sve više načina za korištenje ove vrste resursa u svakodnevnom životu i na poslu.
Zaključak
Sredinom prošlog stoljeća, 2017. izgledala je kao daleka budućnost, u kojoj svemirske letjelice surfaju prostranstvima Svemira, a roboti rade sav posao za ljude. U stvarnosti, međutim, znanost je prepuna "praznih točaka" i očajnički pokušava odgovoriti na pitanja koja muče čovječanstvo stoljećima. Pitanja funkcioniranja jezika ovdje zauzimaju ponosno mjesto, a korpusna i računalna lingvistika može nam pomoći da odgovorimo na njih.
Obrada velikih količina podataka omogućuje vam otkrivanje obrazaca koji su prethodno bili nedostupni, predviđanje razvoja određenih jezičnih značajki, praćenje stvaranja riječi gotovo u stvarnom vremenu.
Na praktičnoj globalnoj razini, korpusi se mogu smatrati, na primjer, potencijalnim alatom za procjenu javnog raspoloženja - Internet je kontinuirano ažurirana baza podataka raznih tekstova koje stvaraju stvarni korisnici: to su komentari, recenzije, članci, i mnogi drugi oblici govora.
Osim toga, rad s korpusima doprinosi razvoju istih tehničkih sredstava koja su uključena u pronalaženje informacija, poznatih iz Google ili Yandex servisa, strojnog prijevoda, elektroničkih rječnika.
Može se reći da korpusna lingvistika tek čini prve korake i da će se brzo razvijati u bliskoj budućnosti.