Sie sind auf Seite 1von 21

Uvod u optu lingvistiku 2

Nastanak korpusne lingvistike


Korpusna lingvistika - devedesetih godina dvadesetog veka Generativisti pedesete godine XX veka (fokus lingvistike od empirizma ka racionalizmu) Kritika korpusnog pristupa Osamdesetih interesovanje za korpsunu lingvistiku

Cilj
Primarna svrha korpusne lingvistike je opisivanje sadraja i odnosa unutar autentinog jezika, i izuavanje diskursa kao medijatora znanja i drutvenih normi. Korpusni pristup posmatra zakonitosti u jeziku kao uslovljene fundamentalnom praktinom upotrebom u drutvenoj interakciji zajedno sa relevantnim kognitivnim i pragmatikim implikacijama.

Korpus
Korpus u svom osnovnom znaenju predstavlja skup teksta, bilo pisanog ili govornog jezika. Kvantitet korpusa (zbirka tekstova). Jedna knjiga nereprezentativnost Primer upotrebe linih zamenica mukog i enskog roda (indirektna diskriminacija u jeziku). Raunarski korpus - kodirani i standardizovan, optimizovani za pretragu i analizu i nalaze se pothranjeni u raunarskim bazama. Obino se sastoje od vie miliona rei iz razliitih jezikih i drutvenih izvora i idealno obuhvataju sve mogue pojave jednog jezika ,,uhvaene u vremenu i pretoene u elektronski tekstualni oblik.

Korpus
Opti i specijalni korpusi namenjeni razliitim vrstama lingv. analize. Odreeni varijetet jezika Monitoring korpusi - korpusi koji odravaju svoju reprezentativnost stalnim dodavanjem novih delova jezika i stalnim proirivanjem varijeteta u njima. bitno ispravno odabrati i definisati korpus za analizu da bi se osigurala relevantnost povratnih informacija

Korpus
Prema delu prirodnog jezika koji predstavlja dati korpus postavlja se i opseg i cilj jezikog istraivanja. Na primer, ako je korpus sastavljen od akademskih tekstova teko se moe oekivati da prui podlogu za analizu varijeteta jezika.

Reprezentativnost
Reprezentativnost jednog korpusa, a posledino i rezultata koje taj korpus prua prilikom neke analize, postie se ne veliinom nego prvenstveno raznolikou, odnosno pravilnim i planiranim odabirom izvora pri konstrukciji. Sinhronijska i dijahronijska dimenzija (istorijski razvoj teksta).

Korpusi
Britanski nacionalni korpus
To je veliki raunarski korpus koji se sastoji od preko 100 miliona rei iz pisanih i govornih izvora. Izvori 75% pisanog jezika su uglavnom informativni tekstovi iz oblasti nauke, religije, ekonomije, filozofije, umetnosti i medija, dok je 25% odvojeno za knjievna dela. Usmeni jezik je zastupljen u oko 10 miliona rei i sastavljen je od transkripta spontanih razgovora, skriptovanih razgovora, javnih govora i usmenog jezika u medijima.

Korpusi
Korpus savremenog amerikog engleskog jezika (Corpus of Contemporary American English): monitoring korpus opteg tipa sa 360 miliona rei na adresi http:// www.americancorpus.org/; Korpus australijskog engleskog jezika (Australian Corpus of English): monitoring korpus opteg tipa sa 1 milionom rei na adresi http://khnt.hit.uib.no/icame; Kembridov meunarodni korpus (Cambridge International Corpus): viejezini korpus specijalnog tipa sa 275 miliona rei na adrehttp://www.cambridge.org/elt/corpus;

Korpusi
Ruski nacionalni korpus (Russian National Corpus): monitoring korpus opteg tipa sa 150 miliona rei na adresi http://www.ruscorpora.ru/en/index.html; Nacionalni korpus hrvatskog jezika: monitoring korpus opteg tipa sa 30 miliona rei na adresi http://www.hnk.ffzg.hr/; Korpus savremenog srpskog jezika: korpus opteg tipa sa 24 miliona rei na adresi http://korpus.matf.bg.ac.yu/prezentacija/korpus.html; Korpus srpskog jezika: korpus opteg tipa sa 12 miliona rei na adresi http://www.serbiancorpus. edu.rs/indexns.htm.

Terminologija
Kodiranje - Postupak dodavanja dodatnih lingvistikih informacija u tekstove unutar korpusa; etiketirani/neetiketirani korpusi - Etiketiranje je komplikovani proces dodavanja dodatnih informacija u korpus. Informacije se mogu ticati obeleavanja rei po gramatikoj kategoriji, rodu, broju, morfolokim i fonolokim karakteristikama, itd. Parsiranje je postupak odvajanja reeninih delova i opisivanje odnosa izmeu njih. Parsiranjem se odreuje sintaksika struktura reenice i retki su korpusi koji poseduju ovakav napredni nivo kodiranja;

Terminologija
Tip i token kvalitativna i kvantitativna analiza. Konkordanser programi za pretragu korpusa.

Karakteristike korpusnog pristupa


Primenljivost na vie razliitih polja:
leksikografija (upotreba korpusa je veoma rasprostranjena pri pravljenju renika); sociolingvistika (korpusni pristup omoguuje istraivanje dijalekata, registara i samog drutva); analiza diskursa (ovakav pristup obezbeuje dovoljno velike uzorke diskursa omoguujui time pronalaenje karakteristika jezika bez strukturalnih ogranienja); morfologija (rezultati dobijeni pri analizi korpusa mogu otkriti mnogo o frekventnosti, distribuciji i ulozi raznih oblika leksema); fonologija (raunarski korpusi mogu pruiti uvid u razliite pojave fonetske distribucije i pomoi u pronalaenju zakonitosti);

Karakteristike korpusnog pristupa


semantika (teko je pronai pristup koji moe pruiti toliko podataka o znaenju rei kao korpusni pristup); sintaksa (istraivanje jezikih struktura na ovakav nain moe pruiti empirijske dokaze o tome kako pristupamo konstruisanju reenica i kako se izraavamo kroz jezik); komparativna i kontrastivna lingvistika (postojanje paralelnih korpusa moe otkriti slinosti i razlike meu jezicima); metodika nastave (korpusi mogu pomoi pri dizajniranju materijala i aktivnosti za uenje jezika); kognitivna lingvistika (autentina prirodna upotreba jezika smetena u korpuse daje uvid u nain na koji mentalni procesi utiu na komunikaciju i na jezik u celini).

Odlike korpusnog pristupa


Induktivni tip. empirijskog je karaktera budui da se bavi analizom komunikacije u njenom prirodnom obliku; analiza se zasniva na velikim skupovima teksta koji predstavlja jezik, a koji se nazivaju korpusi; koriste se raunari u istraivanju; fokus je na jezikoj performansi umesto na jezikoj kompetenciji; radi se o kvantitativnom i kvalitativnom modelu prouavanja jezika

Jedinice analize
Zavisi od lingvistikog nivoa koji nas zanima (fonologija, morfologija, sintaksta, leksikologija, diskurs)

Kvantitativna i kvalitativna analiza


Kvalitativna dimenzija istraivanja odnosi se na istraivanje jezikih pojava kao odreenih tipova, predstavnika svoje jezike grupe (npr. istraivanje imenica, ili odreenih morfolokih nastavaka, kao predstavnika jedne klase) dok se kvantitativna analiza odnosi na frekventnost pojedinanih jezikih jedinica, odnosno tokena. Kod kvalitativne analize vaan je nivo etiketiranosti korpusa.

Frekventnost
Razne vrste statistike obrade podataka su zapravo materija koja daje vrstu empirijsku bazu i slui kao izvor svakoj posledinoj teoriji o nekoj jezikoj pojavi. Statistiki prorauni se koriste i kod izraunavanja verovatnoe pojave jezike jedinice u pretpostavljenom diskursu teorijski neograniene veliine. Statistika analiza je obavezan deo svakog korpusnog istraivanja jer ona ne samo da daje temelj teoretisanju o odreenim jezikim zakonitostima i izraunavanju verovatnoe, nego i potvruje naunu vrednost podataka verifikujui ih ili kao nasumine ili kao lingvistiki relevantne

Kontekstualizacija
Svaki korpus prua precizno definisani uvid u kontekstualnu situaciju u kojoj je dati tekst proizveden, to nam daje kontrolu nad jo jednom varijablom u istraivanju dajui nam na taj nain vie kontrole nad istraivanjem.

Ogranienja
Filmor: Mislim da ne postoji takav korpus, ma koliko bio veliki, koji bi posedovao dovoljno podataka o svimoblastima leksikona i gramatike [engleskog] jezika koje bih ja eleo da analiziram. Meutm, svaki korpus koji sam imao prilika da analiziram, bez obzira na to koliko je mali bio, prikazao mi je injenice koje ne bih ni na kakav drugi zamisliv nain mogao pronai.

Korpusna lingvistika u Srbiji


Ne postoji opti nacionalni korpus srpskog jezika. Korpus savremenog srpskog jezika (Matematika i raunarska lingvistika 1981. godine pod vostvom Duka Vitasa, i posle postavljanja na internet veim delom ostaje neetiketiran. Izvori za 24 miliona rei, od kojih dve treine ine tekstovi iz Politike, nisu ni priblino dovoljno raznovrsni.) Korpus srpskog jezika (vizionarski zapoet jo 1957. od strane ora Kostia, kao deo velikog jezikog projekta socijalistike Jugoslavije na kome su uestvovali i Rudolf Filipovi i eljko Bujas. Korpus je pretvoren u elektronski tekst 1996. od strane Aleksandra Kostia i sadri 11 miliona rei. Korpus poseduje odlinu dijahronu dimenziju sa izvorima poevi od 12. veka. Nedostaci se tiu sinhrone dimenzije jezika koja praktino ne postoji, jer nedostaju uzorci savremenog srpskog jezika.

Das könnte Ihnen auch gefallen