Beruflich Dokumente
Kultur Dokumente
Cilj
Primarna svrha korpusne lingvistike je opisivanje sadraja i odnosa unutar autentinog jezika, i izuavanje diskursa kao medijatora znanja i drutvenih normi. Korpusni pristup posmatra zakonitosti u jeziku kao uslovljene fundamentalnom praktinom upotrebom u drutvenoj interakciji zajedno sa relevantnim kognitivnim i pragmatikim implikacijama.
Korpus
Korpus u svom osnovnom znaenju predstavlja skup teksta, bilo pisanog ili govornog jezika. Kvantitet korpusa (zbirka tekstova). Jedna knjiga nereprezentativnost Primer upotrebe linih zamenica mukog i enskog roda (indirektna diskriminacija u jeziku). Raunarski korpus - kodirani i standardizovan, optimizovani za pretragu i analizu i nalaze se pothranjeni u raunarskim bazama. Obino se sastoje od vie miliona rei iz razliitih jezikih i drutvenih izvora i idealno obuhvataju sve mogue pojave jednog jezika ,,uhvaene u vremenu i pretoene u elektronski tekstualni oblik.
Korpus
Opti i specijalni korpusi namenjeni razliitim vrstama lingv. analize. Odreeni varijetet jezika Monitoring korpusi - korpusi koji odravaju svoju reprezentativnost stalnim dodavanjem novih delova jezika i stalnim proirivanjem varijeteta u njima. bitno ispravno odabrati i definisati korpus za analizu da bi se osigurala relevantnost povratnih informacija
Korpus
Prema delu prirodnog jezika koji predstavlja dati korpus postavlja se i opseg i cilj jezikog istraivanja. Na primer, ako je korpus sastavljen od akademskih tekstova teko se moe oekivati da prui podlogu za analizu varijeteta jezika.
Reprezentativnost
Reprezentativnost jednog korpusa, a posledino i rezultata koje taj korpus prua prilikom neke analize, postie se ne veliinom nego prvenstveno raznolikou, odnosno pravilnim i planiranim odabirom izvora pri konstrukciji. Sinhronijska i dijahronijska dimenzija (istorijski razvoj teksta).
Korpusi
Britanski nacionalni korpus
To je veliki raunarski korpus koji se sastoji od preko 100 miliona rei iz pisanih i govornih izvora. Izvori 75% pisanog jezika su uglavnom informativni tekstovi iz oblasti nauke, religije, ekonomije, filozofije, umetnosti i medija, dok je 25% odvojeno za knjievna dela. Usmeni jezik je zastupljen u oko 10 miliona rei i sastavljen je od transkripta spontanih razgovora, skriptovanih razgovora, javnih govora i usmenog jezika u medijima.
Korpusi
Korpus savremenog amerikog engleskog jezika (Corpus of Contemporary American English): monitoring korpus opteg tipa sa 360 miliona rei na adresi http:// www.americancorpus.org/; Korpus australijskog engleskog jezika (Australian Corpus of English): monitoring korpus opteg tipa sa 1 milionom rei na adresi http://khnt.hit.uib.no/icame; Kembridov meunarodni korpus (Cambridge International Corpus): viejezini korpus specijalnog tipa sa 275 miliona rei na adrehttp://www.cambridge.org/elt/corpus;
Korpusi
Ruski nacionalni korpus (Russian National Corpus): monitoring korpus opteg tipa sa 150 miliona rei na adresi http://www.ruscorpora.ru/en/index.html; Nacionalni korpus hrvatskog jezika: monitoring korpus opteg tipa sa 30 miliona rei na adresi http://www.hnk.ffzg.hr/; Korpus savremenog srpskog jezika: korpus opteg tipa sa 24 miliona rei na adresi http://korpus.matf.bg.ac.yu/prezentacija/korpus.html; Korpus srpskog jezika: korpus opteg tipa sa 12 miliona rei na adresi http://www.serbiancorpus. edu.rs/indexns.htm.
Terminologija
Kodiranje - Postupak dodavanja dodatnih lingvistikih informacija u tekstove unutar korpusa; etiketirani/neetiketirani korpusi - Etiketiranje je komplikovani proces dodavanja dodatnih informacija u korpus. Informacije se mogu ticati obeleavanja rei po gramatikoj kategoriji, rodu, broju, morfolokim i fonolokim karakteristikama, itd. Parsiranje je postupak odvajanja reeninih delova i opisivanje odnosa izmeu njih. Parsiranjem se odreuje sintaksika struktura reenice i retki su korpusi koji poseduju ovakav napredni nivo kodiranja;
Terminologija
Tip i token kvalitativna i kvantitativna analiza. Konkordanser programi za pretragu korpusa.
Jedinice analize
Zavisi od lingvistikog nivoa koji nas zanima (fonologija, morfologija, sintaksta, leksikologija, diskurs)
Frekventnost
Razne vrste statistike obrade podataka su zapravo materija koja daje vrstu empirijsku bazu i slui kao izvor svakoj posledinoj teoriji o nekoj jezikoj pojavi. Statistiki prorauni se koriste i kod izraunavanja verovatnoe pojave jezike jedinice u pretpostavljenom diskursu teorijski neograniene veliine. Statistika analiza je obavezan deo svakog korpusnog istraivanja jer ona ne samo da daje temelj teoretisanju o odreenim jezikim zakonitostima i izraunavanju verovatnoe, nego i potvruje naunu vrednost podataka verifikujui ih ili kao nasumine ili kao lingvistiki relevantne
Kontekstualizacija
Svaki korpus prua precizno definisani uvid u kontekstualnu situaciju u kojoj je dati tekst proizveden, to nam daje kontrolu nad jo jednom varijablom u istraivanju dajui nam na taj nain vie kontrole nad istraivanjem.
Ogranienja
Filmor: Mislim da ne postoji takav korpus, ma koliko bio veliki, koji bi posedovao dovoljno podataka o svimoblastima leksikona i gramatike [engleskog] jezika koje bih ja eleo da analiziram. Meutm, svaki korpus koji sam imao prilika da analiziram, bez obzira na to koliko je mali bio, prikazao mi je injenice koje ne bih ni na kakav drugi zamisliv nain mogao pronai.