Sie sind auf Seite 1von 3

Das Zipfsche Gesetz dient dabei als Berechnungsgrundlage.

Der Wert der Hufigkeitsklasse N berechnet sich dabei mit dem Logarithmus zur Basis 2 des Quotienten aus dem zu untersuchenden Wort und dem am hufigsten auftretenden Wort. N=\left\lfloor0{,}5-\log_2\left(\frac{\mathrm{H \ddot{a} ufigkeit\, des\, untersuchten\, Wortes}}{\mathrm{H \ddot{a} ufigkeit\, des\, h \ddot{a} ufigsten\, Wortes}}\right)\right\rfloor Die Gauklammer \lfloor\dotso\rfloor rundet das Zwischenergebnis auf eine ganze Zahl ab. Die so berechnete Hufigkeitsklasse N ist eine ganze Zahl, die ausdrckt, um wie viel mal hufiger das hufigste Wort als das untersuchte Wort im ausgewerteten Datenbestand auftritt. Das am hufigsten vorkommende Wort selbst gehrt der Hufigkeitsklasse 0 an, und i.A. ist es der einzige Vertreter dieser Klasse. Wrter, die etwa \tfrac{1}{2^N} mal so hufig wie dieses auftreten, werden in die Hufigkeitsklasse N eingeordnet. Daraus ergibt sich, dass ein Wort umso hufiger vorkommt, je kleiner seine Hufigkeitsklasse ist. Nach dem Zipfschen Gesetz erwartet man, dass die Klasse N etwa 2^N Wrter (Types) enthlt und dass die Summe ihrer Vorkommen (Tokens) in jeder Klasse ungefhr gleich ist, wobei diese Nherung fr die obersten und untersten Klassen am wenigsten genau ist. Insbesondere erwartet man nach dem Zipfschen Gesetz fr jedes Korpus, dass ungefhr die Hlfte aller auftretenden Wrter (Types) jeweils nur einmal vorkommt. Hufigkeitsklassen knnen auf zwei linguistischen Ebenen betrachtet werden: Fr eine einzelne Wortform (wie oben dargestellt) oder fr ein gesamtes Lexem mit seinen verschiedenen Wortformen. Das am hufigsten vorkommende Wort, dessen Hufigkeit bei der Berechnung der Hufigkeitsklasse als Vergleichsgre verwendet wird, sollte auf derselben linguistischen Ebene bestimmt sein: In der deutschen Schriftsprache ist die hufigste Wortform das Wort der und das hufigste Lexem der bestimmte Artikel (mit den flektierten Formen der, die, das, des, dem, den). Siehe auch Frequenzwrterbuch Liste der hufigsten Wrter der deutschen Sprache Literatur Helmut Meier: Deutsche Sprachstatistik, 2, Olms, Hildesheim 1978, ISBN 9783487007359. Weblinks wortschatz.informatik.uni-leipzig.de Wortschatzlexikon der Universitt Leipzig auf Basis deutscher Quellen mit Angabe der Hufigkeitsklasse DeReWo Korpusbasierte Grund-/Wortformenlisten des Instituts fr Deutsche Sprache mit Angabe der Hufigkeitsklasse Online-Rechner fr Hufigkeitsklassen Kategorien:

Quantitative Linguistik Korpuslinguistik Lexikologie Pn-lut-pi Thiu kh: Seh chm, chhiau-chho K-sg g-gin-hak kng pn-lut-pi (frequency list) t s k j (word, word type) chiu pnlut (frequency) kon-k li pi, ah pn-lut t kho hit j t g-liu-kh (corpus) chhut-hin ki pi li sg. Bok-lok 1 Eng-g l 2 Peh-o-j l 3 L-ng 4 L-ln 5 Go-p lin-kiat Eng-g l the 3789654 he 2098762 ... king 57897 boy 56975 ... outragious 76 ... stringyfy 5 ... transducionalify Peh-o-j l

-kha s 2005 n 7 goeh POJ g-liu-kh thng-k--chhut-li pn-lut. Pn-lut sing kon 31 j lng s toa-im-chat. sn-s POJ pn-lut p-l hap-chng 1 198203 8.13% 8.13% 2 i 59922 2.46% 10.59% ... 9 b 28770 1.18% 20.96% ... 20 ka 13968 0.57% 30.26% ... 32 in-i 10634 0.44% 36.36% ... 42 ng 8010 0.33% 40.17% ... 94 to 2934 0.12% 50.03% ... 228 sng 1219 0.05% 60.03%

... 559 kan-ta ... 1000 tn 255 ... 1463 piu-bng ... 4864 lat-b-ah ... 10000 sa-chiap ... 20000 ha-i-ho ... L-ng

466

0.019%

70.01%

0.0105% 162 35 11 4

76.18% 80.00% 90.00% 94.15% 96.83%

0.0066% 0.0014% 0.0005% 0.0002%

K-sg g-gin-hak chha-put-to tak hong-bn gin-ki lng tioh-i tin-ch j-tin