Sie sind auf Seite 1von 2

Trkische Studenten Hausaufgaben Korpus (TSHKo)

Allgemeine Daten:
Texten 48
Tokens 10,38
Types 1,!"
Type/Token Ratio (TTR) average !"
TTR average Standard Deviation #1
Token/Type Ratio #$
Average tokens per document $1
Hapax Legomena %4! (57 o! a"" types)
Daten fr TT
Texten 33
Tokens ,84
Types 1,188
Standard Deviation Types $%
Type/Token Ratio (TTR) average !
TTR average Standard Deviation !#8
Token/Type Ratio !#8
Average tokens per document $0"
Hapax Legomena " (5# o! a"" types)
Daten fr TD
Texten 1!
Tokens 3,!40
Types %14
Standard Deviation Types !0#4!
Type/Token Ratio (TTR) average !%#!
TTR average Standard Deviation #3
Token/Type Ratio 3#%
Average tokens per document $3
Hapax Legomena !3! (5$%5 o! a"" types)
Vergleichung und Kommentare:
Die TT Texten sind, von Wortschatz Ansichtspunkt, mehr homogen. TD Texten sind
fast doppel so heterogen wie TT Texten, obwohl sie weniger Wrter haben TD
!orpus ist kleiner und trotzdem hat im "ergleich mehr T#pes$.
%ch vermute, dass die &nterschiede zwischen die zwei !orpora grammatikalische,
lexicalische und pragmatische sind. 'an kann darein kucken oder (unkte ) und *
unten$ versuchen.
+apax ,egomena sind normalerweise h-ufiger in ,ernerkorpora, weil
.echtschreibungsfehler und "arianten auch h-ufiger sind /0ukunfspl-ne,
0ukunftsplane, /1niversitaet, /1niversit-t, usw.$. 2tudenten sollten einen
.echtschreibungpr3fer regelm-ssig verwenden.
& Su'korpus ()eine *ukun!tsp"+ne, (-$ Dataien)
Tokens: 10.386; Types: 1.659; Durchschnitt Type-Token Ratio: 57;
Stanara!"eichun#: 6; Durchsnitt $%rter pro Te&t: '16;
Stanara!"eichun#: 78 $%rter
& Su'.su'korpus Studenten mit deutsc/en ku"ture""en 0r!a/rung (15 Dataien)
Tokens: 3.5(0; Types: 21-3 Durc/sc/nitt Type-Token Ratio: 60;
Stanara!"eichun#: 6; Durchsnitt $%rter pro Te&t: '36;
Stanara!"eichun#: 119 $%rter
& Su'.su'korpus Studenten o/ne deutsc/e ku"ture""e 0r!a/rung (44 Dataien)
Tokens: 6.8(6; Types: 1%1$$3 Type-Token Ratio: 56; Stanara!"eichun#:
6; Durschnitt $%rter pro Te&t: '07; Stanara!"eichun#: 5' $%rter
Normalisierung der Texten:
1% 5unkte und 6ommas (Rec/tsc/rei'ungpro'"eme !7r Type.8 Token.
9ummer und 6orpussuc/en)% (:c/ /a'e das norma"isiert)%
;% (+, und (<, =erden manc/ma" nic/t anerkannt (k>nnte sein =egen der
t7rkisc/en Tastatur)% (:c/ /a'e das norma"isiert)%
4% (:, can Anerkennungspro'"eme 'ringen =egen der t7rkisc/en Tastatur%
-% 0inige Studentent ver=enden statt (+,8 (>,8 (7, und (<, die ?arianten
(ae,8 (oe,8 (ue, und (ss, (:c/ /a'e das nic/t norma"isiert)%
Abkurzungen in Excell Tabelle:
5% STD . Standarda'=eic/ung
#% TD.TT . 6ey=ords TD 6orpus im ?erg"eic/ @u TT 6orpus
7% TT.TD . 6ey=ords TT 6orpus im ?erg"eic/ @u TD 6orpus
$% TTR . Type/Token Ratio
Wortlisten:
2% :n Antconcs (A"o'a" Settings, )en78 =+/"en (B/aracter 0ncoding,8 dann
(0dit, und =+/"en ( (iso.$$52.4),%
1C% :n Antconcs (A"o'a" Settings, )en78 =+/"en (Token De!inition, und !e/"ende
deutsc/e Duc/sta'en einge'en%
11% :n der 0xce"" Ta'e""e kann man 7 Listen !inden% 1) 5C E>rter FreGuen@"iste
vo"" 6orpus3 ;) 5C E>rter FreGuen@"iste TD Su'korpus3 4) 5C E>rter
FreGuen@"iste TT Su'korpus3 -) 5C E>rter TD.TT 6ey=ords3 5) 5C E>rter
TT.TD 6ey=ords3 #) 5C negative TD.TT 6ey=ords3 und 7) 5C negative TT.TD
6ey=ords%