Sie sind auf Seite 1von 4

Seminar: TAL / M1 GA+GB Doz. Dr.

Mokadem
Wintersemester 2019 /2020

Über ASV
Die Automatische Sprachverarbeitung versteht sich als Teil der Angewandten Informatik. Der
fachliche Schwerpunkt liegt dabei auf der automatischen Verarbeitung von geschriebener Sprache –
unabhängig davon, um welche Einzelsprache und deren Kodierung es sich handelt – mit dem Ziel, so
viel (linguistisches und nicht linguistisches) Wissen wie möglich aus Texten automatisch zu
extrahieren. Ein besonderer Schwerpunkt liegt dabei auf der automatischen Extraktion von
semantischen Relationen, deren Repräsentation und Nutzung im Information Retrieval und
Wissensmanagement.
Digitale Inhalte sind allgegenwärtig: Das Internet ist als umfangreicher und stets aktueller
Wissensspeicher aber auch als dynamisches Unterhaltungsmedium fest in unserem Alltag verankert.
Die Inhalte sind zugleich das größte Kapital digitaler Medien. Alle Tätigkeiten, Prozesse und
Hilfsmittel, die den Lebenszyklus digitaler Informationen unterstützen werden im Content
Management zusammengefasst und professionalisiert.

Linguistische Informatik
Beschreibung und Ziele:
Die Studierenden sollen die linguistischen Grundlagen der Automatischen Sprachverarbeitung
verstehen und die wesentlichen algorithmischen Lösungsansätze für eine automatische Verarbeitung
natürlicher Sprache anwenden können.
Inhalt
• Ziele, Fragestellungen und Lösungsansätze der linguistischen Informatik
• Linguistische Grundlagen: Linguistische Ebenen
• Konzepte und Lösungsansätze Morphologie
• Konzepte und Lösungsansätze Syntax
• Konzepte und Lösungsansätze Semantik.

Morphologie
Zusammensetzung von verschiedenen Wörtern nach ihren Teilen, wie
Suffixe, Präfixe, Stammwörter, z. B. Entwertung kann in « ent- +wert + ung » geteilt
werden.

morpho-syntaktische Kennzeichnung
Zuteilung jedes Wortes in einem Text seiner grammatikalischen Kategorie. , z. B. das Wort
"große" kann ein Adjektiv in "der große Mann" oder ein Substantiv in "Karl der Große" sein.

Stammformreduktion", "Normalformenreduktion"
bezeichnet als Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf
ihren gemeinsamen Wortstamm zurückgeführt werden, z.B. die Deklination von "Wortes"
oder "Wörter" zu "Wort" und Konjugation von "gesehen" oder "sah" zu "sehe".

1
Seminar: TAL / M1 GA+GB Doz. Dr. Mokadem
Wintersemester 2019 /2020

Worttrennung
In der mündlichen Rede bilden die Sätze eine Kette von Phonemen, deren typographischen
Feld nicht ausgesprochen wird, z.B. der Satz [vas/ər/vaɪs] kann zweideutig
verstanden werden: als «was er weiß» und «Wasser weiß ».

Syntax
Die Wort-für-Wort-Übersetzung ist die einfachste Form der MÜ(maschinelle Übersetzung),
bei der mit Hilfe einer morphologischen Analyse die Grundform eines jeden Wortes ermittelt
wird (auch Lemmatisierung genannt).

Lemmatisierung
Zusammensetzung von Wörtern nach ihrer Wortfamilie, wie Gruppierung von Wörtern in
einem Text nach ihrer Wortfamilie, um sie auf ihre kanonische Form "Lemma"(Grundform
eines Wortes, unter der man einen Begriff in einem Wörterbuch findet) zu reduzieren, z.B.
klein, kleine, kleines und kleineres. Bestimmte Konjugationsformen können dies für
Computer erschweren, wie das Finden des Lemmas «sein» aus «gewesen». Dazu haben
« der Laden » und « wir laden » haben nicht das selbe Lemma.

Syntaktische Analyse
Die morpho-syntaktische Etikettierung oder Kennzeichnung jedes Wortes eines Textes, wie in
einem syntaktischen Baum. Manche mehrdeutige Sätze wie "Ich sehe den Mann mit der
Brille" können unterschiedlicher Weise interpretiert werden, wie « Ich sehe den Mann, der
eine Brille trägt», oder "Ich sehe den Mann mit meine Brille"

Zeichensetzung/Satzabgrenzung
zur Trennung on Sätzen in einem Text. Oft dient die Zeichensetzung im Schriftlichen der
Trennung von Sätzen, manchmal können die Abkürzungen Schwierigkeiten bereiten wie beim
Gebrauch vom Punkt, oder Zitate, die innerhalb eines Satzes Satzzeichen enthalten, etc.

Semantik

Zusammensetzung/ Gruppierung von Wörtern nach ihrem Wortstamm, der dem selben
lexikalischen Feld gehört wie, Bank- Bank/ Leiter- Leiter, aber weder die Bank (Geldinstitut)
noch die Bank (Sitz-oder Ablagegelegenheit) gehören demselben lexikalischen Feld. Das
Gleiche gilt für die Leiter und der Leiter.

Anwendungen Linguistische Informatik


– Ziele und Nutzen von Sprachprodukten, Anforderungen und Aufgaben
– Maschinelle Übersetzung
– Terminologie-Extraktion und -Management
– Elektronisches Publizieren, Wörterbuchproduktion

Fortgeschrittene Methoden des Information Retrieval

2
Seminar: TAL / M1 GA+GB Doz. Dr. Mokadem
Wintersemester 2019 /2020

Beschreibung und Ziele:


Die Kombination von Methoden des Information Retrieval mit linguistischen und
statistischen Methoden verdeutlicht die Leistungsfähigkeit kombinierter Verfahren für die
Informationsgewinnung. Im Test werden die Studenten ein ausgewähltes Verfahren einsetzen
und mit sehr großen Mengen von Textdaten umgehen lernen.

Inhalt
– Sprachermittlung
– Cross-Language Information Retrieval
– Ähnlichkeit von Wörtern, Sätzen und Dokumenten
– Latent Semantic Analysis
– Erkennung von Eigennamen
– Sachgebietsermittlung
– Automatisches Abstracting
– Linkstruktur des Internet
– Crawling im Internet.

Text Mining – Wissensrohstoff Text


Beschreibung und Ziele:
Am Beispiel der automatischen semantischen Analyse von Text soll ein wichtiger
Anwendungsbereich der Informatik kennen gelernt und praktisch erarbeitet werden. Die
Studierenden sollen die Grundlagen des Text Mining verstehen, textorientierte Algorithmen
anwenden und deren Nutzen bei der Entwicklung von Wissensmanagementlösungen
beurteilen lernen.

Inhalt
• Wissen und Text
• Grundlagen der Bedeutungsanalyse
• Sprachstatistik (Zipf’sche Gesetze, bedingte Wahrscheinlichkeiten, Kookkurrenzanalyse,
small worlds)
• Clustering
• Musteranalyse
• Hybride Verfahren
• Beispielanwendungen.

Bibliographie

• Abeille A., Les nouvelles syntaxes, Armand Colin, Paris, 1993.


• Allen J., Natural Language Understanding, Benjamins/Cummings, 1998.
• Dutoit R., Bourlard H. et al., Traitement de la parole, Presses universitaires romandes de
Lausanne, 2000.
• Pierrel J.-M., Ingénierie des langues, Hermès, Paris, 2000.
• Mitkov R., The Oxford Handbook of Computational Linguistics, Oxford Univ. Press, 2002.
• Delsarte Philippe, Thayse André, Logique pour le traitement de la langue naturelle, Hemès,
Paris, 2001.
• Habert B. et alii, Les linguistiques de corpus, A. Colin/Masson Paris, 1997.

3
Seminar: TAL / M1 GA+GB Doz. Dr. Mokadem
Wintersemester 2019 /2020
Liens internet

• Page de Marcel Cori


• Association pour le Traitement Automatique des Langues
• Association des Professionnels des Industries de la Langue
• Agence pour l’évaluation et la distribution des ressources linguistiques
· Quelle/http://www.technolangue.net/imprimer.php3?id_article=274
· http://pluriTAL.org
http://www.univ-paris3.fr/master-1-traitement-automatique-des-langues--25429.kjsp
· http://data.okfn.org/data
· http://datahub.io/de/dataset
· http://www.freebase.com/ (→ http://www.wikidata.org/)
· http://corpora.informatik.uni-leipzig.de/
· https://ec.europa.eu/jrc/en/language-technologies/jrc-names
· http://www.opencalais.com/opencalais-demo/
· http://demo.languagecomputer.com/cicerolite/
· http://www.alchemyapi.com/api/demo.html
· http://dbpedia-spotlight.github.io/demo/
· http://www.kaggle.com/competitions
· http://101.datascience.community/2014/10/17/data-sources-for-cool-data-science-
projects-part-1-guest-post/
· http://www.webresourcesdepot.com/15-free-apis-you-didnt-hear-about-but-will-make-
use-of/
· http://www.programmableweb.com/apis/directory

Das könnte Ihnen auch gefallen