Sie sind auf Seite 1von 22

Seminararbeit Suggested Upper Merged Ontology Computer Linguistik

vorgelegt von 25.04.2013

Inhaltsverzeichnis 1 Einleitung 1.1 Themengrundlage 1.2 Problem- und Zielstellung 1.3 Aufbau der Arbeit 2. Suggested Upper Merged Ontology 2.1 Was ist eine SUMO 2.2 Ontologietypen 2.3 Geschichte der SUMO 2.4 Aufbau von SUMO 2.5 SUO KIF 3. Zusammenfassung Literaturverzeichnis Abbildungsnachweis 3 5 7 8 8 8 9 11 12 17 20 21 21

2.6 SUMO und ihre Verwendung in der Computer Linguistik 19

1. Einleitung Ontologie gehrt zu einem Schwerpunkt der Studie in den philosophischen Disziplinen seit geraumen Zeiten. Generell gesehen aus der Sicht der Philosophie bezieht sich der Begriff Ontologie auf die Frage "welche Arten von Dingen existieren?". Im Gegensatz dazu beschftigt sich man in der Informatik mit der Frage "Welche Dinge sollten erfasst und dargestellt werden?". Die Forschung der Beiden Fragen ergibt einen breiten Raum fr die Analyse eines Universums, seine Darstellung in eine abstrakte Form und die Entwicklung von Organisationen und Systemen innerhalb des Universums. Die philosophische Betrachtung der Ontologie gibt eine Beschreibung der wesentlichen Eigenschaften und Beziehungen aller Wesen im Universum. Wie oben bereits erwhnt wird derzeit dieser Begriff der Ontologie erweitert sowie spezialisiert und wird heutzutage in den Bereichen der Informatik und knstlichen Intelligenz nachgegangen. Dementsprechend werden in unseren Zeiten in dem Bereich der Informatik unter dem Begriff von Ontologie mehrere Ontologien verstanden. Aus der Sicht der Informatik und knstlichen Intelligenz bezieht sich eine Ontologie nur auf die Besonderheiten des Wissens ber Entitten und ihre Beziehungen und Interaktionen in einem begrenzten Universum. Als Ergebnis ist eine Reihe von begrenzten Universum-Ontologien im letzten Jahrzehnt erstellt worden, beispielsweise gehren dazu eine chemische Ontologie in dem Chemie-Bereich, TOVE und unternehmerische Ontologien fr Unternehmens-Modellierung, die REA-Ontologie im Bereich Rechnungswesen, organisatorisches Wissen-Ontologie in der Kenntnisse-Management-Bereich, die Ontologie der Luftplanung im Verteidigungsbereich und die GALEN-Ontologie in der medizinischen Informatik-Bereich. In letzter Zeit kommt man jedoch immer hufiger zu einer Erkenntnis, dass die Anwendung von ontologischen Prinzipien und Konzepten nicht nur auf die traditionellen Bereiche des Wissens beschrnkt werden mssen, sondern erfolgreich in verschiedenen Bereichen innerhalb der breiteren Felder von Informationssystemen verwendet und weiter entwickelt werden knnen. Dies hat zu dem Begriff ontology-driven information systems (ODIS) gefhrt. ODIS ist ein Konzept, das in Vorstufen der Entwicklung neue Wege des Denkens ber Ontologien und Informationssysteme in Verbindung mit einander erffnete und sowohl die strukturellen als auch die zeitlichen Dimensionen der Informationssysteme deckt. In der strukturellen Dimension knnen ontologische Mechanismen fr die Strukturierung, Speicherung und den Zugriff auf ein Gattungsinformationssystem verwendet werden, einschlielich der Datenbank-Schemata, Benutzer-Interface-Objekte und Anwendungsprogramme, die in eine funktionierende Informationssysteme integriert werden knnen. Im Gegensatz zu den etablierten Paradigmen der Datenmodellierung sind die 3

strukturellen Grundlagen der Ontologie-Systeme noch am Anfang ihrer Entwicklung: hier herrscht ein wachsender Bedarf an einer einheitlichen Theorie der strukturellen Darstellungen von Ontologien. Einige der wichtigsten Fragestellungen in dieser Dimension sind: Welche gegenstndlichen Formalismen fr Ontologien bentigt werden? Wie diese von den traditionellen relationalen, Prdikat- und Objekt-basierten Formalismen unterschieden werden knnen? Knnen Algebra und Kalkle fr spezifische Ontologiereprsentationsformalismen entwickelt werden? Wie knnen Ontologien effiziente Rahmenbedingungen fr System-Design ergeben? Daneben gibt es eine Reihe von anderen wichtigen Fragen in diese Dimension.1 In der zeitlichen Dimension knnen Ontologien die Entwicklung neuer IT-Systeme anleiten, indem diese Analysten und Designern bei der Wahl angemessene Verfahren, Algorithmen, Regeln und Software-Komponenten je nach ihren Bedrfnissen helfen. Es wurde auch vor kurzem vorgeschlagen, dass Ontologien und Systeme im Wesentlichen Wissensartefakte auf verschiedenen Ebenen der Abstraktionswissen sind und aus diesem Grund Systeme aus einem begrenzten Universum der Ontologien durch Spezialisierung und Kombination erzeugt werden knnen. Es scheint auch, dass die Schwellenlnder Paradigmen wie Web Services und Semantik Web wird die gro angelegte Entwicklung, Bereitstellung und Nutzung von Ontologien und Ontologie-driven Informationssystemen ermglichen. Einige der wichtigsten Fragestellungen dieser Dimension sind: Wie knnen sowohl die statischen und dynamischen Elementen des Universums in einer Ontologie erfasst werden? Kann Ontologien werden korrekt und vollstndig? Kann Ontologien verifiziert und validiert werden? Was sind die Beziehungen zwischen Ontologien und der Systeme Entwicklungs-Lebenszyklus? Welche Theorien von Ontologien fr ontologische System-Integration, Interoperabilitt von Ontologien und Wissen Entdeckung durch Ontologie Bergbau bentigt? Kann Ontologien in Organisation Design verwendet werden, die neben ihrer bekannten Anwendungen im Anlagenbau? Und es gibt zahlreiche andere Fragen. Das primre Ziel dieser Arbeit ist ein gemeinsames Bewusstsein in der Forschung zu den fhrenden und aufstrebenden Entwicklungen in Ontologien zu mobilisieren und vor allem die Auseinandersetzung von Suggested Upper Merged Ontology (SUMO) zu geben, anschlieend das enorme Potenzial der SUMO fr verschiedene Probleme in verschiedenen Lebens- sowie Bettigungsbereiche aufzudecken.2

Vgl. Roberto Poli, Michael Healy, Achilles Kameas: Theory and Applications of Ontology, Computer applications, S 5-21 2 Vgl. Raj Sharman, Rajiv Kishore, Ram Ramesh: Ontologies - a handbook of principles, concepts, and applications in information systems, S 3-21

1.1 Themengrundlage In unserer Gesellschaft wchst stndig die Rolle der Informationsverarbeitung sowie austausch. Gleichzeitig nimmt ihr Schwierigkeitsgrad zu. Daher stoen die beiden Prozesse tglich auf immer grere Schwierigkeiten. Vor diesem Hintergrund stellt sich auch der Bedarf an der Vernetzung von Informationen und Daten. Wenn beispielsweise eine Institution die von einer anderen Institution abweichenden Darstellungsformen benutzt, wird das zur Erschwerung von Informationsaustausch zwischen diesen beiden Institution fhren. Das bringt zur berlegungen ber die Abbildung realer Objekte, die im Bereich der Semiotik (eine Studie ber Zeichen) untersucht werden. In diesem Zusammenhang wurde von Odgen und Richardson das sogenannte semiotische Dreieck herausgearbeitet, das der Beziehung zwischen einer Darstellung, dem realen Objekt und damit verbundenen Erwartungen schematisch erklrt.

Abb.1.1.1 Das semiotische Dreieck Auf der Abbildung wird in Form vom Symbol das Konzept von der Darstellung aufgefhrt. Symbole in einer Darstellungsform befinden sich in einer Beziehung zu Referenten, die Objekte aus der realen Welt sind. Unter Erwartungen wird bezeichnet, was der Betrachter hinsichtlich Objekte und Symbole erwartet. Erwartungen gehen normalerweise aus der Erfahrung von Betrachtern an den Gebrauch eines Begriffs hervor. Auf der Abbildung werden Erwartungen unter THOUGHT OF REFERENCE geschildert. Im Bereich der Informatik wird dies durch das Wort das Konzept ersetzt. Mithilfe dieses Begriffs werden Objektsklassen und ihre Eigenschaften beschrieben. Die Aufgabe der Ontologie in dem Bereich der Informatik ist generell gesehen, die Verbindung zwischen Symbolen in der informationstechnischen Darstellungsform und Erwartungen fr bestimmte Objekte zu formalisieren. Ontologie untersucht Konzepte und wie die reale Welt durch Konzepte beschrieben wird. Diese Fragestellung wird oft unter Universalienproblem bezeichnet. Hier wird der Begriff von Universalien eingefhrt, der allgemeine Eigenschaften von verschiedenen Objekten 5

bedeutet. Universalien stellen kein Objekt dar, sondern liefern eine universale Beschreibung, fr die Objekte als Beispiele sind. Trotzdem scheint die Existenz von diesen Universalien in der realen Welt nicht eindeutig zu sein. Darum wird in der Informatik unter Universalien eher eine Menge von Objekten bezeichnet, z.B. die Universalien Pflanze ist durch eine Menge von allen Objekten charakterisiert, fr die die Behauptung ist Pflanze wahr ist. In der Informatik werden Universalien auch mit dem Begriff Objektmenge ersetzt. In Sonderfllen knnte Universalien auch als Objekte sowie Referenten betrachtet sein. Das heit, dass Symbole als konkrete Objekte, Objektmenge sowie abstrakte Definitionen betrachtet werden knnen. Ferner geht die Ontologie der Frage Welche Arten von Objekten existieren in der realen Welt nach. Hier wird der Begriff von Entitt verwendet, unter dem man die grte Betrachtung von konkreten und abstrakten Objekten versteht. Das bedeutet, dass die Ontologie beschftigt sich mit der Frage, was Objekte voreinander unterscheidet und was Objekte gemeinsames haben. Dies hngt eng mit der Erwartung des Betrachters von der Darstellung eines Objektes. Im Rahmen von Informationsverarbeitung stellt sich die Frage der Unterscheidung als eine der wichtigsten Fragestellungen. Anschlieend wird die Frage der Kategoriensystems aufgeworfen. Nach ihren Eigenschaften lassen sich Objekte in verschiedene Klassen zu organisieren. Und umgekehrt, wenn ein Objekt zu einer Kategorie gehrt, kann man einige Eigenschaften dieses Objekts erschlieen. Hier sollte auch bemerkt werden, dass Unterkategorien Eigenschaften automatisch ihrer oberen Kategorie besitzen. Zu Grunde von Kategoriensystems liegt das Prinzip: wenn gekennzeichnete Eigenschaften eines bestimmten Objektes verwendet werden, um es von anderen Objekten zu unterscheiden. Zusammenfassend gibt es zwei Wege eine Kategorie zu beschreiben. Der Erste wird durch die Menge von der entsprechenden Kategorie zugehrten Objekten charakterisiert (extensionale Beschreibung). Der Zweite wird durch die Bestimmung der gemeinsamen fr alle Objekte der entsprechenden Kategorie Eigenschaften ausgefhrt (intensionale Beschreibung). Beiden Beschreibungen haben ihre Vor- und Nachteile und werden ausgehend von dem betrachteten Fall ausgewhlt. In Informatik wird fr die Unterscheidung der Objekte in der Regel das Prinzip von Ockhams Rasiermesser angewendet. Dieses Prinzip besteht im Wesentlichen darin, dass nicht alle, sondern nur unerlssliche Unterscheidungen verwendet werden sollen. ber die Notwendigkeit einer Unterscheidung wird in jedem Fall unter Bercksichtigung von der konkreten Aufgabenstellung entschieden. Zusammengefasst es gibt eine Reihe von Elementen der Struktur von Wissensreprsentation, die in der Theorie von Otologien unbedingt angefhrt werden sollen. Dazu gehren Konzepte die Entitten der Welt reprsentieren (hier unterscheidet man Klassenund Individuenkonzepte); Instanzen, die Wissen ber Einzelheiten liefern; Attribute, die 6

Eigenschaften der Entitten angeben; Relationen, die Beziehungen der Dinge darstellen; Regeln, die Beziehungen zwischen Sachverhalten zeigen; Domne - ein Bereich, auf den Wissensreprsentation beschrnkt ist. Ontologie als ein Konzept des formal reprsentierten Wissens basiert auf einer Konzeption ber Objekte, Konzepte und andere Entitten, deren Existenz in einigen Bereichen von Interesse angenommen wird, und Relationen, die sie zusammenhalten (Genesereth & Nilsson, 1987). Eine Konzeptualisierung stellt sich als eine abstrakte, vereinfachte Betrachtung der Welt, die man fr einen bestimmten Zweck darstellt. Eine Ontologie ist eine explizite Spezifikation einer Konzeptualisierung. Im Zusammenhang von der Computerlinguistik eine Ontologie eines Programms knnte durch dargestellte Begriffe beschrieben werden. In einer solchen Ontologie verbinden Begriffe die Namen der Entitten (z.B. Klassen, Relationen, Funktionen oder andere Objekte) mit dem von Menschen lesbaren Text, der die Bedeutung von Namen und formale Axiome beschreibt und die richtige Interpretation und Verwendung von diesen Begriffen bercksichtigt. 1.2 Problem- und Zielstellung Vielleicht ist eine der Folgen des World Wide Web ist die Idee, dass alle Wissen der Welt fr jeder Einzelne zugnglich sein mssen. Obwohl dies offensichtlich derzeit nicht der Fall ist, hat es neue Anforderungen an die Informatik und unter anderen an die Computerlinguistik gestellt. Um das in die Realitt umzusetzen, wird den Austausch von Wissen zwischen alle Teilnehmer (nicht nur Menschen, sondern auch Anwendungen) erfordert. Das fhrt seinerseits, dass alle Teilnehmer ber ein gemeinsames Vokabular verfgen mssen. Das heit, es sollte einen Konsens ber die Bedeutung der Dinge geben und alle Teilnehmer des Informationsaustauschs sollten den teilen. Vor diesem Hintergrund wird in der Informatik das Konzept von Ontologien entwickelt oder genauer gesagt von der klassischen Philosophie bernommen. Die knnten als eine der Lsungen zur Darstellung dieses gemeinsamen Verstndnisses angesehen werden. Die Entwicklung einer Ontologie erfordert Kompromisse unter den Kriterien (wie Klarheit, Zusammenhang, Erweiterungsmglichkeit usw.). Beispielsweise, wenn die Interesse der Klarheit bercksichtigt werden, sollen die Definitionen die mglichen Interpretationen der Begriffe beschrnken. Die Entscheidung, welche Kompromisse getroffen werden sollen, hngt von erhltlichem Wissen und erwarteten fr eine bestimmte Domne Anwendungen an.3 Die Zielsetzung dieser Verfassung fasst eine Reihe der Fragestellungen um: Was ist eine Ontologie, Upper Ontologie sowie Suggested Upper Merged Ontologie.

Vgl. Thomas R. Gruber: Towards Principles for the Design of Ontologies Used for Knowledge Sharing

In welchen Fllen Ontologien verwendet werden knnen. Welche Upper Ontologien gibt es heutzutage. Zusammengefasst ist diese Arbeit darauf gezielt, eine klare Auffassung von der

auftretenden Erscheinung in der Computerlinguistik wie Ontologie und in erster Linie Suggested Upper Merged Ontologie sowie ihre Beschaffenheit und Verwendungsmglichkeiten zu vermitteln. 1.3 Aufbau der Arbeit Diese Verfassung in drei Hauptteile unterteilt. Dies sind ein Einleitungsteil, wo die Grundlagen von dem Konzept Ontologie angegeben wird, dessen Ziel ist, eine ausreichende theoretische Basis zu liefern, um gengende Kenntnisse fr den zweite Hauptteil zu sammeln. Der Schwerpunkt des zweiten Teils liegt bei der Auseinandersetzung der Suggested Upper Merged Ontology. Dabei werden auch andere Upper Ontologien betrachtet. Der letzte dritte Teil ist eine Zusammenfassung der ganzen Arbeit. Die ersten zwei Hauptteile werden nach der Gleichartigkeit des Inhalts weiter unterteilt. 2. Suggested Upper Merged Ontology 2.1 Was ist eine SUMO

Die SUMO, die Abkrzung von Suggested Upper Merged Ontology, ist eine Ontologie, deren Entwicklung auf die Idee basierte, dass menschliche Sprache sinnvoll als eine formale Ontologie verwendet werden kann, um mithilfe von IT-Technologien menschliche Ausdrcke zu verstehen. Die SUMO ist eine formale Ontologie in erster Ordnung von logischer Sprache, die rund 1000 Begriffe und mehrere tausend formale Aussagen zu diesen Begriffen (am Anfang ihrer Entwicklung, 2001) umfasste4. Darber hinaus verbinden sich anhand des im 2003 entwickelten Indexes 66.000 Substantiven, 12.000 Verben und 18.000 Adjektiven von WordNet mit Begriffen der SUMO. WordNet knnte im Wesentlichen als ein elektronisches Wrterbuch beschrieben werden, wo Synonymen gruppiert und synsets genannt werden. SUMO ist eine formale Ontologie, das aber sollte nicht einfach als eine Sammlung von Begriffen und Definitionen betrachtet werden, sondern als eine vllig axiomatisierte Ontologie, die mit Definitionen fr Begriffen in Logik erster Ordnung vorgesehen ist. Obwohl Begriffe der SUMO zunchst als englischen Labels erstellt wurden, haben sie keinen innewohnenden linguistisch abhngigen Inhalt. Die Labels sind einfach bequeme Eselsbrcke fr Menschen, hnlich mit den Namen von Variablen in prozeduralen Software-Code. Jeder Begriffsname knnte mit einem eindeutigen bedeutungslosen Code ersetzt werden und trotzdem seine

http://www.ontologyportal.org/

Bedeutung behalten, da die Bedeutung eines Begriffs ausschlielich durch seine formalen Axiome gegeben wird.5 SUMO knnte als Ontologie der beiden Einzelheiten sowie Universalien beschrieben. Sie hat eine Hierarchie von Eigenschaften sowie Klassen. Dies ist ein sehr wichtiges Merkmal fr die praktische IT-Technik, weil es ermglicht, gemeinsame Merkmale wie Transitivitt fr eine Reihe von Eigenschaften anzuwenden, mit einem Axiom, das einmal geschrieben und von diesen Eigenschaften geerbt wird, anstatt neu spezifisch fr jede einzelne Eigenschaft zu schreiben.6 2.2 Ontologietypen Die zunehmende Notwendigkeit, dass Menschen-und Software-Agenten Wissen przis und effizient abrufen und miteinander austauschen mssen, hat dazu gefhrt, dass Ontologien, Web Services und die Kombination von beiden, z.B. Semantic Web Services, immer mehr fr den Austausch von Wissen benutzt werden. In diesem Zusammenhang werden Upper Ontologien schnell zu einer Schlsseltechnologie fr die Integration von heterogenem Wissen aus unterschiedlichen Quellen. Upper Ontologien knnen als Brcken betrachtet werden, die ermglichen, intelligente Software-Agenten heterogene Ontologien in einer automatischen Weise auszurichten. Heutzutage gibt es sechs der bekanntesten Upper Ontologien, nmlich BFO, Cyc, DOLCE, GFO, Sowas Ontologie und selbstverstndlich SUMO. BFO (Basic Formal Ontology) wurde in 1998 von B. Smith und P. Grenon (die Universitt Saarland) entwickelt. BFO besteht in zwei Sub-Ontologien: SNAP - Eine Reihe von Schnappschuss-Ontologien, die mit einem Zeit-Index versehen ist, und SPAN - ein einziges Videoscope-Ontologie. SNAP ist eine Bestandsliste von allen Entitten, die an einem Zeitpunkt existieren, whrend SPAN ist eine Bestandsaufnahme aller Prozesse, die durch die Zeit verlaufen. Die beiden Arten von Ontologie (SNAP und SPAN) dienen als Grundlagen fr eine Reihe von Sub-Ontologien, jede von denen als Fenster in einem bestimmten Teil der Realitt auf einer bestimmten Ebene der Granularitt betrachtet werden kann. BFO enthlt eine TopVerbindungsklasse ("Entitt"), 18 SNAP-Klassen und 17 SPAN Klassen fr insgesamt 36 Klassen. BFO hat keine Verbindung zu WordNet und ist kostenlos verfgbar. BFO hat seine Anwendung in dem biomedizinischen Bereich gefunden und ist derzeit fr den Aufbau einer Ontologie der klinischen gnomischen Studien fr Krebs verwendet. Die Cyc Knowledge Base (KB) ist eine formalisierte Darstellung von Tatsachen, Faustregeln und Heuristik fr die Argumentierung ber die Objekte und Ereignisse des Alltags.
5 6

Hermann Helbig: Knowledge Representation and the Semantics of Natural Language, S 427-435 Vgl. Andrea C. Schalley, Dietmar Zaefferer: Trends in Linguistic, 103-107

Die KB besteht aus Begriffen und Behauptungen, die diese Begriffe beziehen. Diese Behauptungen sind sowohl einfache Behauptungen als auch Regeln. Die Cyc KB wird in Tausenden von "Mikrotheorien" unterteilt, die auf einen bestimmten Bereich des Wissens, ein bestimmtes Detaillierungsniveau, einen bestimmten Zeitabstand usw. konzentrieren. Der CycProjekt wurde 1984 von D. Leant als Leitprojekt in der Mikroelektronik- und Datentechniktechnology Corporation (MCC) gegrndet. Die Cyc KB enthlt mehr als 300.000 Begriffen und fast 3.000.000 Behauptungen (Fakten und Regeln), mit mehr als 15.000 Relationen. Cyc ist in den Bereichen der Verarbeitung natrlicher Sprache verwendet worden, insbesondere fr die Aufgaben der Mehrdeutigkeit von Begriffen, Fragenbeantwortung, der Risikobewertung und der Darstellung von auf den Terrorismus bezogenen Kenntnissen. Die letzte Version von Cyc enthlt Links zwischen Cyc Konzepte und etwa 12.000 WordNet Synsets. DOLCE (a Descriptive Ontology for Linguistic and cognitive Engineering) ist das erste Modul der WonderWeb Foundational Ontologies Library (2002-2004). DOLCE hat eine klare kognitive Basis in dem Sinne, dass DOLCE auf Erfassung der ontologischen Kategorien zielt, denen natrliche Sprache und menschliche Vernunft zugrunde liegt. Nach dem DOLCE-Prinzip knnen sich verschiedene Entitten in der gleichen Raum-Zeit befinden. DOLCE wird von den Autoren als "Ontologie der Einzelheiten" beschrieben. Darunter wird eine Ontologie von Instanzen, anstatt einer Ontologie von Universalien oder Eigenschaften verstanden. Die Taxonomie der grundlegenden Kategorien der Einzelheiten in DOLCE fasst z.B. abstrakte Qualitt, abstrakten Bereich, agentives physisches Objekt, Menge der Materie, nicht agentives physisches Objekt, physische Qualitt, physischen Bereich, Prozess, zeitliche Qualitt, zeitliche Region um. DOLCE hat rund 100 von Begriffen und eine hnliche Zahl von Axiomen. Es gibt viele Projekte, die DOLCE benutzten, beispielsweise das LOIS Projekt - ein internationales Forschungsprojekt an mehrsprachigem und deren Informationswiederauffinden Anwendung auf von juristischen und Datenbanken, SmartWeb- ein Zentrum der Exzellenz in der Forschung an intelligenten Computing-Technologien Web-basierte Systeme Dienstleistungen, Language Technology fr eLearning - ein von der Europischen Kommission finanzierte Projekt, das mit der Verwendung von mehrsprachigen technologischen Mittel und Semantik-Web-Techniken das Wiederauffinden von Lernmaterial verbessert, AsIsKnown - ein semantisches auf Wissen basiertes Flow-System fr europische Textilienindustrie und die Projekte des Labors fr angewandte Ontologie. GFO (General Formal Ontology) beinhaltet Ausarbeitungen von Kategorien wie Objekte, Prozesse, Zeit und Raum, Eigenschaften, Relationen, Rollen, Funktionen, Fakten und Situationen. Es wird auch die Arbeit durchgefhrt, um den Begriff von Ebenen der Realitt zu 10

integrieren. Dies wird ermglicht, richtige Entitten in den materialen, geistigen und sozialen Bereichen zu erfassen. GFO weist eine dreischichtige Architektur auf, die aus einer abstrakten obersten Ebene, einer abstrakten Kern-Ebene und einer Basis-Ebene besteht. Die grundlegenden Ontologie GFO ist in mehrere Module aufgeteilt, einschlielich eines ontologischen Moduls fr Funktionen und eines Moduls fr Rollen. GFO wird im Bereich der biomedizinischen Wissenschaft benutzt. GFO ist auch verwendet worden, um Wissen ber biologische Funktionen in der Gene-Ontologie, Zellentype-Ontologie und Ontologie von chemischen Entitten der biologischen Interessen, und GFO-Bio (die auf GFO basiert und ist eine Kern-Ontologie fr Biologie). Sowas Ontologie ist eine Ontologie, deren Entwicklung bereits im 1999 angefangen hat. Die grundlegenden Kategorien und Unterscheidungen der Sowas Ontologie wurden aus einer Vielzahl von Quellen in der Logik, Linguistik, Philosophie und knstliche Intelligenz abgeleitet. Damit das System offen bleibt, beruht Sowas Ontologie nicht auf einer festen Hierarchie von Kategorien, sondern auf einer Struktur von Unterscheidungen, von der die Hierarchie automatisch generiert wird. Kategorien sind fr jede einzelne Anwendung durch die Auswahl einer Reihe von geeigneten Unterscheidungen gemacht. Diese Kategorien enthalten Objekt, Prozess, Schema, Script, Verbindung, Beteiligung, Beschreibung, Geschichte, Struktur, Situation, Ursache und Zweck. Jede dieser Kategorien kann entweder physisch oder abstrakt (und in beiden Fllen kann es entweder kontinuierlich oder auftretend) oder unabhngig, oder relativ oder auftretend sein, z.B. das Prozess ist physisch, auftretend und unabhngig. Geschichte. Sowas Ontologie enthlt etwa 30 Klassen, 5 Relationen zwischen Klassen und Klassen und Instanzen und ca. 30 Axiome. Sowas Ontologie wird zwar nicht offen aber in Module unterteilt, wobei jede der Kategorien der obersten Ebene als Modul von alleine betrachtet werden kann, das mit anderen durch Relationen verbindet ist. Sowas Ontologie hat viele bestehende in der Realitt umgesetzte Upper Ontologien inspiriert. Deshalb kann ihre Verwertung in der Entwicklung der "zweiten Generation" von Upper Ontologien als eine der wichtigsten angesehen werden.7 2.3 Geschichte der SUMO SUMO wurde erstmals im Dezember 2000 herausgebracht. Es wurde in der Teknowledge Corporation entwickelt und als Starterdokument fr die Standard Upper Ontology Working Group, eine IEEE-sanktionierte Arbeitsgruppe von Spezialisten aus den Bereichen der Technik, Philosophie und Informationswissenschaft (http://suo.ieee.org/) vorgeschlagen. SUMO wurde durch die Zusammenlegung vom ffentlichen zugnglichen ontologischen Inhalt in eine einzige, umfassende und zusammenhngende Struktur geschafft. Dieser Inhalt hat die
7

Vgl. Viviana Mascardi, Valentina Cordi: A comparasion of Upper Ontologies

11

Ontologien auf der Ontolingua Server (http://www.ksl.stanford.edu/software/ontolingua/), die Sowas Upper Level Ontologie sowie andere verschiedene Theorien enthalten. Derzeit besteht SUMO aus SUMO selbst (die offizielle neueste Version auf dem IEEEWebsite kann von http://suo.ieee.org/SUO/SUMO/SUMO_173.kif), der Mid-Level-Ontologie (MILO) und Ontologien fr Kommunikation, Lnder und Regionen, Distributed Computing, Wirtschaft, Finanzen, technische Komponente, Geographie, Regierung, Militr, nordamerikanisches industrielles Klassifikationssystem, Menschen, physische Elemente, transnationale Fragen, Verkehrswesen, Viren, Flughafen der Welt, Terrorismus. In fast 100 verffentlichten Artikeln wird die Verwendung von Anwendungen der SUMO beschrieben und dokumentiert (http://www.ontologyportaI.org/Pubs.html). Die grte Anzahl der Nutzer ist in der Linguistik. Aber auch andere Klassen von Anwendungen sind "reine" Darstellung und Argumentation. Die Anwendungen der SUMO sind sehr verschieden von akademischen bis regierungs- und indistriebezogenen. 2.4 Aufbau von SUMO Die Suggested Upper Merged Ontology (SUMO) zhlt zu einer der grten Ontologien, die sich inhaltlich auf Grundlagen der formalen Logik sttzt. Im Juni 2008 fasste sie circa 20.000 Begriffe und 70.000 logische Formeln um, die Bedeutung von Begriffen beschreiben. Diese Begriffe werden in Teilmodellen fr jeweils verschiedene Themenbereiche unterteilt. SUMO bietet die wichtigsten Teilmodelle, wo abstrakte Begriffe erklren werden, die sich fr przise Definierung konkreter Konzepte in anderen Teilmodellen wie Mid-Level-Ontologie (MILO), die SUMO und andere Teilmodelle in Verbindung setzt, verwenden lassen. Diese Teilmodelle beziehen sich auf konkrete Themen wie z.B. Kommunikationstechnologie, Lnder und Regionen, Verteiltes Rechnen, Wirtschaft, Finanzmrkte, Maschinenbau, Geographie, Politik, Militr, Produktion, Menschen, Chemische Elemente, Diplomatie, Transportwesen, Vieren, Flughfen, Terrorismus. Das bedeutet, durch die Verwendung der Definitionen von SUMO und MILO sowie anderen Teilmodellen bildet sich ein Gesamtmodell. Die Abbildung 1 stellt graphisch Beziehungen verschiedener Teilmodelle zwischen einander dar.

12

Abb.2.1.1 Architektur der Suggested Upper Merged Ontology SUMO biete auer ihrer Ontologie auch die Mglichkeit, signifikante Begriffe in andere Sprachen (beispielsweise Deutsch, Hindi, Chinesisch) zu bersetzen. Darber hinaus lassen sich verschiedene Software-Tools verwendet, um die Erstellung, Wartung und Gebrauch von SUMO zu erleichtern.8 Wie oben erwhnt setzt sich SUMO aus einer Reihe von anderen Ontologien zusammen, trotzdem ist die eigene Ontologie der SUMO der Angelpunk der Sammlung aller diesen Ontologien. Die Ursache dafr besteht in der Zielsetzung von der Erstellung der SUMO. Nmlich wurde die SUMO als Grundlage fr andere Ontologien entwickelt. Das wurde ermglicht dank der drei prinzipiellen Aspekte, die zugrunde der SUMO liegen. Diese Kernaspekte der SUMO knnen kurz auf folgende Weise beschrieben werden: Neue Ontologien und Informationsquellen knnen auf der Basis der SUMO entwerfen werden. Vorhandene Informationsquellen knnen wiederbenutzt und integriert werden. Bestehende Ontologien knnen verknpft werden. Diese Prinzipien erfordern ein gemeinsames fr verschiedene Ontologien Vokabular, was in der Erstellung der SUMO realisiert worden ist. Die Basis fr ein solches Vokabular ist die Vielfalt von Systemen der Kategorien, die zuerst in SUO-KIF geschildert und danach in ein gemeinsames Modell zusammengesetzt wurden.9

8 9

Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 77-79 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 83-84

13

Abb.2.1.2 Die Upper-Level Ontologie von Russel und Norvig

Abb. 2.1.3 Sowas Top-Level Ontologie Durch die Integration der in zwei oberen Abbildungen prsentierten Kategoriensysteme (Sowas Top-Level Ontologie und Die Upper-Level Ontologie von Russel und Norvig) entstand SUMO Top-Level. So heit das Kategoriensystem des SUO-KIF, das Prinzipien der Definierung

14

konkreter Ontologien enthlt. Derzeit sieht SUMO Top-Level anders aus, da es weiterentwickelt worden ist (Abb. 2.1.4).

Abb. 2.1.5 Hierarchie der SUMO Top-Level-Kategorien Zugrunde der abstrakten Konzepte, die in der SUMO angewendet sind, liegen bestimmte mathematische Theorien. Beispielsweise entsprechen die mathematischen von SUMO in SUO-KIF axiomatisierten Theorien von Relationen, Graphen und Mengen den SUMOKonzepten von Relation, Graph und SetOrClass. Das ermglicht, die mathematischen Theorien in SUMO direkt mit der Vermeidung des mhsamen Wegs von der Definierung der entsprechenden Eigenschaften anzuwenden. Die unten aufgefhrten Definitionen zeigen wie mathematische Eigenschaften binrer Relationen in der SUMO dargestellt werden. Reflexivitt:

Symmetrie:

15

Transivitt:

Abb. 2.1.4 Beispiele fr die in SUMO Definierung der mathematischen Eigenschaften binrer Relationen Diese drei Relationen gehren zu den grundlegenden Definitionen der SUMO. Das bedeutet, dass andere Relationen entweder Spezialflle oder Instanzen dieser Relationen sind. In diesem Zusammenhang wird das Konzept EquivalenceRelation als Unterklasse dieser drei Relationen definiert, indem EquivalenceRelation Eigenschaften von der Reflexivitt, Symmetrie sowie Transivitt erbt. Es gibt auch mehrere weitere Beispiele, die auf der Reflexivitts-, Symmetrie- und Transivittsrelationen basieren: reflexive Relationen connected, overlaps, subGraph; symmetrische Relationen enemy, friend, coworker, consistent; transitive Relationen crosses, dependentGeopoliticalArea, multiplicativeFactor. Die Wichtigkeit der SUMO besteht auch darin, dass es ohne die SUMO nicht mglich wre, impliziertes Wissen in die Ontologien in konkreten Anwendungen abzuleiten. Darber hinaus gibt es in der SUMO die Mglichkeit, sich mit dem semantischen Netz WordNet zu verbinden. Diese Verbindung stellt zur Verfgung sowohl formale als auch linguistische Informationen. Vor diesem Vordergrund ist besonderer Wert auf Informationen ber Synonyme gelegt, weil es der SUMO an Informationen ber verschiedene Namen eines gleichen Konzeptes mangelt. Am Anfang wurde diese Verbindung von Synonymen lediglich auf Substantive in WordNet und passende Konzepte der SUMO begrenzt. In letzten Zeiten wird diese Verbindung auch auf andere Wortarten ausgeweitet. In diesem Zusammenhang lassen sich drei Arten von Bezeichnungen zwischen Synsets des WordNet und Konzepten der SUMO unterscheiden: Synonymie die genaue Entsprechung eines im WordNet bezeichneten Begriffs mit einem SUMO-Konzept (z.B. Begriffe vom WordNet wie {plant, flora} entsprechen genau dem SUMOKonzept Plant); Hypermonie ein WordNet-Begriff ist einem SUMO-Konzept untergeordnet (zB. ist WordNet-Begriff {Christian_Science} ein Unterbegriff vom SUMO-Konzept ReligiousOrganisation); Instanz ein WordNet-Begriff ist eine einzelne Ausprgung eines SUMO-Konzeptes (z.B. WordNet Synset {Underground_Railroad, Underground_Railway} ist ein Exemplar des SUMO-Konzeptes Organisation).

16

WordNet-Begriffe werden durch Kommentare von dem entsprechenden SUMOKonzept erweitert. Dabei fngt dieser entsprechende SUMO-Konzept mit dem Prfix &% an und wird am Ende mit Informationen ber Relationsart durch das Postfix versehen, wo Zeichen = +, @ Synonymie, Hypernomie, Instanz entsprechen, beispielsweise plant, flora, plant life ((botany) a living organism lacking the power of locomotion) &% Plant=. Die Verbindung zwischen der SUMO und WordNet vereinfacht die Erreichung des Zieles der SUMO Erstellung, und zwar die Entwicklung und Einbeziehung von Ontologien. WordNet scheint eine gute Einstiegsmglichkeit in das formelle SUMO-Modell zu sein, weil Definitionen von anderen Informationsquellen oder anderen Ontologien normalerweise in WordNet gefunden werden knnen. Durch die Beschreibung eines Begriffs in WordNet mit der Verbindung zu dem entsprechenden SUMO-Konzept ist die SUMO zu einem allgemeinen Begriffssystem fr die Bezeichnung und Integration von Informationen geworden.10 2.5 SUO KIF Wie schon gesagt werden logische Formeln in SUMO fr die Begriffsdefinierung verwendet. Vor diesem Hintergrund wird SUO KIF entwickelt, um logische Formeln darzustellen. Unter SUO-KIF wird eine formale Sprache, die Verarbeitung von Begriffen erleichtert. SUO-KIF ermglicht die Darstellung der prdikatenlogischen Formeln mit Gleichheit. Gleichzeitig besitzt SUO-KIT ein spezielles Vokabular, das klassischen OntologieKomponenten, nmlich Vererbung und Klassenzugehrigkeit darstellt. Darber hinaus ist SUOKIF in der Lage, beschrnkt Aussagen ber logische Formeln zu tun. Um relationale Ausdrcke zu wiedergeben, wird eine Prfix-Notation in SUO-KIF benutzt. Demzufolge wird beispielsweise die Aussage, dass London die Hauptstadt von England folgenderweise abgebildet. (capital-of London England) SUO-KIF verfgt ber vorbestimmte Relationen instance und subclass sowie eine Menge von anderen vorbestimmten Relationen (subrelation). Dementsprechend kann die Behauptung, dass London zu Hauptstdten gehrt und der Konzept von Hauptstdten im Allgemeinen eine Unterklasse von Stdten ist und capital-of zu einer Teilrelation von lies-in zhlt, folgendermaen geschildert werden: (instance Berlin Capital) (subclass Berlin City) (subrelation capital-of lies-in) SUO-KIF verfgt ber Mechanismus, der die Definition der prdikatenlogischen Formeln ber relationale Ausdrcke ermglicht. Formeln knnen in relationale (relsentence),
Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 8390
10

17

einfache logische (logsentence) sowie quantifizierte logische (quantsentence) Ausdrcke klassifiziert werden.

Abb. 2.5.1 Rekursive Definierung von verschiedenen Klassen der Formeln in SUOKIF. Um Variablen darzustellen, werden Worte, die mit einem Fragezeichen beginnen, benutzt. SUO-KIF gibt auch die Mglichkeit komplexe Terme als Argumente relationaler Ausdrcke zu verwenden. Ihre Syntax ist genauso wie einfache relationale Ausdrcke aufgebaut und wird Prfix-Notation dargestellt. Dank der oben beschriebenen Syntax hat die SUMO komplexe Definitionen als Begriffe. Als Beispiel davon lsst sich hier der Konzept von Humanslave anfhren, unter dem man eine Personengruppe versteht, die Eigentum einer anderen Person ist.

Abb. 2.5.2 Die Darstellung des Konzept von Humanslave in SUO-KIF. Der groe Unterschied der SUMO von der Vielzahl anderer formalen Ontologien besteht darin, dass es neben der formalen Beschreibung der Konzepte Formeln gibt, die die exakten Definitionen von Beschaffenheit der benutzten Verbindungen liefern. Demzufolge verfgt die SUMO ber Axiome, die beispielsweise die Relation des Besitzes erklren.

18

Abb. 2.5.3 Die Darstellung des Axioms, das behauptet, dass der Besitzer auch berechtigt ist, sein Eigentum zu benutzten. Diese oben dargestellte Aussage genauso wie andere beispielsweise die Aussage ber den Wahrheitswert einer bestimmten Formel auer der Prdikatenlogik liegt. Um solche Aussagen verarbeiten zu knnen, werden spezielle Beweisverfahren verwendet. Die Aussagen ber den Wahrheitswert einer bestimmten Formel lassen sich in SUO-KIF durch die Relation holds bilden. Diese Relation erhlt den Namen und Eingaben in Form von Termen. Die Relation holds beschreibt die angezeigte Relation der Terme zueinander.

Abb. 2.5.4 Das Beispiel einer Definition mithilfe der Relation holds. Die oben dargestellte Aussage ist ein Beispiel fr eine Definition allgemeiner Ableitungsregel, die feststellt, dass jede zweistellige Relation sich aus zwei Artikeln zusammensetzt, falls diese Artikel in Teilrelation der angemessenen Relation sind. SUMO hat ihre Schwierigkeiten hinsichtlich der Wissensableitung aus SUMO anhand logischen Schlieens, die wegen der uerst hohen Mchtigkeit des Ausdrucks und der Verwendung von nicht mehr in der Prdikatenlogik liegenden Konzepten entstehen.11 2.6 SUMO und ihre Verwendung in der Computer Linguistik SUMO als eine Upper Ontologie gehrt zu einem wesentlichen Bestandteil intelligenter Systeme der Wahrnehmung, Handlung und Sprache. SUMO wird fr die Kategorisierung von Daten, Lsung eines Problems, Kommunikation, Planung von Handlungen verwendet. Die Rolle der SUMO in der Computer Linguistik sowie Knstlichen Intelligenz ist nicht zu unterschtzen. Viele Wege der Benutzung von SUMO wurden schon in oberen Teilen dieser Verfassung beschrieben. Trotzdem sollte es noch einmal bemerkt werden, dass eine der grten Wichtigkeit von SUMO besteht darin, sie sehr breite semantische Interoperabilitt zwischen einer groen

Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 8083

11

19

Anzahl von Ontologien untersttzt bzw. ermglicht. Darber hinaus wird SUMO als eine der Grundlagen von maschineller bersetzung benutzt.12

3.

Zusammenfassung

Ontologie, der Begriff, der aus der Disziplin der Philosophie stammt, hat derzeit einen breiten Einsatz in der Informatik, Knstlicher Intelligenz sowie Computerlinguistik gefunden. Das wurde von dem wachsenden Drang nach immer greren Wissenssystemen verursacht. Als Folge von dem angestiegenen Zeit- und Arbeitsaufwand ihrer Verarbeitung und Verwaltung, wird die Frage der Automatisierung dieses Prozesses aufgeworfen. Ontologien werden gro gesagt in 2 Klasse aufgeteilt. Whrend untergeordnete Ontologien formale, explizite Spezifikationen einer gemeinsamen Konzeptualisierung13 sind, ist die Aufgabe der Upper Ontologien, breite semantische Interoperabilitt zwischen einer Grozahl von untergeordneten Ontologien zu untersttzen. In der Zukunft sind die Tendenzen der Erweiterung und Zusammenschlieung von Upper Ontologien zu erwarten, da das Ziel verfolgt wird, eine universale vollstndige Ontologie herauszuarbeiten.14

12 13

Vgl. Carstensen K.U: Computerlinguistik und Sprachentechnologie, S 1-11 Vgl. Gruber, Thomas R.: A translation approach to portable ontology specifications, S 5 14 Vgl. Vgl. Carstensen K.U: Computerlinguistik und Sprachentechnologie, S 11-12

20

Literaturverzeichnis
Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011 Raj Sharman, Rajiv Kishore, Ram Ramesh: Ontologies - a handbook of principles, concepts, and applications in information systems, Springer, New York, 2007 Andrea C. Schalley, Dietmar Zaefferer: Trends in Linguistic, Ontolinguistik, how ontological status shapes the linguistic coding of concepts, Walter de Gruyter, Berlin, 2007 Viviana Mascardi, Valentina Cordi: A comparasion of Upper Ontologies Carstensen K.U: Computerlinguistik und Sprachentechnologie, Spektrum, 2009 Thomas R. Gruber: Towards Principles for the Design of Ontologies Used for Knowledge Sharing, Stanford Knowledge Systems Laboratory Gruber, Thomas R.: A translation approach to portable ontology specifications, Stndford 1993 Hermann Helbig: Knowledge Representation and the Semantics of Natural Language, Springer, Berlin, 2006 Roberto Poli, Michael Healy, Achilles Kameas: Theory and Applications of Ontology, Computer applications, Springer, Heidelberg, 2010 http://www.ontologyportal.org/

Abbildungsnachweis
Abb.1.1.1 http://www.hispanoteca.eu/Lexikon%20der%20Linguistik/sa/SEMIOTISCHES%20DREIECK% 20%20Tri%C3%A1ngulo%20sem%C3%A1ntico%20o%20semi%C3%B3tico.htm Abb.2.1.1 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, S 79 Abb.2.1.2 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, 82 Abb. 2.1.3 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, 85

21

Abb. 2.1.4 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, 87 Abb. 2.1.5 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, 84 Abb. 2.5.1 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, 86 Abb. 2.5.2 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, 81 Abb 2.5.3 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, 82 Abb. 2.5.4 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, Springer, Berlin, 2011, 83

22