Sie sind auf Seite 1von 20

Was Wörter bedeuten:

Ontologien
Die Sequenz-Ontologie (SO)

Sammeth / GENO 1
Worum es bei den Analysen geht
Generell fallen die meisten bioinformatischen Analysen in
zwei Kategorien:

1. Was ein Stücks DNA ist: Annotation oder Klassifizierung


2. Was ein Stück DNA macht: funktionale Annotation

Es gibt auch Kombinationen aus beidem.

Bei der Suche nach Antworten darüber nachdenken, in


welche Kategorie die jeweilige Analyse fällt.

Sammeth / GENO 2
Fragen Sie jemand nach der Definition für ein "Gen".
Fragen Sie danach jemand anderen.
Die Definition wird vermutlich nicht die gleiche sein.

Die meisten Wissenschaftler benutzen das Wort


"Gen" um völlig andere "Dinge" zu beschreiben.
Sammeth / GENO 3
Definitionen sind
wichtig!

Sammeth / GENO 4
In der Biologie gibt es viele Spezialwörter
Schauen wir uns die Annotationen in der Datei
SGD_features.tab genauer an:
http://sgd-archive.yeastgenome.org/curation/chromosomal_
feature/SGD_features.tab

Die zweite Spalte der Datei enthält den type (s. README):
cat SGD_features.tab | cut –f 2 | sort | uniq
produziert Wörter wie:
ARS
CDS
...
X_element_combinatorial_repeat
(Frequenzen mit weiterem sort –r -n sichtbar -> Biologie)
Sammeth / GENO 5
Aber wofür stehen ARS und CDS ?

Sammeth / GENO 6
Eine Ontologie
- ist ein strukturiertes Vokabular, welches eine Definition
und eine Klassifikation (Taxonomie) von Wörtern
beschreibt.

- ist ausgelegt, um Zweideutigkeiten in der Terminologie zu


entfernen.

- schließt nicht eine weitere Ontologie aus, die die gleiche


Wissensdomäne aus einer anderen Perspektive beschreibt
(s.a. "polikategorische Ontologien").

Sammeth / GENO 7
Ontologien beschreiben auch Relationen
• in der Biologie sind Ontologien oft
hierarchisch strukturiert.
A
• Konzept von HOs: es gibt fundamentalere
Begriffe, von denen andere (höhere)
Begriffe abhängen (untersch. Relationen).
B C
• hierarchische Ontologien beschreiben
Bäume, d.h. gerichtete Graphen mit einem
überge- ordneten Knoten je Relationstyp).
D E F
z.B. "ist eine konkretere Form von ..."
Relation 1 (Subklassifizierung)
Relation 2 z.B. "ist Teil von..." (Unterteilung)
G H
Relation 3 z.B. "ist neben ..." (Topologie)
Sammeth / GENO z.B. "leitet sich ab von ..." (Derivate) 8
Zuordnung nicht immer trivial

Beispiel: Topologie eines Genes

Start
Codons Stop
Codon
Codon
(AUG)

5'-UTR CDS 3'-UTR

Zu welcher Region gehört das "Stop Codon"?

Sammeth / GENO 9
Biologische Ontologien

Wir werden hauptsächlich mit zwei Ontologie-Typen zu tun


haben:

• Die Sequenz-Ontologie (SO): behandelt die Definition von


biologischen Begriffen: was ist ein Gen, was ist ein
Transkript? Ist ein Transkript Teil eines Genes?

• Die Gen-Ontologie (GO): behandelt die funktionale


Charakterisierung von Genen. Wie viele unterschiedliche
Funktionen gibt es? Welche Funktionen sind ähnlich? Wie
gruppieren wir Funktionen zu Klassen?

Sammeth / GENO 10
Die Sequenz Ontologie
Die Sequenz-Ontologie (SO) definiert Sequenz-
Eigenschaften, die in einer Annotation benutzt
werden: http://www.sequenceontology.org/miso

Sammeth / GENO 11
Also was ist ein
X_element_combinatorial_repeat
?

Sammeth / GENO 12
Suche im Browser
Eine Suche im Sequenz-Ontologie Browser liefert:
http://www.sequenceontology.org/miso

"Ein X-Element kombinatorischer Repeat ist eine Repeat-Region, die sich zwischen
dem X-Element und dem Telomer oder dem benachtbarten Y'-Element befindet."

Sammeth / GENO 13
Die Definition muss vielleicht weiter
"definiert" werden.
Die Definition enthält vielleicht andere Begriffe, die Sie nicht
kennen:

"An X element combinatorial repeat is a


repeat region located between the X element
and telomere or adjacent Y' element ."
Was ist also ein(e):
repeat
, region
, , ? X element telomere Y' element
Sie können alle diese Definitionen in der SO nachschlagen.
Sammeth / GENO 14
Graph- (Baum-)
Darstellung

Der Baum
zeigt die
hierarchische
Klassifikation
der Ontologie.

Sammeth / GENO 15
Browser der Begriffe zeigt Kontext

Sammeth / GENO 16
Was ist ein "Gen"?

Die Sequenzontologie sagt:

"Eine Region (oder Regionen), die alle Sequenzelemente zur


kodierung eines funktionalen Transkriptes beinhalten.

Ein Gen kann regulatorische Regionen, transkribierte


Regionen und/oder andere funktionale Sequenzregionen
beinhalten."

Das ist ein breiteres Kozept als viele sich vorstellen.


Sammeth / GENO 17
SO herunterladen
Eine Möglichkeit die SO herunterzuladen (s. sequenceontology.org >
"Current SO Ontology Files"):
https://raw.githubusercontent.com/The-Sequence-Ontology/SO-
Ontologies/master/Ontology_Files/so-simple.obo

wget https://raw.githubusercontent.com/The-Sequence-
Ontology/SO-Ontologies/master/Ontology_Files/so-simple.obo

Beim Blättern durch die Datei sehen wir verschiedene Einträge


(Schlüsselwort [Term]), mit den auf der Webseite dargestellten
Informationen: ID, Name, Definition, is_a, ...

Sammeth / GENO 18
Erkundungen in der SO
https://raw.githubusercontent.com/The-Sequence-Ontology/SO-
Ontologies/master/Ontology_Files/so-simple.obo

Welche Einträge haben etwas mit dem Schlüsselwort "PCR" zu tun?

cat so-simple.obo | grep 'PCR' –B 2 –A 2 | less

FAQs http://www.sequenceontology.org/resources/faq.html

Es gibt viele Möglichkeiten in der SO zu stöbern,


probieren Sie es einfach aus!

Sammeth / GENO 19
https://raw.githubusercontent.com/The-Sequence-Ontology/SO-
Ontologies/master/Ontology_Files/so-simple.obo

• Was sind "Morpholino Oligos"? Welche Relation


haben diese zu "Morpholino Backbone"? Gibt es
noch andere Begriffe mit dieser Relation?
• Welches verwandte Synonym gibt es für
"sequence_variant_affecting_regulatory_region",
und wie heisst der Begriff heute? Was ist der
Unterschied?
• Wie viele Einträge hat die SO? Wie viele davon sind
vom Typ "[Term]"? Und wie viele sind "obsolete"?

Sammeth / GENO 20

Das könnte Ihnen auch gefallen