Sie sind auf Seite 1von 13

Was Wörter bedeuten:

Ontologien
Die Gen Ontologie (GO)

Sammeth / GENO 1
Was ist die Gen Ontologie (GO)?
Die Gen Ontologie (GO) ist ein kontrolliertes
Vokabular, das ein Genprodukt mit einem oder
mehreren Funktionen verbindet.

Die Benennung "Gen Ontologie" ist daher


irreführend.

Die GO kategorisiert eher die Genprodukte (meist


Proteine) als die Gene selbst.

Sammeth / GENO 2
Wie ist die GO aufgebaut?
Das GO Projekt besitzt drei unabhängige Sub-Ontologien:

1. Cellular Component (CC): Wo zeigt das Genprodukt seinen


Effekt?  cell, nucleus, Golgi membrane

2. Molecular Function (MF): Wie funktioniert es auf


molekularer Ebene?  lactase activity, actin binding

3. Biological Process (BP): Welchen Zweck erfüllt das


Genprodukt? Bezieht mehrere, unterschiedliche Schritte ein:
transport, mitotic prophase, cholesterol efflux

Sammeth / GENO 3
Drei Unabhängige Sub-Ontologien
Wo? Wie? Was?

Cellular Component Molecular Function Biological Function

A A A

B C B C
B C

E E
E
D
D F H F
D

G H
G H

Sammeth / GENO 4
Wo kann man die Gen-Ontologie anschauen?

Die Gen-Ontologie Webseite ist die verbindliche


Quelle der Definitionen, die allerdings nicht
besonders gut für biologische Interpretationen
ausgelegt ist: http://geneontology.org

Der Quick GO Service des European


Bioinformatics Institute (EBI) bietet ein
benutzerfreundlicheres Web-Interface:
https://www.ebi.ac.uk/QuickGO/
Sammeth / GENO 5
Wie sehen GO
Assoziationen aus?
- wieder 2 Aspekte:
welche Begriffe und wie
miteinander verbunden?

- wieder hierarchisch (Attribute


vererbt, von oben nach unten)

- ABER diesmal aber KEIN Baum:


gerichteter Graph (aber
azyklisch)
vollständige ID:
GO:0031985
- Suchen mit "GO:...<ID>...",
Blättern, Ergebnisse
untersuchen

Sammeth / GENO 6
Die beiden Bestandteile der GO
(1) Die erste Rolle von GO ist die Definition von Funktionen und ihrer
Assoziationen:

- das ist die eigentliche Ontologie

(2) Die zweite Aufgabe ist, Funktionen mit den beobachteten Genprodukten zu
verknüpfen:

- Diese Verbindungen werden als Assoziations-Dateien bezeichnet.

- Eine Genprodukt ID ist mit einer oder mehreren GO Funktionen verknüpft.

- Jeder Organismus hat seine spezifische Assoziations-Dateien.

Sammeth / GENO 7
Die GO herunterladen (1)
Siehe http://geneontology.org im Menu Downloads > DL overview:

(1) aktuelle Ontologie der GO herunterladen (s. webpage:


Downloads > DL ontology):
http://purl.obolibrary.org/obo/go.obo
wget http://purl.obolibrary.org/obo/go.obo

Ein Tests was verbirgt sich hinter der ID "GO:0005886"?


cat go.obo | grep "id: GO:0005886" –A 5

Sammeth / GENO 8
Die Assoziations-Datei herunterladen (2)
(2) aktuelle Ontologie der GO herunterladen (s. webpage:
Downloads > DL annotations > C.elegans):
http://current.geneontology.org/annotations/sgd.gaf.gz
(nicht so viele Organismen -> Uniprot für Multispezies/unspezifisch)

Benutzen Sie den Befehl gunzip um die Datei zu entpacken.


Das GO Annotation File (GAF) Format:

• Aktuelle Übersicht auf http://geneontology.org/docs/go-annotation-file-gaf-format-2.2/

• Bildet Genprodukte auf GO Begriffe ab.

• Tabellen-form: ..., gene ID (Spalte 2), ..., GO ID (Spalte 5), ...

Sammeth / GENO 9
Zusammenfassung der GO
• Die GO definiert Worte, die zur Beschreibung von Funktionen
benutzt werden.
• Die GO speichert auch das über verschiedene Organismen
gesammelte Wissen.
• Die GO und die Assoziationen verändern sich dauernd.

Die GO Assoziations-Dateien repräsentieren das über Dekaden


akkumulierte Wissen der Biologie!

Damit ist die GO mitunter die essenzielste Komponente für


Biowissenschaften! Trotzdem wissen viele Forscher wenig darüber –
oder gar nicht dass sie existiert.

Sammeth / GENO 10
# GO Daten und Annotationen für Mensch downloaden
wget http://purl.obolibrary.org/obo/go.obo
wget http://geneontology.org/gene-
associations/goa_human.gaf.gz

# Wie groß sind die Dateien?


ls –lh

# Gennamen in Spalte 3, zeige unterschiedliche:


cat goa_human.gaf | cut –f 3 | sort | uniq –c | head -20

# Wie viele verschiedene Gennamen gibt es?


cat goa_human.gaf | cut –f 3 | sort | uniq –c | wc –l

# Welche 10 mensch.Gene haben die meisten Annotationen in GO?


cat goa_human.gaf | cut -f 3 | sort | uniq -c | sort -nr | head
Sammeth / GENO 11
Annotationen verbinden:
(1) SGD Genom Annotation: http://sgd-
archive.yeastgenome.org/curation/chromosomal_feature/SGD_features.tab
-> Erklärung in .../SGD_features.README

(2) GAF für Hefe: http://current.geneontology.org/annotations/sgd.gaf.gz


-> Erklärung in http://geneontology.org/docs/go-annotation-file-gaf-format-
2.2/

(3) GO Datenbank: http://purl.obolibrary.org/obo/go.obo


-> Erklärung in http://owlcollab.github.io/oboformat/doc/obo-syntax.html

1. Finden Sie in SGD_features.tab ein Protein auf Chromosom 2, das bei der Meiose
(engl: "Meiosis") eine Rolle spielt.

2. Benutzen Sie sgd.gaf, um die GO-Schlagwörter für dieses Protein nachzuschlagen.

3. Benutzen Sie schließlich go.obo, um zu sehen welche Terme noch Verbindungen /


Relationen zu anderen GO-Schlagwörtern haben.

Sammeth / GENO 12
Schlüsselkonzepte zur Erinnerung
Für eine typische Analyse brauchen Sie beides.

• Zunächst benötigen Sie Konzepte der Sequenz Ontologie


(SO): "Welche DNA Annotationen beschreiben meine Daten?
Wie sind diese miteinander verbunden?" -> Chromosome, ...,
aber keine Prozesse (Meiosis), keine Proteine, etc.

• Danach brauchen Sie Konzepte der Gen-Ontologie (GO): "Was


macht eine bestimmte Annotation? Wie macht das Element
das? Wo macht es das?"

Ontologien geben den Daten Sinn -> funktionale Analysen


Sammeth / GENO 13

Das könnte Ihnen auch gefallen