Sie sind auf Seite 1von 132

Die Bnde der Reihe Fischer Kompakt gliedern sich in vier Abschnitte.

Der GRUNDRISS gibt eine bndige Gesamtdarstellung des Themas. Die VERTIEFUNGEN geben die Mglichkeit, verschiedene Facetten, die im Grundriss angesprochen werden, genauer kennen zu lernen. Das GLOSSAR erlutert zentrale Begriffe. Die LITERATURHINWEISE geben Empfehlungen fr weitere Lektren. Laufend aktualisierte Hinweise des Autors auf interessante Texte und Links sind im Internet zu fin den unter www.fischer-kompakt.de/molekulare-evolution
S.109

Die Markierungen in der Marginalspalte, zusammen mit Her vorhebungen im Text, verweisen auf einen entsprechenden Abschnitt in den Vertiefungen.

Originalausgabe Verffentlicht im Fischer Taschenbuch Verlag, einem Unternehmen der S. Fischer Verlag GmbH, Frankfurt am Main, Mai 2003 Gestaltungskonzept/Umschlag/Satz: Wolff Kommunikation, Frankfurt am Main Grafiken: von Solodkoff, Neckargemnd Druck und Bindung: Clausen & Bosse, Leck Printed in Germany ISBN 3-596-15365-4

MOLEKULARE EVOLUTION

GRUNDRISS
1. Einige Grundlagen der Vererbung .......................................3
DNA-ein Bote aus der Vergangenheit .......................................3
Die DNA und ihr Code ..............................................................5
Gene und Genom ....................................................................7
Die Protein-Biosynthese .........................................................10
2. Vernderungen einer DNA-Sequenz im Laufe der Zeit .....14
Mutationen in einer DNA-Sequenz .........................................14
Evolution einer DNA-Sequenz.................................................17
Lcken und Ergnzungen in DNA-Sequenzen .......................22
3. Eine kleine Baumschule .......................................................25
AllgemeineTerminologie .........................................................25
Phylogenetische Klassifikation ...............................................28
Die Zahl der Bume ................................................................31
4. Molekulare Phylogenie ........................................................32
Maximum-Parsimonie .............................................................36
Distanzbasierte Methoden ......................................................41
Maximum-Likelihood ...............................................................45
Experimentelle und theoretische Phylogenien.........................48
Der Bootstrap .........................................................................55
5. Gen-Bume in der Phylogenie ............................................56
Gen-Bume in Spezies-Bumen ............................................56
Widersprche zwischen Gen-Bumen und Spezies-Bumen .58
Auswirkungen von Gen-Duplikationen auf Gen-Bume ..........63
Gen-Duplikationen als Motor
der physiologischen Feinabstimmung .....................................64

6. Gen-Bume in Populationen ...............................................66


Rekonstruktion der Populationsgeschichte
anhand von DNA-Sequenzen..................................................68
Die Genealogie einer Stichprobe ............................................70
Wann lebte der jngste Vorfahre
der menschlichen Population? ................................................72
Demographie...........................................................................76
Wo kommen wir her? .............................................................85
7. Die Zukunft.............................................................................87

VERTIEFUNGEN
Molekulare Techniken.................................................................91
Genetische Drift ......................................................................100
Die neutrale Theorie der molekularen Evolution ....................... 101
Die molekulare Uhr ................................................................... 103
Der Coalescent-Prozess ........................................................... 105
Die genetische Variabilitt einer Population ............................ 109
Das Jukes-Cantor-Modell der Sequenzevolution ..................... 110
Wer sind die nchsten Verwandten der Wale? Ein nicht sequenzbasierter Ansatz zur Aufklrung der Phylogenie ......... 112
Fossile DNA - eine Zeitreise in die Vergangenheit .............. 115

ANHANG
Glossar .................................................................................... 122
Literaturhinweise....................................................................... 127

GRUNDRISS

1 EINIGE GRUNDLAGEN DER VERERBUNG


DNA - ein Bote aus der Vergangenheit
Die Menschheit ist nicht nur daran interessiert, ihre Zukunft zu deu ten, sondern auch ihre Herkunft zu rekonstruieren. Zentrale Fragen sind: Wo kommen wir her? Wie ordnen wir uns in die belebte Welt ein? Und wie knnen wir alle Lebewesen in einem einheitlichen Schema gruppieren, das uns hilft die Vielfalt des Lebens auf der Erde und ihre Genese zu verstehen? Carl von Linne (1707-1778) sortierte die Natur und gab den meis ten Tieren und Pflanzen mittels der binren Nomenklatur eine syste matische Zuordnung. Die Dynamik in der Entstehung der Vielfalt blieb jedoch verborgen. Erst ein Jahrhundert spter, auf einem Tref fen der Londoner Linne an Society am 1. Juli 1858, haben Charles Dar win (1809 -1882) und Alfred Rssel Wallace (1823 -1913) ihre Ideen zur Entstehung der Arten vorgetragen. Im Jahr darauf publizierte Darwin sein bahnbrechendes Buch On the Origin of Species. Darwins Theorie basierte entscheidend auf der Weitergabe von vererbbaren Merkmalen. Die zugrunde liegenden Mechanismen waren zu dieser Zeit jedoch noch unklar. Erst 1944 gelang dem amerikanischen Team um Oswald Theodore Avery (1877 - 1955) der eindeutige Nachweis, dass die Desoxyribonukleinsure (desoxyribonucleic acid, abgekrzt DNA) die erblichen Eigenschaften von den Eltern auf die Nachkom men bertrgt. Vererbung beruht also auf einer stofflichen Weitergabe in Form einer Umsetzung von Moleklen. Die DNA besteht aus vier Grund bausteinen, nmlich den Basen Adenin (A), Cytosin (C), Guanin (G) 3

Einige Grundlagen der Vererbung und Thymin (T). Die Molekular-Genetik beschreibt, wie aus der se quentiellen Abfolge dieser vier Grundbausteine der gesamte Bau plan fr einen vollstndigen Organismus entsteht und wie die Wei tergabe der genetischen Information erfolgt. Da die DNA in fast allen Lebewesen als Trger der Erbinformation fungiert, sind die ge fundenen Prinzipien fr die Umsetzung der genetischen Informa tion in den Phnotypen nahezu allgemeingltig. Rasch wurde klar, dass die DNA nicht nur fr die Weitergabe der Eigenschaften von Eltern auf ihre Kinder verantwortlich ist. Sie ist auch ein Dokument der Evolutionsgeschichte, so Emile Zucker kandl und Linus Pauling. Die DNA, die in heute lebenden Organismen zu finden ist, gab in grauer Vorzeit ein Vorfahr an den Nchsten wei ter. Im Laufe dieser Weitergabe wurde die DNA modifiziert. Nicht mehr bentigte Segmentabschnitte gingen verloren, neue Sequenzabschnitte wurden erworben und wieder andere Abschnitte erfuh ren kleine Vernderungen, da der Prozess der Informationsweiterga be nicht fehlerfrei ist. Welche Modifizierungen auch immer eine DNA erfahren hat, die heutigen Organismen zeigen Spuren dieser nderungen in ihrem Genom. Die Forschung zur molekularen Evolu tion versucht diesen Prozess zu rekonstruieren und die Mechanis men herauszuarbeiten, die zu der heutigen Vielfalt der Organismen gefhrt haben. Besonders in den letzten Jahrzehnten wurden vllig neue For schungstechniken entwickelt. Beispiele sind die Klonierung von DNA-Segmenten, die Sequenzierung der DNA und die PolymeraseKettenreaktion (PCR) (Molekulare Techniken). Mit der rasanten Ent wicklung dieser molekularbiologischen Techniken gelang es, ein detailliertes und immer umfassenderes Bild von den der Evolution zugrunde liegenden Mechanismen zu entwickeln. Insbesondere bei der Frage nach einem biologischen System der Organismen erweist sich die Analyse von DNA- und Aminosure sequenzen als eine wertvolle Methode, um sowohl die Verwandt 4

S.91

Die DNA und ihr Code Schaftsverhltnisse zwischen nah verwandten Arten zu studieren, als auch einen Baum zu rekonstruieren, der die Evolutionsgeschichte aller Organismen der Erde darstellt.

Die DNA und ihr Code


Die genetische Zusammensetzung eines Organismus wird im We sentlichen durch die Nukleinsuren bestimmt. Sie enthalten den Bauplan, der die verschiedenen Bauphasen im Organismus steuert und der als Kopie an die nchste Generation weitergegeben wird. Es gibt in den Zellen zwei Arten von Nukleinsuren, die Desoxyribonu kleinsure (DNA) und die Ribonukleinsure (RNA). Nukleinsuren sind Makromolekle. Ihre Grundbausteine sind Nukleotide, die ket tenfrmig miteinander verbunden sind. Jedes Nukleotid ist aus drei Moleklen aufgebaut: einer stickstoffhaltigen, heterozyklischen Ba se (N), einem Zucker (Z) und einer Phosphorsure (P) (Abbildung la). Als Zuckerbaustein dient bei der DNA die Desoxyribose, bei der RNA ist es die Ribose. Als Basenanteile treten die Pyrimidinderivate Thymin (T) und Cytosin (C) (einfache Ringstruktur) und die Purinde rivate Adenin (A) und Guanin (G) (doppelte Ringstruktur) auf (Abbil dung 1b). In der RNA kommt statt Thymin die Base Uracil (U) vor, die chemisch nah verwandt ist mit Thymin. Ein vollstndiges DNA-Molekl besteht aus zwei gegenlufigen Polynukleotid-Strngen (Abbildung 1c). Diese sind ber Wasserstoff brcken-Bindungen zu einem Doppelstrang so verknpft, dass sich immer Thymin beziehungsweise Cytosin des einen Strangs mit Ade nin beziehungsweise Guanin vom anderen Strang paaren (Watson Crick-Basenpaarung). Dabei werden zwischen Adenin und Thymin zwei Wasserstoffbrcken-Bindungen (A=T) ausgebildet, zwischen Guanin und Cytosin sind es drei (G==C). Zustzlich sind diese zwei Polynukleotid-Strnge noch spiralfrmig umeinander gewunden, und es entsteht die charakteristische Gestalt der DNA-Doppelhelix. 5

Einige Grundlagen der Vererbung

Abb.1: Schematischer Aufbau der DNA

In einer Nukleinsure sind mehrere tausend Nukleotide zu einem langen, unverzweigten Strang angeordnet. Die genetischen Infor mationen werden in der unterschiedlichen Abfolge der vier Basen entlang der jeweiligen Sequenz kodiert. Die genetische Information einer DNA-Sequenz wird in der Pro tein-Biosynthese an die Eiweimolekle (Proteine) weitergegeben, die wiederum die spezifischen Merkmale eines Organismus prgen. Die Bausteine der Proteine sind zwanzig verschiedene Aminosuren; am Aufbau der Nukleinsuren hingegen sind nur die vier Basen be teiligt. Zur Kodierung der zwanzig Aminosuren sind daher spezifi sche Codewrter notwendig. Sie geben an, aus welchen Nukleoti den die Aminosuren bestehen. Eine einfache berlegung zeigt, dass mindestens drei Nukleotide (zum Beispiel ACG) notwendig sind, um 6

Gene und Genom alle Aminosuren zu kodieren. Aus vier Nukleotiden knnen nur 16 Kombinationen von Zweiergruppen (zum Beispiel GC), wohl aber 64 Kombinationen von Dreiergruppen (wie CGA) gebildet werden. Je weils drei Nukleotide lassen sich also zu einem Wort aus drei Buch staben oder in der Sprache der Molekularbiologie zu einem Codon oder Triplett zusammenfassen. So stehen gengend Wrter zur Ver fgung, um jede Aminosure durch die Abfolge von drei Nukleotiden zu verschlsseln. Die bersetzung der Tripletts der DNA in Amino suren der mRNA zeigt Abbildung 2. Die meisten Aminosuren werden durch mehrere Tripletts kodiert. So dienen als Codon fr die Aminosure Serin (Ser) die sechs Wrter AGC, AGU, UCU, UCC, UCA oder UCG. Man spricht daher von der Re dundanz des genetisches Codes. Eindeutig kann nmlich nur von der DNA- beziehungsweise RNA-Sequenz auf die Aminosure geschlos sen werden, nicht jedoch umgekehrt von der Aminosure auf die Nukleotid-Sequenz. Lediglich fr Tryptophan (Trp) und Methionin (Met) gibt es allein ein einziges Schlsselwort, nmlich UGG respek tive AUG. Das AUG-Triplett hat weiterhin die Funktion eines so genannten Startcodons, das den Beginn der kodierenden Sequenz anzeigt. Jedes neu synthetisierte Protein beginnt also mit Methio nin. Zu den so genannten Stoppcodons UGA, UAA, und UAG gehren keine Aminosuren. Diese Tripletts beenden die Protein-Biosynthese.

Gene und Genom


Der DNA-Strang enthlt viele tausend Nukleotide. Aber nur einige Abschnitte der DNA tragen die Informationen fr den Bauplan eines Organismus in sich. Diese Abschnitte heien Gene. Sie enthalten die Informationen zur Herstellung von spezifischen Proteinen und sind daher im Wesentlichen fr die Gestalt eines Lebewesens verant wortlich. Fr die Herstellung der Proteine mssen die Gene ihre Ko dierung weitergeben, sie bilden die kodierende DNA. 7

Einige Grundlagen der Vererbung Darber hinaus gibt es in dem DNA-Strang zwischen den kodieren den Bereichen weitere, hufig sehr lange Abschnitte, die keine Infor mationen zur Herstellung von Proteinen tragen. Damit differenziert sich der DNA-Strang in verschiedene Domnen: Gene, die ihre Kodie rung weitergeben, bilden die funktionellen Bereiche der DNA. Die anderen Abschnitte, die keine Kodierung tragen und daher auch keine Kodierung weitergeben, bilden die nicht-kodierende DNA. Letz tere machen bei den Lebewesen, die einen echten Zellkern haben (Eukaryoten), den Groteil des Genoms aus (siehe Abbildung 3). Seit langem bekannt ist die Unterteilung des Genoms in Chromo somen. Im Kern einer menschlichen Krperzelle befinden sich 22 au tosomale Chromosomen (griechisch auto = selbst, soma = Krper). Sie steuern hauptschlich die krpereigenen Prozesse. Die Chromo somen unterscheiden sich in Form und Gre und liegen je zweimal vor. Ein Prchen gleichartiger Chromosomen heit homolog (berein stimmend). Hinzu kommen die Geschlechtschromosomen X und Y. Bei mnnlichen Individuen gibt es ein X- und ein Y-Chromosom, bei weiblichen Individuen zwei X-Chromosomen. Zellen, in denen die Chromosomen doppelt vorliegen, heien diploid (zweifach). Eine diploide Zelle des Menschen enthlt daher immer 46 Chromosomen, zweimal 22 homologe Autosomen und zwei Geschlechtschromoso men, entweder XY bei mnnlichen oder XX bei weiblichen Organis men. In den menschlichen Keimzellen (Spermien und Ei) ist die Anzahl der Chromosomen halbiert, sie enthalten nur je einen auto somalen Chromosomensatz (n=22) und von den Geschlechtschro mosomen entweder das Y- oder das X-Chromosom. In den reifen Ge schlechtszellen befinden sich daher 23 Chromosomen. Im Gegensatz zu den diploiden Krperzellen sind die Keimzellen haploid (einfach). Die molekulare Differenzierung des menschlichen Genoms ist erst in den letzten Jahren aufgeklrt worden. Nach der vollstndigen Be stimmung der Abfolge und Anzahl der Nukleotide wurde mit Er staunen festgestellt, dass ca. 97% der drei Milliarden Basen nicht 8

Gene und Genom

Abb.2: Der genetische Code fr die mRNA. Die Codons sind von innen nach auen zu lesen und geben die Basenabfolge der mRNA-Codons wieder. Auerhalb des Kreises stehen die Aminosuren, die vom Triplett kodiert werden.

kodierende DNA sind. Sich vielfach wiederholende Abschnitte (re petitive DNA) mit bisher unbekannter Funktion machen ca.40% des gesamten Genoms aus. In der Forschung werden sie je nach Lnge als SINE, LINE oder Satelliten-DNA bezeichnet. Lediglich 3% des menschlichen Genoms sind kodierende DNA. Neben den scht 9

Einige Grundlagen der Vererbung zungsweise 30000-40000 Genen sind auch regulatorische Se quenzen und spezielle RNA-Molekle bei der Synthese von Proteinen wichtig. Das eukaryotische Genom enthlt neben den im Zellkern lokali sierten Chromosomen (auch Kern-DNA genannt) zustzliche extra chromosomale DNA, die in den Mitochondrien der Zellen vorkommt. Sie heit mitochondriale DNA (mtDNA). Beim Menschen handelt es sich hierbei um ein kleines, ca. 16000 Basenpaare langes, ringfrmi ges DNA-Molekl. Die mtDNA wird in der Regel maternal vererbt. Nur die Mtter geben das Mitochondrien-Genom an ihre Kinder weiter, die vterliche mtDNA wird nicht vererbt. Im Unterschied zur Kern-DNA ist die Abfolge der kodierenden Abschnitte nahezu lcken los. Der einzige nicht-kodierende Abschnitt ist die Kontroll region (Abbildung 3). Sie steuert die Replikation (originalgetreue Nachbil dung) des ringfrmigen Genoms. Eine weitere Eigenheit der mito chondrialen DNA besteht darin, dass es nach dem derzeitigen Wis sensstand so gut wie keine Rekombination gibt, das heit es findet kein Austausch zwischen verschiedenen DNA-Abschnitten statt. Die se Tatsache macht die mtDNA besonders geeignet fr evolutions biologische Analysen. Pflanzen besitzen noch ein weiteres, extra-chromosomales Ge nom, das in den Plastiden der Zellen vorkommt und daher PlastidenGenom heit. Zu den Plastiden zhlen unter anderem die grnen Chloroplasten, die mageblich fr die Photosynthese verantwortlich sind sowie die rtlich bis gelben Chromoplasten der reifen Frchte und Blten. Das Plastiden-Genom ist ebenfalls ringfrmig geschlos sen und hat eine Lnge von 85000-190000 Basenpaaren.

Die Protein-Biosynthese
Ein Gen trgt die Information zur Bildung eines spezifischen Eiwei molekls (Protein). Diese sind vorwiegend aus Aminosuren aufge 10

Die Protein-Biosynthese

Abb.3: Anteil kodierender und nicht-kodierender DNA im menschlichen Genom

11

Einige Grundlagen der Vererbung baut. Ganz hnlich wie bei der DNA bestimmt die Abfolge der Amino suren in der Proteinsequenz die charakteristischen Eigenschaften dieses Proteins. Da die Gene in der Abfolge ihrer Nukleinsuren die Informationen zum Aufbau der Proteine enthalten, muss es einen Mechanismus geben, der die Abfolge dieser Nukleinsuren eines Gens in eine Abfolge von Aminosuren bersetzt. Dieser Vorgang ist die Protein-Biosynthese, sie verluft in zwei Schritten. Bei den Eukaryoten befindet sich die DNA im Zellkern. Die Eiwei synthese erfolgt aber auerhalb des Zellkerns an den Ribosomen im Cytoplasma. Daher muss in einem ersten Schritt die Information aus dem Kern durch die Kernhlle zu den Ribosomen im Cytoplasma transportiert werden. Diese bertragung bernimmt ein einstrngi ges RNA-Molekl. Da dieses die Botschaft nach auen bertrgt, heit das Molekl messenger-RNA (mRNA oder Boten-RNA). Die mRNA wird im Zellkern an der Kern-DNA gebildet. Die Basenfolge (die genetische Information) der Kern-DNA wird dabei auf das neu gebildete mRNA-Molekl bertragen (kopiert). Dieser erste Schritt der Protein-Biosynthese wird Transkription (Abbildung 4) genannt. Anstelle von Thymin in der DNA wird in die mRNA jedoch die Base Uracil eingebaut. Die mRNA gelangt durch die Kernporen in das Cytoplasma. Jetzt beginnt der zweite Schritt in der bertragung der genetischen Infor mation der Kern-DNA auf die Proteinbildung. Im Cytoplasma heften sich zwei Teile eines Ribosoms an die mRNA an und bilden ein funk tionsfhiges Ribosom. Zugleich binden weitere RNA-Molekle je eine bestimmte, in den Zellen frei existierende Aminosure an sich. Diese RNA-Molekle nennt man transfer-RNA oder tRNA. Sie trans portieren die Aminosuren zum Ribosom, wo sie unter Mitwirkung der mRNA zu einem Polypeptid verknpft werden. Die Reihenfolge, in der die Aminosuren zu einem bestimmten Protein zusammenge setzt werden, wird durch die Abfolge der Codons in der mRNA bestimmt. Dieser zweite Schritt, die bersetzung der in der Basen 12

Die Protein-Biosynthese

Abb.4: Die Teilprozesse der Protein-Biosynthese

abfolge der mRNA gespeicherten genetischen Information in eine Abfolge von Aminosuren in einem Protein, heit Translation. Die Stoppcodons auf der mRNA beenden die Translation. Das Polypeptid und die tRNA verlassen die Ribosomen, die anschlieend in ihre Untereinheiten zerfallen. 13

Vernderungen einer DNA-Sequenz im Laufe der Zeit

2 VERNDERUNGEN EINER DNA-SEQUENZ IM LAUFE DER ZEIT


Mutationen in einer DNA-Sequenz
Die Vererbung der Eigenschaften eines Organismus auf seine Nach kommen beruht auf der Bildung einer genauen Kopie der DNA. Die Natur hat fr diese Replikation der DNA viele Vorkehrungen getrof fen, um den Kopierprozess mglichst fehlerfrei zu gestalten. Den noch kommt es zu Fehlern. Die so genannten Mutationen (Vernde rungen) entstehen sowohl bei der Replikation als auch spontan durch umweltbedingte Faktoren, wie beispielsweise radioaktive Strahlung oder chemische Stoffe in der natrlichen und industriellen Umwelt. Mutationen sind die entscheidende Kraft im Evolutionsgeschehen. Sie sind zum einen verantwortlich fr die genetischen Unterschiede zwischen Individuen. Zum anderen sind Mutationen der Motor fr die Mannigfaltigkeit beziehungsweise Vielgestaltigkeit des Lebens, die dann auf dem Prfstand der Selektion auf ihre Lebensfhigkeit getestet wird. Aus dieser Vielfalt der Mutationen interessieren in der Erforschung der molekularen Evolution nur jene Vernderungen, die sich in den Geschlechtszellen (Keimbahn) manifestieren. Nur diese Mutationen werden an die Nachkommen sich sexuell fortpflanzen der Organismen weitergegeben. Vernderungen, die andere Krper zellen betreffen (somatische Mutationen), werden nicht vererbt und sind daher fr die Rekonstruktion der molekularen Evolutionsge schichte ohne Bedeutung. Mittlerweile sind eine Vielzahl unterschiedlicher Mutationstypen bekannt. So kann in einer DNA-Sequenz ein Nukleotid durch ein an deres ersetzt werden (Punktmutation). Nur wenn die Reparaturme chanismen der Zelle diese nderung nicht erkennen und korrigieren, sprechen wir von einer Substitution. Typische Substitutionen sind 14

Mutationen in einer DNA-Sequenz

Abb.5: Schema der mglichen Nukleotidsubstitutionen

die vielen Einzel- oder Single-Nukleotid-Polymorphismen (abgekrzt SNP), die im Zuge der Sequenzierung des menschlichen Genoms gefunden wurden. Nukleotidsubstitutionen treten als Transitionen und Transversio nen auf. Eine Transition ist ein Basenaustausch zwischen Pyrimidi nen (Cytosin Thymin) oder zwischen Purinen (Adenin Guanin). Bei der Transversion kommt es zu einem Austausch zwischen einer Purin- und einer Pyrimidinbase (Abbildung 5). Fr das Auftreten einer Transversion gibt es prinzipiell zwei Mg lichkeiten, fr eine Transition existiert hingegen nur eine Option. Daher liegt der Schluss nahe, dass Transversionen zweimal hufiger vorkommen als Transitionen. Beim Auszhlen der Unterschiede zwi schen nah verwandten Sequenzen besttigt sich diese einfache An nahme jedoch nicht. Transitionen finden wesentlich hufiger statt als Transversionen. Diese Tatsache muss bei der Analyse von DNASequenzen bercksichtigt werden. 15

Vernderungen einer DNA-Sequenz im Laufe der Zeit Hat der Austausch eines Nukleotids keinen Einfluss auf die kodierte Aminosure (siehe Abbildung 2), handelt es sich um eine synonyme Substitution. Dagegen ndert eine nicht-synonyme Substitution die Aminosure. Synonyme Substitutionen erfolgen meist an den drit ten Codonpositionen, die im Wesentlichen die Redundanz des gene tischen Codes bestimmen. Auerdem gehen im Verlauf der Zeit Stckchen der DNA verloren (Deletion) oder werden hinzugewonnen (Insertion). Die Einheit einer Deletion oder Insertion kann ein einzelnes Nukleotid sein, oder es knnen auch ganze Abschnitte von Nukleotiden sein. Darber hin aus gibt es grorumige Vernderungen des genetischen Materials wie Translokationen und Inversionen, bei denen ganze Chromoso men-Abschnitte verlagert oder verdreht werden. Erstaunlicherweise ist die Natur so flexibel, dass eine solche Umgruppierung von DNAAbschnitten nicht zwangslufig zur Funktionsunfhigkeit des be troffenen Organismus fhren muss. Einer der wichtigsten genetischen Prozesse in der Evolution ist die Duplikation (Verdopplung) von Genen oder ganzer genomischer Abschnitte. Dadurch erhlt der Organismus zwei Kopien desselben Gens. Eine der beiden Kopien kann eine neue Funktion bekommen oder aber seine Funktionsfhigkeit verlieren. Ein klassisches Beispiel sind die wiederholten Genduplikationen in der Superfamilie des Glo bingens, die sowohl den Sauerstofftransport in den Muskeln (Myo globin) als auch im Blut (Hmoglobin) regulieren. Dabei werden die sehr unterschiedlichen Sauerstoff-Bedrfnisse im Embryo respektive im erwachsenen Organismus bercksichtigt. Andere DNA-Abschnit te sind ganz hnlich wie die Globingene aufgebaut, aber sie funktio nieren nicht, weil sie durch Deletionen und Insertionen unter brochen sind. Diese Karikaturen aktiver Gene werden Pseudogene genannt.

16

Evolution einer DNA-Sequenz

Evolution einer DNA-Sequenz


Mutationen verndern die Basenabfolge der DNA-Sequenz. Bei jeder Substitution ndert sich durch den Austausch eines Nukleotids auch die in der DNA gespeicherte Information. Als eine zentrale Annahme gilt in der molekularen Evolutionstheorie, dass diese nderungen ei nem stochastischen, das heit einem Zufallsprozess unterliegen. Zu jedem gegebenen Zeitpunkt ist es mglich, dass eine Substitution erfolgt und ein Nukleotid der Sequenz durch ein anderes ersetzt wird. Prinzipiell sind solche Ersetzungen an jeder Position eines DNA-Stranges mglich. Es gibt allerdings bestimmte, meist konser vative Regionen in der DNA-Sequenz, in denen eine einzige Substitu tion bereits die Funktion des resultierenden Proteins beeintrchtigt. Hierzu zhlt etwa die nderung der Raumstruktur eines Molekls, die mglicherweise eine verringerte Bindungsaffinitt fr bestimm te Gase oder Mineralien bewirkt. Ist eine Mutation nachteiligfr den Trger, wird aufgrund der reduzierten Fitness (weniger oder keine Nachkommen) diese Mutation wieder verloren gehen. Bei neutralen Substitutionen entscheidet der Zufall, ob die neue Mutante in der Population fixiert wird (Die neutrale Theorie der Molekularen Evolu tion, Genetische Drift). Die Auswertung von Aminosure-Sequenzen zeigt, dass verschiedene Proteine unterschiedliche Substitutionsra ten haben, wobei es noch einen deutlichen Unterschied zwischen synonymen und nicht-synonymen Austauschen gibt (Tabelle 1). So zhlen die Histone, die in den Kernen aller Tier- und Pflanzenzellen vorkommen und die dichte Verpackung des Genoms im Zellkern ge whrleisten, zu den hchst konservierten Genen berhaupt. Vom Histon 3 und Histon 4 ist keine nicht-synonyme Substitution be kannt. Die Gene aus der Globinfamilie zeigen geringe (D-Globin, Myoglobin) bis moderate (E-Globin) Austauschraten. Die Substitutionsraten in Tabelle i sind Schtzungen. Es ist nicht mglich, eine DNA-Sequenz ber eine Milliarde Jahre zu beobachten 17

S.101 S.100

Vernderungen einer DNA-Sequenz im Laufe der Zeit

Tabelle 1: Substitutionsraten fr fnf proteinkodierende Gene. Die Rate ist als mitt lere Zahl an Substitutionen pro Position und pro 1 Milliarde Jahre angegebene AS = Aminosure.

und die in dieser Zeit erfolgenden Substitutionen in der Keimbahn mitzuzhlen. Vorteilhaft wre es zwar, wre die Zahl der Substitutio nen in diesem Zeitraum doch ein Ma fr die Evolutionsgeschwin digkeit des Sequenzabschnittes, und die Substitutionsrate liee sich direkt berechnen. Zum Glck stellen Mathematiker Modelle der Se quenzevolution bereit, um die Substitutionsrate zu ermitteln. Fr das Entwickeln eines solchen Modells soll angenommen wer den, dass sowohl die ursprngliche Sequenz als auch die heutige Se quenz und zudem die dazwischenliegende Zeitspanne bekannt sind. Unter der Annahme, dass nur Substitutionen erfolgten, kann dann jeder Position der heutigen Sequenz ihre Position in der ursprng lichen Sequenz zugeordnet werden (Abbildung 6). Unterscheidet sich ein heutiges Nukleotid von dem Nukleotid der ursprnglich en Sequenz, fand mit Sicherheit an dieser Position mindestens ein Austausch statt. Da nur das Endprodukt und das Anfangsprodukt bekannt sind, knnen an dieser Position aber auch zwei, drei, vier und mehr Substitutionen stattgefunden haben. Sind zwei Nukleotide an einer Position gleich, knnen dennoch im Laufe der Zeit zwei, drei, vier und mehr Mutationen eingetreten sein, 18

Evolution einer DNA-Sequenz

Abb.6: Modell fr die Vernderung einer DNA-Sequenz im Laufe der Zeit. Zwischen einer Vorfahr-Sequenz und einer heutigen Sequenz sind acht Generatio nen vergangen. Punkte stehen fr identische Basen, ein Strich (-) markiert eine Deletion, das heit den Verlust eines Nukleotids. Pfeile symbolisieren jeweils eine Substitution (schwarzer Pfeil = Transition, grner Pfeil = Transversion) beziehungs weise Deletion (grauer Pfeil). Die Vernderungen fhren zu unterschiedlichen Ergebnissen, das sind einfache (*) und multiple ($) Substitutionen, Rckmutatio nen () oder Deletionen (-).

eventuell aber auch gar keine. Wird also nur die Zahl der unter schiedlichen Nukleotidpaare registriert, dann wird die Zahl der Sub stitutionen unterschtzt. Die Wahrscheinlichkeit fr diese mehrfa chen (multiplen) Substitutionen hngt von der betrachteten Zeitspanne und von der Substitutionsrate der Sequenz ab. Je weni ger Zeit vergangen ist und je kleiner die Substitutionsrate ist, desto unwahrscheinlicher sind multiple Ereignisse an einer Position. Um aus der beobachteten Zahl an unterschiedlichen Nukleotidpo sitionen zwischen zwei Sequenzen auf die Zahl der tatschlich statt gefundenen Mutationen zu schlieen, sind in den letzten Jahrzehn ten eine Vielzahl von mathematischen Modellen entwickelt worden. Abbildung 7 zeigt fr das Jukes-Cantor-Modell der Sequenzevolution den Zusammenhang zwischen der Anzahl an stattgefundenen und der Anzahl an beobachteten Substitutionen. Die schwarze treppen 19

S.110

Vernderungen einer DNA-Sequenz im Laufe der Zeit frmige Kurve stellt die jeweils bis zu einem bestimmten Zeitpunkt ausgezhlten Substitutionen dar. Die lineare Kurve der tatschlichen Substitutionen (mit weien Symbolen) bercksichtigt die nicht be obachtbaren Parallel- und Rckmutationen. Aus der Kurve der be obachteten Substitutionen muss also auf die Kurve der tatsch lichen Substitutionen geschlossen werden. Es wird also nach einer Funktion, nmlich der Korrekturkurve gesucht, die aus der Anzahl der beobachteten Substitutionen die tatschliche Anzahl an Basenaus tauschen bestimmt. Auch wenn die mathematischen Details von Modell zu Modell variieren, zeigen die Korrekturkurven (siehe Abbildung 7) bei allen Modellen dennoch einen hnlichen Verlauf: Haben erst wenig Substitutionen stattgefunden, gibt es einen linearen Zusammen hang zwischen stattgefundenen und beobachteten Substitutionen. Nimmt die Anzahl der Substitutionen zu, nimmt die Steigung des Graphen ab. Schlielich erreicht die Kurve die so genannte Stti gung. Der Unterschied zwischen einer Ursprungssequenz und ihrem Nachfahren ist dann im Mittel genauso gro wie zwischen zwei zu flligen, nicht miteinander verwandten Sequenzen. Alle Spuren der gemeinsamen Vergangenheit zwischen Ursprungs- und Nachfah ren-Sequenz sind damit ausgelscht. Anders als im mathematischen Modell ist in der molekularen Evo lutionsforschung die ursprngliche Sequenz, das heit die VorfahrSequenz der heutigen Sequenz, unbekannt. Fr die benutzten Sub stitutionsmodelle ist dies auch gar nicht notwendig. Es reicht, zwei heutige DNA-Sequenzen zu kennen, von denen mit Sicherheit fest steht, dass sie auf eine gemeinsame Vorfahrensequenz zurckge hen. Aus einem Vergleich der zwei Sequenzen wird die Anzahl der variablen Positionen (beobachteten Substitutionen) ermittelt. Dann kommen Korrekturkurven wie in Abbildung 7 zur Anwendung. Sie erlauben Rckschlsse ber die Anzahl der tatschlich stattgefunde nen Substitutionen, die zwischen der gemeinsamen Vorfahr 20

Evolution einer DNA-Sequenz

Abb.7: Jukes-Cantor-Modell der Sequenzevolution

21

Vernderungen einer DNA-Sequenz im Laufe der Zeit Sequenz und den heutigen Sequenzen stattgefunden haben. Nicht abschtzen lsst sich die Zeit, in der sich die heutigen Sequenzen aus ihrer gemeinsamen Vorfahr-Sequenz entwickelt haben. Daher kann nicht ohne weiteres eine Substitutionsrate wie in Tabelle i angege ben werden. Ursache dieser Beschrnkung ist die strenge Proportio nalitt d~Pt zwischen der Anzahl d der Substitutionen und dem Produkt aus Sub stitutionsrate P der Sequenz und der evolutionren Zeitspanne t. Um aus der Anzahl der Substitutionen auf die Substitutionsrate zu schlieen, sind Informationen ber den Zeitpunkt erforderlich, an dem sich die beiden heutigen Sequenzen aus einer Vorfahr-Sequenz entwickelt haben. Als Kalibrierungspunkte eignen sich die aus fossi len Befunden gewonnenen Zeitpunkte fr die Aufspaltung der je weiligen Arten. Die vorangegangenen Betrachtungen stellen die Grundprinzipien eines Sequenzmodells der Evolution vor. Beim Vergleich biologischer Daten zeigt sich jedoch, dass Transitionen wesentlich hufiger erfol gen als Transversionen. Diese Beobachtung wird bei weiterfhren den Substitutionsmodellen bedacht. Zustzlich knnen die Modelle bercksichtigen, dass einige Positionen aufgrund funktioneller Zwnge - wie einer bestimmten Raumstruktur des Proteins - lang samer evolvieren als andere.

Lcken und Ergnzungen in DNA-Sequenzen


Bei der Analyse von DNA-Sequenzen stellte sich heraus, dass im Mu tationsgeschehen nicht nur Substitutionen vorkommen. Auch Inser tionen und Deletionen treten selbst in kodierenden Regionen auf. Sie knnen dabei zum Teil eine erhebliche Grenordnung erreichen. In einem Vergleich zweier Sequenzen zeigen sich daher nicht nur Po sitionen mit unterschiedlicher Nukleotidpaarung, sondern die Se 22

Lcken und Ergnzungen in DNA-Sequenzen quenzen haben darber hinaus aufgrund von Insertionen und Dele tionen (kurz Indels) auch verschiedene Lngen. Anhand der Buch stabenabfolgen der DNA-Sequenzen ist nicht zu erkennen, wo und wie viele Indels erfolgt sind. Ein Problem der molekularen Evolution ist die Rekonstruktion dieser Indels, um so sicherzustellen, dass bei der Auszhlung der paarweisen Nukleotidunterschiede auch tat schlich orthologe, das heit ursprungsgleiche Positionen verglichen werden. Die Prozedur, jene Stellen zu lokalisieren, an denen In sertionen respektive Deletionen stattgefunden haben, erhielt den Fachterminus Alignierung. Ergebnis der Prozedur ist das Alignement. Dies erinnert mit seinem lateinischen Wortstamm linea an das Ab stecken einer Linie, in der etwas angeordnet werden soll. Ziel eines Sequenzalignements ist es, die Sequenzen so untereinander zu schreiben, dass sie die gleiche Lnge haben und dabei orthologe Positionen einander zugeordnet werden. Dazu mssen die Indels (die verlorenen oder hinzugewonnenen Stckchen DNA) mit erfasst werden. Hierfr dient das Zeichen -, das als Lcke (gap) eingefgt wird, sozusagen als Platzhalter fr fehlende Nukleotide. Bei einer Beschrnkung auf zwei Sequenzen lsst sich das Problem in einem so genannten dot-plot in Form einer Matrix veranschau lichen (Abbildung 8). Die erste Zeile des dot-plot reprsentiert die Sequenz i aus Abbildung 6, die erste Spalte die Sequenz 2 aus Abbil dung 6. Stimmen die Nukleotide an einem Positionspaar der Se quenzen berein, wird das entsprechende Feld mit einem Punkt (dot) markiert. Stimmen sie nicht berein, bleibt das Feld frei. Dann sucht man durchgehende oder geknickte Diagonalen. Lange Diagonalen deuten auf Regionen, in denen beide Sequenzen sehr hnlich bezie hungsweise identisch sind. Das Ziel der Auswertung solcher dot plots besteht darin, den optimalen (besten) Weg durch diese Matrix zu finden, der mglichst viele identische Nukleotidpaare auf sammelt und so zu durchgehenden Diagonalen fhrt, ohne unntig viele Indels einzubauen, welche die Knicke verursachen. Dazu wer 23

Vernderungen einer DNA-Sequenz im Laufe der Zeit

Abb.8: Evolution der Sequenz aus Abbildung 6 in Form eines dot-plot

den computergesttzte Algorithmen verwendet, die aus der Vielzahl an mglichen Wegen den optimalen bestimmen. Die biologischen Mechanismen fr Insertionen und Deletionen sind noch nicht ausreichend verstanden, daher sind die derzeitigen Methoden der Sequenzalignierung noch sehr heuristisch. In prakti schen evolutionsbiologischen Anwendungen findet meist eine Nach bearbeitung des Ergebnisses durch visuelle Begutachtung statt. Dies ist besonders dann der Fall, wenn mehr als zwei Sequenzen in einem so genannten multiplen Sequenzalignement verglichen oder aneinander ausgerichtet werden. Bei einem paarweisen Alignement zweier Sequenzen gehen Posi tionspaare auf eine gemeinsame Vorfahrposition zurck. Einem multiplen Alignement liegt die Annahme zugrunde, dass jeweils eine Spalte des multiplen Alignements auf eine gemeinsame Vor fahrposition zurckgeht. Paarweise und multiple Sequenzaligne ments sind der Ausgangspunkt fr phylogenetische und popula tionsbiologische Studien. 24

Eine kleine Baumschule

Abb. 9: Ein schematischer Baum mit den wichtigsten anatomischen Begriffen

3 EINE KLEINE BAUMSCHULE


Allgemeine Terminologie
Die in diesem Buch verwendeten Begriffe veranschaulicht Abbildung 9. Mathematiker und Biologen haben sehr unterschiedliche Vorstel lungen von einem Baum. So sprechen die Mathematiker von Kanten und Knoten (abgeleitet aus der Grafentheorie), whrend Biologen ste und Verzweigungen vor Augen haben (ganz wie bei Bumen in der Natur). Im phylogenetischen Kontext ist ein Baum (Dendro gramm) eine mathematische Konstruktion, welche die stammesge schichtlichen Verwandtschaftsverhltnisse (Phylogenie) einer Grup pe von Lebewesen widerspiegelt. Ein Stammbaum besteht aus Knoten (Verzweigungspunkten), die durch Kanten (ste) miteinander verbunden sind. Die ueren Kno 25

Eine kleine Baumschule ten (endstndiges Taxon oder OTU, Abkrzung fr Operational Taxo nomic Unit) reprsentieren Organismen, fr die reale Daten (zum Beispiel DNA-Sequenzen oder morphologische Messwerte) vorlie gen. Innere Knoten symbolisieren hypothetische Vorfahren fr jene Taxa, die sich in einem anschlieenden Speziations- beziehungs weise Aufspaltungsprozess in zwei Tochterlinien geteilt haben. Der Vorfahre aller im Datensatz enthalten DNA-Sequenzen oder Orga nismen ist die Wurzel des Baums. In der phylogenetischen Systema tik wird die Wurzel auch als Stammart bezeichnet. Ein Baum mit einer Wurzel heit gewurzelter Baum. Knoten und Kanten eines Baumes enthalten eine Vielzahl von In formationen. So wird zum Beispiel beim Maximum-Parsimonie-Ver fahren jedem inneren Knoten ein diskreter Merkmalszustand, zum Beispiel eine DNA-Sequenz, zugeordnet. Viele Verfahren berechnen auch die evolutionre Zeit, die zwischen zwei Aufspaltungsereignis sen verstrichen ist, die sich in der Lnge einer Kante (Astlnge) wi derspiegelt. Whrend uere Knoten (endstndige Taxa) mit einer ueren Kante verbunden sind, laufen auf innere Knoten drei oder mehr Kan ten zu. Wenn ein Knoten genau drei Kanten hat, besitzt er einen Vor fahren und zwei Nachfahren. In diesem Fall spricht man von einer dichotomen (zweigeteilten) Verzweigung. Enthlt ein Baum an den inneren Knoten ausschlielich dichotome Verzweigungen, ist er voll stndig aufgelst. Gibt es an einem inneren Knoten mehr als zwei Nachfahren, ist dies eine polytome, das heit vielfache Verzweigung. Polytomien symbolisieren entweder die zeitgleiche Aufspaltung in mehrere Nachfahren oder eine noch nicht geklrte Beziehung zwi schen den untersuchten Organismen. Im zweiten Fall fand die Auf spaltung nicht zwangslufig zum gleichen Zeitpunkt statt, sondern die Abfolge der Ereignisse ist noch unsicher. In der Regel ist es sehr unwahrscheinlich, dass sich mehr als zwei phylogenetische Linien zum exakt gleichen Zeitpunkt aufspalten. Daher kann in den meis 26

Allgemeine Terminologie

Abb.10: Verschiedene Topologien mit der dazugehrigen Kurzschreibweise in Klammernotation

ten Fllen davon ausgegangen werden, dass es zwar eine dichotome Baumstruktur gibt, die herangezogenen Merkmale aber die zeitliche Abfolge der Aufspaltung nicht auflsen knnen. Es gibt zahlreiche Mglichkeiten der Baumdarstellung (Abbildung 10). Nicht immer unterscheiden sich die Bume in ihrer Topologie, das heit in ihrem Verzweigungsmuster. Manchmal sind es lediglich verschiedene grafische Darstellungen, da sich die Kanten eines Bau mes um jeden inneren Knoten beliebig drehen lassen, ohne dass sich die relativen Beziehungen zwischen denTaxa ndern. Phylogenetische Bume knnen computerfreundlich in Klammer notation dargestellt werden (Abbildung 10). Jeder innere Knoten (jeder clade) ist durch ein Klammerpaar reprsentiert, das alle Nach kommen dieses Knotens einschliet. Alle Nachkommen eines inne ren Knotens bezeichnet man manchmal auch als Cluster. So stehen in den drei linken Bumen in Abbildung 10 die Klammern (D,E) und (A,B,C) fr die oberen Knoten und die Klammer ((D,E) (A,B,C)) fr die Wurzel. Mit dieser einfachen Schreibweise lsst sich die Topologie je des Baumes darstellen. Was hier noch fehlt, sind Informationen ber die Kantenlngen und damit ber die evolutionren Zeiten. Compu 27

Eine kleine Baumschule terprogramme, die phylogenetische Bume berechnen, speichern neben der Topologie auch die Lnge jeder Kante. Fr die Darstellung unterschiedlicher evolutionrer Fragestellun gen gibt es auch unterschiedliche Bume. Die einfachste Form ist das Cladogramm, das lediglich die relativen Beziehungen der Taxa zueinander darstellt. Die Kantenlnge ist hierbei ohne jede Bedeu tung. Ein Phylogramm enthlt zustzliche Informationen ber die Lnge der Kanten, zum Beispiel die Anzahl an Substitutionen. Solche Bume werden auch als additive oder metrische Bume bezeichnet. Im Dendrogramm sind die ueren Knoten alle gleich weit von der Wurzel entfernt. Ein Dendrogramm ist also ein Spezialfall des Phylo gramms. Dendrogramme werden benutzt, um unter Verwendung der molekularen Uhr die Evolutionszeiten der einzelnen Organismen darzustellen. Im gewurzelten Baum wird ein Knoten als Wurzel deklariert (siehe Abbildung 9), der hypothetische Vorfahre aller untersuchten Lebe wesen. Ein gewurzelter Baum hat folglich eine Lesrichtung, die pa rallel zur evolutionren Zeit verluft. Somit gibt es eine eindeutige Beziehung zwischen lteren Vorfahren (deren Knoten nher an der Wurzel stehen) und jngeren Nachkommen (deren Knoten weiter von der Wurzel entfernt sind).

S.103

Phylogenetische Klassifikation
Bezglich der Abstammung einzelner Organismen oder Taxa gibt es drei Szenarien, die in Abbildung 11 durch grne Linien gekennzeich net sind. Eine monophyletische Gruppe (griechisch monophylos = aus einem Stamme) (Abbildung 11a) ist von einem gemeinsamen Vorfahren ab leitbar und enthlt smtliche Nachkommen der Stammart. Ein Bei spiel hierfr sind Mensch und Schimpanse, die als Schwesterarten oder nchste Verwandten bezeichnet werden. Weitere Monophyla 28

Phylogenetische Klassifikation sind etwa die Gruppe der Sugetiere, die Gruppe der Wirbeltiere oder die Gruppe der Vgel. Eine paraphyletische Gruppe (griechisch para = abweichend) (Ab bildung 11b) umfasst nicht alle Nachkommen einer Stammart. Ein Beispiel sind die Reptilien. Traditionell schlieen sie nur die Schild krten, Eidechsen und Krokodile ein. Dagegen gehren die Vgel nicht zu den Reptilien, obwohl sie die nchsten Verwandten der Kro kodile sind (Archosaurier). Eine polyphyletische Gruppe (Abbildung nc) umfasst Arten oder Taxa, die nicht direkt verwandt sind, sondern aus zwei oder mehr Ent wicklungslinien stammen. Aufgrund von Konvergenz in bestimm ten, meist morphologischen Merkmalen, wurden sie in eine Gruppe zusammengefasst. So bilden etwa die Geier der Alten Welt und der Neuen Welt eine polyphyletische Gruppe. Die jeweilige Schwester gruppe sind die Strche beziehungsweise die Greifvgel. Die Geier der Alten und Neuen Welt sind sich aber darin hnlich, dass sie Aas fresser sind, einen typischen Hakenschnabel haben und ihr Kopfge fieder reduziert ist. Ungewurzelte Bume haben keine Zeitachse, so dass die Vorfah ren-Nachkommen-Beziehungen nicht geklrt sind. Zur Berechnung der Bume erzeugen viele Computerprogramme nur ungewurzelte Bume. Ein Ausweg ist die Einbeziehung einer Auengruppe. Ein Beispiel hierfr ist der ungewurzelte Baum fr Mensch, Schim panse, Gorilla und Orang-Utan in Abbildung 12. Er hat fnf Kanten (i bis 5). Soll hieraus ein gewurzelter Baum entstehen, kann die Wur zel an jede der fnf Kanten platziert werden. Vier der fnf Wurzelun gen sind aber biologisch sinnlos, da Mensch, Schimpanse und Gorilla im Verhltnis zum Orang-Utan eine monophyletische Gruppe sind, die sich aus einer gemeinsamen Stammart entwickelt haben. Wenn also bekannt ist, dass eine Gruppe von Organismen monophyletisch ist, so kann, durch Hinzufgen einer weiteren Art, die nicht diesem Monophylum angehrt, der Baum gewurzelt werden. Diese Art wird 29

Eine kleine Baumschule

Abb.11: Mgliche Schwestergruppen-Beziehungen in einem Baum

30

Die Zahl der Bume

Abb.12: Gewurzelte und ungewurzelte Bume. Aus einem ungewurzelten Vier Sequenzen-Baum lassen sich fnf gewurzelte Bume ableiten. Die Anzahl gewur zelter Bume resultiert aus der Zahl der Kanten (1-5). M = Mensch, S = Schimpan se, G = Gorilla, O = Orang-Utan.

als Auengruppe bezeichnet. Der Orang-Utan ist daher die Auen gruppe fr Mensch, Schimpanse und Gorilla.

Die Zahl der Bume


Die Rekonstruktion eines phylogenetischen Baumes ist ein immen ses Problem, weil allein schon die Anzahl der mglichen Verzwei gungsmuster mit der Anzahl der untersuchten Organismen expo 31

Eine kleine Baumschule nentiell wchst. Interessieren nur zwei Sequenzen, zum Beispiel von Mensch und Schimpanse, so gibt es lediglich einen einzigen Baum (Abbildung 13, Mitte oben). Wird als dritte Sequenz der Gorilla einbe zogen (schwarzer Pfeil in Abbildung 13), gibt es - unter der Annahme, dass keine Information ber die Lage der Wurzel vorliegt - auch nur einen Baum. Sobald als vierte Sequenz der Orang-Utan hinzukommt, entstehen jedoch drei mgliche Bume (grne Pfeile in Abbildung^). Die Topologie der drei ungewurzelten Vier-Spezies-Bume hngt da von ab, an welche Kante diese Sequenz eingefgt wird. Fr eine fnfte Sequenz, etwa die des Gibbon, stehen dann drei Bume mit jeweils fnf Kanten zur Verfgung. (In Abbildung 13 sind nur die fnf Bume fr die untere Gruppe eingezeichnet.) Somit knnen fr fnf Sequenzen insgesamt 15 verschiedene Fnf-Spezies-Bume (mit sie ben Kanten) erzeugt werden. Fr eine sechste Sequenz stehen dann 15 Bume mit je sieben Kanten zur Verfgung, so dass insgesamt 105 Sechs-Spezies-Bume erzeugt werden knnen. Fr zehn Sequenzen gibt es bereits 2 027 025 verschiedene Verzweigungsmglichkeiten. Fr 22 Sequenzen stehen 3,2-io23 Bume zur Auswahl und jeder muss als mgliche Hypothese ber die Verwandtschaftsverhltnisse ge prft werden. Allgemein berechnet sich die Zahl der Bume fr n3 Sequenzen aus der Formel B(n) = 1 3 5 ... (2n5).

4 MOLEKULARE PHYLOGENIE
Die Evolution einer DNA-Sequenz als Trger der Erbinformation und als Bote dieser Information in die nchste Generation erfordert El tern und Nachkommen dieser Eltern. Durch den lckenlosen Fortbe stand einer Ahnenreihe, auch Linie genannt, knnen die jeweiligen Gene beziehungsweise DNA-Sequenzen weiterleben und ihre Ge 32

Molekulare Phylogenie

Abb.13: Genese von ungewurzelten Bumen am Beispiel der Primaten (M = Mensch, S = Schimpanse, G = Gorilla, O = Orang-Utan und B = Gibbon). Fr zwei Sequenzen (M, S) gibt es nur eine Topologie, den Zwei-Sequenzen-Baum. Auch drei Sequenzen (M, S, G) lassen sich nur in einem einzigen Baum darstellen. Vier Sequenzen ergeben drei mgliche Topologien, nmlich (M,S)(G,O), (M,O)(G,S) und (O,S)(M,G) mit jeweils fnf Kanten. Wird eine fnfte Sequenz (B) einbezogen, kann diese an jeder Kante eingefgt werden, so dass es insgesamt 15 mgliche Topolo gien gibt.

33

Molekulare Phylogenie schichte an nachfolgende Generationen weitergeben. Hat ein Indivi duum keine Nachfahren, stirbt dessen Linie aus und mit ihr gehen alle in der DNA enthaltenen Informationen verloren. Ausgehend von einer heutigen Sequenz lassen sich daher kontinuierliche Ahnenrei hen rckwrts in der Zeit konstruieren, von einer Generation zur vor herigen. Die heutigen DNA-Sequenzen sind jeweils das Produkt ihrer indivi duellen Ahnenreihe (Fossile DNA). So unterschiedlich Lebewesen auch sind, letztlich gehen sie auf einen gemeinsamen Ursprung zu rck. Daher werden DNA-Sequenzen verschiedener Individuen fr her oder spter auf eine gemeinsame Vorfahr-Sequenz treffen. Man sagt auch, bei einer rckwrtigen Verfolgung in die Vergangenheit verschmelzen die Linien, was im Englischen durch den Begriff Coales cent ausgedrckt wird. Diese sehr abstrakt und vage anmutende Be hauptung findet eine formale Rechtfertigung in der Populationsge netik (Coalescent-Prozess). Rezente DNA-Linien verschmelzen beim Marsch in die Vergan genheit, bis nur noch eine DNA-Linie vorhanden ist. Das ist der jngste gemeinsame Vorfahre aller Linien, der most recent common ancestor, kurz MRCA. In Abbildung 14 ist die Phylogenie von sechs heutigen RNA-Sequenzen Si bis S6 dargestellt. Dabei stehen Si fr die Sequenz des Menschen, S2 fr die Bckerhefe, S3 fr die Nackt samer-Pflanze Gnetum, S4 fr ein Halobakterium, S5 fr eine Blaual ge und S6 fr das Bakterium Escherichia coli. Begibt man sich in dem Baum dieser sechs Taxa entgegen der Zeitachse, trifft man in der Ver gangenheit (ganz links) auf den MRCA der dargestellten sechs Sequenzen. Der Prozess kann auch von der Vergangenheit in die Gegenwart betrachtet werden: Ausgehend von einem einzigen Vorfahren, dem MRCA, spalten sich die Linien im Laufe der Zeit in dessen Nachkom men auf. Dieser Vorgang wird als Divergenz bezeichnet. Im phyloge netischen Kontext heit dies, dass sich die Nachkommen einer 34

S.115

S.105

Molekulare Phylogenie

Abb.14: Divergenz und Coalescent als komplementre Prozesse in einem Sequenz baum. Der Baum (links) zeigt die geschichtliche Verwandtschaft zwischen den Sequenzen: Die grnen Kreise stehen fr hypothetische Vorfahr-Sequenzen. Die weien Kreise reprsentieren Vorfahr-Sequenzen, die keine heutigen Nachfahren haben. Die sechs Sequenzen (rechts) mit einer Lnge von 24 Basenpaaren (Zahlen ber dem Alignement) sind ein Ausschnitt eines viel lngeren Alignements mit 2335 Basenpaaren je Sequenz. Schwarz dargestellte Nukleotide weichen von dem hufigsten Nukleotid an der entsprechenden Position ab. * zeigt nicht-variable Spalten an.

gemeinsamen Stammart durch unterschiedlich verlaufende, zur Art bildung fhrende Entwicklung voneinander unterscheiden. Mit der Zeit werden Substitutionen, Insertionen und Deletionen die ursprngliche Sequenz graduell verndern. Diese nderungen werden ber die Ahnenreihe an die rezenten Sequenzen weiterge geben. In einem multiplen Sequenzalignement sind sie als variable Spalten sichtbar, in Abbildung 14 sind dies zum Beispiel die Spalten 1 bis 7, 9,14,15 und weitere. 35

Molekulare Phylogenie

Abb.15a: Beispiel fr vier Sequenzen mit je 11 Nukleotiden.

S.112

Die Aufgabe der molekularen Phylogenie ist es, anhand des multi plen Alignements die nicht beobachtbare Evolutionsgeschichte der Sequenzen zu rekonstruieren. Einen auf Sequenzen basierenden Baum nennen wir hier Sequenz-Baum oder Gen-Baum, auch wenn ihm keine kodierenden Sequenzen zugrunde liegen (siehe im Gegen satz dazu Ein nicht sequenzbasierter Ansatz zur Aufklrung der Phy logenie). Um unter den mglichen Bumen einen geeigneten Baum zu ermitteln, ist die Definition eines Qualittskriteriums notwendig. Die Mathematiker sprechen von einer Zielfunktion. Sie gibt fr jeden der mglichen Bume an, wie gut er das Kriterium erfllt. Die Auf gabe besteht nun darin, ein Rechenschema zur Auswertung der Ziel funktion anzugeben und dann den besten Baum zu finden. Aus der Vielzahl mglicher Zielfunktionen werden drei populre Kriterien und die dazugehrigen Methoden vorgestellt.

Maximum-Parsimonie
Unter dem Gesichtspunkt einer maximalen Sparsamkeit whlt man den Baum als besten aus, der die Variabilitt in einem Alignement mit der minimalen Anzahl an Substitutionen erklrt. Nach dem 36

Maximum-Parsimonie

Abb.15b: Die drei Mglichkeiten fr ungewurzelte Vier-Sequenzen-Bume. c-e: Parsimonische Interpretation fr die Spalten 2, 11 und 6. Grne Kanten zeigen Substitutionen an.

37

Molekulare Phylogenie lateinischen parsimonia fr Sparsarnkeit heit dieses Kriterium Maxi mum-Parsimonie-Kriterium. Maximum-Parsimonie wurde schon frh zur Baumrekonstruktion vorgeschlagen. Inzwischen gibt es zahlreiche Modifikationen des Grundalgorithmus, die aber alle mit dem Problem des Beweises der Minimalitt des gefundenen Ergebnisses kmpfen. Als philosophi sche Rechtfertigung fr das Prinzip der Sparsamkeit wird oft der mittelalterliche Scholastiker William of Ockham (1290-1349) heran gezogen. Seiner Auffassung nach ist eine Hypothese die beste, wenn sie nur so wenig Annahmen wie mglich macht. Das (evolutionre) Parsimonie-Prinzip geht also davon aus, dass die Evolution von einer Ursequenz mit mglichst wenig Nukleotidaustauschen zu einer heutigen Sequenz stattfand. Ob dies eine realistische Annahme ber den Verlauf der Evolution ist, bleibt gerade fr DNA - oder Aminosu re-Sequenzen eine unbeantwortete Frage. Mchte man sich nicht auf ideologische Vorstellungen berufen, so gengt als Begrndung fr das Sparsamkeitsprinzip die biologische Beobachtung, dass Sub stitutionen im Aligemeinen sehr seltene Ereignisse sind und es unwahrscheinlich ist, dass die gleiche Position mehrfach mutiert. Wie lsst sich die Anzahl an Substitutionen berechnen? Vereinfa chend wird zunchst vorausgesetzt, dass alle Positionen im Aligne ment unabhngig voneinander evolvieren. Die Gesamtzahl an Sub stitutionen eines Baumes ist somit die Summe der Basenaustausche pro Position. Die Berechnung der Substitutionen wird zur besseren bersichtlichkeit vorerst fr nur vier Sequenzen erklrt (Abbildung 15a), fr die es drei ungewurzelte Bume gibt (Abbildung 165b). Spalte 1 und Spalte 10 sind nicht variabel, dem Parsimonie-Prinzip folgend sind diese Positionen nicht mutiert. In Spalte 2 weicht die Sequenz 1 (G) von den drei anderen Sequenzen (C) ab. Das Maximum Parsimonie-Prinzip erfordert immer die kleinste Anzahl von Substi tutionen. Unabhngig von der Wahl des Baumes (Abbildung 15c) gibt es nur eine Substitution (grn dargestellte Kante), wenn man an den 38

Maximum-Parsimonie

Abb.16: Das Prinzip des Neighbor-Joining fr die sechs Sequenzen Si - S6 aus


Abb.13.
a) Die sternfrmige Phylogenie als Ausgangspunkt, V ist die hypothetische Vor fahr-Sequenz
b) Gruppierungvon S5 und S6 (A als hypothetischer Vorfahr)
c) Gruppierung von A und S4 ( als hypothetischer Vorfahr)
d) Gruppierung von Si und S2 (C als hypothetischer Vorfahr)

39

Molekulare Phylogenie inneren Knoten ein C annimmt. Bei dem Maximum-Parsimonie-Prin zip sind solche Spalten phylogenetisch nicht informativ, denn sie knnen aufgrund der gleichen Anzahl an Substitutionen keinen Baum als den sparsamsten bestimmen. Die gleiche Situation trifft fr die Spalten 3,4 und 5 zu. Setzt man an die inneren Knoten ein T (Spalte 3) beziehungsweise A (Spalten 4 und 5), ist wiederum nur jeweils ein Basenaustausch erforderlich, um das Sequenzmuster in dieser Spalte zu erklren. Auch hier hat die Baumtopologie keinen Einfluss auf die Anzahl an Substitutionen. In Spalte 11 erfordert das Sparsamkeitsprinzip fr die zwei inneren Knoten jeweils ein T (Ab bildung i5d). Dann werden fr jeden der drei Bume zwei Substitu tionen (zwei grn dargestellte Kanten) bentigt. Daher ist auch die se Spalte phylogenetisch nicht informativ. Interessant werden erst die Spalten 6,7,8 und 9. Je nach gewhlter Baumtopologie erfordern diese unterschiedlich viele Substitutionen. Diese Spalten sind somit phylogenetisch informativ. Abbildung 15c zeigt beispielhaft die Situation fr Spalte 6. Man erkennt: Baum 1 be ntigt eine Substitution, Baum 2 und Baum 3 brauchen jeweils zwei Substitutionen. Die Gesamtzahl an Substitutionen fr das komplette Alignement mit seinen 11 Spalten in Abbildung 15a berechnet sich wie folgt: Baum 1: 0+1+1+1+1+1+1+2+2+0+2 = 11 Substitutionen Baum 2: 0+1+1+1+1+2+2+2+1+0+2 = 13 Substitutionen Baum 3: 0+1+1+1+1+2+2+1+2+O+2 = 13 Substitutionen Damit ist fr das vorliegende Alignement Baum 1 der sparsamste oder der Maximum-Parsimonie-Baum. Nach diesem einfachen Beispiel mit nur vier Sequenzen soll der Maximum-Parsimonie-Baum fr die sechs Sequenzen in Abbildung 14 ermittelt werden. Hierfr muss die Anzahl der Substitutionen fr alle 105 mglichen Gen-Bume berechnet werden. Dies ist nur mit Computerprogrammen mglich. Werden diese Bume nach dem 40

Distanzbasierte Methoden Maximum-Parsimonie-Kriterium bewertet, so zeigt sich, dass die kleinste Anzahl an Substitutionen 25 ist. Davon gibt es aber fnf Bume. Es lsst sich nun keine weitere Aussage darber treffen, wel cher dieser fnf Bume die wahre Phylogenie widerspiegelt. An ders ist das Ergebnis, wenn von den sechs Sequenzen alle 2335 Basenpaare (in der Abbildung nicht gezeigt) in die Rechnung einbe zogen werden. Dann gibt es nur einen einzigen Maximum-Parsimo nie-Baum. Dies zeigt, dass sich die Beziehungen zwischen den Sequenzen nur verlsslich rekonstruieren lassen, wenn es viele Se quenzinformationen (lange Sequenzen mit Tausenden von Basenpaaren) gibt. Da mit der Anzahl der Sequenzen die Anzahl der Bume exponen tiell wchst, ist ein systematisches Evaluieren aller Mglichkeiten fr nur zehn Sequenzen (2027025 Bume) selbst mit sehr schnellen Computern und vertretbarem Zeitaufwand kaum noch mglich. Um dennoch sparsame Bume fr mglichst viele Sequenzen zu rekon struieren, werden so genannte heuristische Suchverfahren einge setzt. Dabei wird mit einem beliebigen Startbaum begonnen und die Anzahl an Substitutionen berechnet. Anschlieend wird die To pologie des Startbaumes zufllig gendert und die Anzahl der Sub stitutionen fr den neuen Baum bestimmt. Ist die Zahl kleiner, wird das Verfahren mit dem neuen Baum wiederholt. Ist die Zahl grer, wird auf den ursprnglichen Baum zurckgegriffen und dieser er neut gendert. Der krzeste gefundene Baum wird als ParsimonieBaum bezeichnet. Mit diesem Verfahren, von dem es viele Varianten gibt, lassen sich auch fr viele hundert Sequenzen ParsimonieBume bestimmen.

Distanzbasierte Methoden
Bei zwei weiteren Kriterien finden die von Joseph Louise Lagrange (1736-1813) und Carl Friedrich Gau (1777-1855) entwickelten Me 41

Molekulare Phylogenie thoden der mathematischen Ausgleichsrechnung fr Nherungs werte Eingang in die Welt der molekularen Evolution. Im Mittel punkt stehen dabei das Gau'sche Prinzip der kleinsten Quadrate und das von Ronald A. Fisher (1890-1962) explizit eingefhrte Maxi mum-Likelihood-Prinzip. Auf dem Prinzip der kleinsten Quadrate beruhen Distanzverfahren. Fr die Rekonstruktion eines Gen-Baumes aus einem Alignement ermitteln diese Verfahren die evolutionre Distanz (d) der Sequen zen in einem Baum und die berechnete Distanz (e) zweier Sequen zen. Fr jeden Baum bildet man von den Differenzen dieser Distan zen die Quadrate, summiert diese und fragt nach dem Baum mit der kleinsten Summe fr diese Quadrate. Der optimale Baum hat die kleinste Summe. In mathematischer Schreibweise nehmen diese berlegungen die folgende Form an: Distanzbasierte Methoden berechnen die Distanz dij (Jukes-Cantor-Modell) fr alle Sequenzpaare {i,j} eines Aligne ments. Das Ergebnis ist eine Distanzmatrix (Tabelle 2). Aus dieser Ma trix wird ein Baum rekonstruiert, der die Anzahl der Substitutionen, das heit die Distanz zwischen allen Sequenzpaaren, wiedergibt. Was bedeutet die Distanz zwischen allen Sequenzpaaren wieder geben? In einem Baum gibt es stets einen eindeutigen Weg oder Pfad, der zwei endstndige Taxa, vertreten durch die Sequenzen i und j, miteinander verbindet. Auf diesem Weg hat jede Kante eine bestimmte Lnge, beispielsweise die Anzahl an Substitutionen. Die Summe der Substitutionen, die evolutionre Distanz eij eines Se quenzpaares {i,j}, sollte im Idealfall gleich der berechneten Distanz dij dieses Sequenzpaars sein. Ein Baum ist dann optimal, wenn die evolutionre Distanz aller Se quenzpaare nur geringfgig von den Eintrgen in der Distanzmatrix abweicht. Da die berechnete Distanz dij immer nur eine Annherung an die unbekannte evolutionre Distanz eij ist, wird der Betrag der Abweichung dy-ey fast immer grer Null sein. Eine Mglichkeit, die 42

S.110

Distanzbasierte Methoden

Tabelle 2: Distanzmatrix fr die Sequenzen Si bis S6 aus Abbildung 13. Der untere Teil der Matrix zeigt die Anzahl der beobachteten Unterschiede fr den in Abbil dung 13 dargestellten Sequenzausschnitt von 24 Basenpaaren, der obere Teil die Anzahl der Unterschiede fr das gesamte Alignement mit 2335 Positionen.

Abweichung der evolutionren Distanzen fr einen Baum T von der Distanzmatrix zu quantifizieren, ist das Kriterium der kleinsten Qua drate R(T) mit

Der optimale Baum hat den kleinstmglichen Wert R. Fr drei Sequenzen gibt es nur einen Baum mit drei Kanten. Aus den Distanzen d12, d13, d23 (grne Linien) lassen sich die optimalen Kantenlngen k1, k2, k3 (schwarze Linien) des Baumes wie folgt be rechnen: k1 = 1/2 (d12 + d13 d23) k2 = 1/2 (d12 + d23 d13) k3 = 1/2 (d13 + d23 d12) 43

Molekulare Phylogenie Setzt man die evolutionren Distanzen e12 = k1 + k2, e13 = k1 + k3 und e23 = k2 + k3, so wird R(T) = 0. Fr vier oder mehr Sequenzen ist R(T) im Allgemeinen grer Null. Die Berechnung von R(T) fr einen Baum T ist mit Methoden der mathematischen Optimierung relativ einfach. Es ist jedoch unmglich, alle Bume zu evaluieren und den Baum mit minimaler quadratischer Abweichung zu finden. Daher werden wie bei Maximum-Parsimonie auch bei den distanzbasierten Methoden Nherungsverfahren angewendet. Das bekannteste solcher approximativer Verfahren ist das Neigh bor-Joining, was sich als Zusammenfgen der nchsten Nachbarn bersetzen lsst. Neighbor-Joining ist ein Clusterungs- oder Grup pierungsverfahren: hnliche Paare von Sequenzen werden zu einer Gruppe (einem Cluster) zusammengefasst und anschlieend wie ein Taxon behandelt. Als Qualittskriterium dient die Gesamtlnge L(T) des Baumes T. Das ist die Summe aller Kantenlngen, die mit dem Prinzip der kleinsten Quadrate geschtzt wurden. Ziel ist es, ei nen Baum mit mglichst kleiner Gesamtlnge L(T) zu finden. Dieses Qualittskriterium wird Minimale Evolution genannt. Im Folgenden wird das Neighbor-Joining auf das Beispiel der sechs Sequenzen in Abbildung 15 angewandt, wobei alle 2335 Basenpaare in die Rechnung einbezogen werden. Ausgangspunkt fr das Neigh bor-Joining ist ein sternfrmiger Gen-Baum (Abbildung 16a). Die sechs Sequenzen Si bis S6 stammen von derselben Vorfahr-Sequenz V ab. Basierend auf der Distanzmatrix (Tabelle 2) wird anschlieend am Computer die Lnge aller Bume berechnet, in denen zwei Sequen zen einen von V verschiedenen Vorfahren haben. Aus diesen Bumen wird der krzeste Baum ausgewhlt. In dem Beispiel in Abbildung i6b ergibt die Computerrechnung fr die Gruppierung der Sequenzen S5 und S6 den krzesten Baum. Die Sequenzen S5 und S6 sind nun Nachbarn. Ihr hypothetischer Vorfahr wird A genannt. In der weiteren Computeranalyse wird das Cluster S5 und S6 durch A 44

Maximum-Likelihood ersetzt. Der Datensatz fr die weiteren Rechnungen verringert sich damit um eine Sequenz. Mit den verbleibenden fnf Sequenzen S1, S2, S3, S4, A beginnt die Prozedur von neuem. Es wird wiederum zuerst das Cluster aus zwei Sequenzen gesucht, das den krzesten Baum ergibt. Fr die fnf Sequenzen wird der krzeste Baum bei der Gruppierung der Sequenzen A und S4 gefunden. Deren hypothetischer Vorfahr wird B genannt (Abbildung 16c). Damit reduziert sich der Datensatz auf vier Eintrge, nmlich S1, S2, S3, B. Im folgenden Schritt werden die Sequenzen Si und S2 gruppiert und durch C ersetzt (Abbildung i6d). Der Baum ist damit vollstndig aufgelst und das Neighbor-Joining-Verfahren beendet. Neighbor-Joining ist ein schnelles Verfahren zur Baumrekonstruk tion. Es ist mglich, bis zu 300 Sequenzen in einen Neighbor-JoiningBaum umzurechnen. Es lsst sich aber nicht berprfen, ob der gefundene Baum der optimale Baum ist. Simulationsstudien zeigen, dass Neighbor-Joining mit groer Wahrscheinlichkeit den richtigen Baum rekonstruiert.

Maximum-Likelihood
Maximum-Likelihood-Methoden versuchen, unter den mglichen Bumen und einem Modell der Sequenzevolution den Baum zu bestimmender mit hchster Wahrscheinlichkeit zu den beobachte ten Sequenzen fhrt. Dieser Baum wird der Maximum-LikelihoodBaum genannt. Fr das zugrunde liegende Prinzip wird zunchst auf das einfache Alignement aus vier Sequenzen in Abbildung 15a und Baum 1 (Abbil dung 15b) zurckgegriffen. Jede der elf Spalten wird zuerst einzeln betrachtet. Spalte 1 hat das Muster AAAA. Theoretisch kann an den inneren Knoten des Baumes 1 jeweils eines der vier Nukleotide A,C,G,T ste 45

Molekulare Phylogenie hen. Welche Kombination von Nukleotiden ist die wahrscheinlichs te? Zunchst wird ein Modell der Sequenzevolution ausgewhlt, etwa das Jukes-Cantor-Modell. In diesem Modell ist die Wahrschein lichkeit P, dass ein Nukleotid x unverndert erscheint Pxx(d) = (1/4) + (3/4) e
-4d/3

S.110

wobei d die Zahl der Substitutionen ist. Die Wahrscheinlichkeit fr das Auftreten verschiedener Nukleotide x und y ist PXy(d) = (1/4) (1/4) e
-4d/3

Damit kann fr Spalte 1 die Wahrscheinlichkeit (P1) fr das Muster AAAA berechnet werden, wenn beide inneren Knoten jeweils das Nukleotid A tragen und der Baum i mit den Kantenlngen (Substi tutionen) k1, k2, k3, k4 und k5 bekannt ist. Mathematisch heit dies P1(AAAA|AA) = (1/4) {PAA(k1) PAA(k2) PAA(k5) PAA(k3) PAA(k4)} . Da die Nukleotide x beziehungsweise y an den inneren Knoten nicht bekannt sind, berechnet sich die gesamte Wahrscheinlichkeit fr das Muster AAAA in Spalte 1 als P1 = P1(AAAA) = (1/4) P1 (AAAA|xy)}.

Mit den verbleibenden Spalten wird genauso verfahren. Fr das gesamte Alignement (A) mit seinen elf Spalten ist die totale Wahr scheinlichkeit Ptot ber den Baum 1 (T1) und seinen fnf Kanten das Produkt aus den Wahrscheinlichkeiten fr jede einzelne Spalte. Es gilt also Ptot (A|T1, k1, k2, k3, k4, k5) = P1 P2 P3 P4 ... P11. In der Realitt sind aber weder der Baum noch seine Kantenlngen bekannt. Einzig die Sequenzen liegen als Endprodukt der Evolution vor. Daher wird die letzte Gleichung als Wahrscheinlichkeits- oder Likelihood-Funktion mit den Parametern Baumtopologie und Kan 46

Maximum-Likelihood tenlnge bezeichnet. Sie ermittelt fr jede Kombination von Para metern die Cesamtwahrscheinlichkeit. Gesucht ist nun die Parame terkombination, bei der die Likelihood-Funktion maximal wird. Der in Abbildung 14 dargestellte Baum (links) ist der Maximum Likelihood-Baum fr sechs Sequenzen, wenn das gesamte Aligne mentvon 2335 Basenpaaren zugrunde gelegt wird. Werden hingegen nur die 24 dargestellten Spalten analysiert, ist der aus dieser kleinen Anzahl resultierende Baum biologisch unsinnig. Schon dieses kleine Beispiel mit sechs Sequenzen macht deutlich, welche Herausforde rung die Maximum-Likelihood-Methode darstellt. Dank schneller Computer und der Entwicklung intelligenter Suchstrategien knnen derzeit Maximum-Likelihood-Bume fr bis zu fnfzig Sequenzen berechnet werden. Fr eine realistische Anwendung ist dies aber noch zu wenig. Der erhhte Aufwand der Maximum-Likelihood-Methoden ist aber gerechtfertigt, da nun erstmals das methodische Inventar der Statistik fr die weitere Analyse zur Verfgung steht. Der Vergleich der Maximum-Likelihood-Werte fr verschiedene Modelle der Se quenzevolution erlaubt eine gesicherte Aussage darber, welches Modell das bessere ist. Vereinfacht gilt: Je grer der Likelihood-Wert ist, desto wahrscheinlicher spiegelt das gewhlte Modell fr einen bestimmten Baum die Evolution der Sequenzen wider. Darber hin aus liefern Maximum-Likelihood-Methoden wichtige Informationen ber die evolutionren Parameter der Sequenzen. Sie geben zum Bei spiel Antworten darauf, welche Spalten im Alignement schnell und welche langsam evolvieren oder wie gro das Transitions-Transver sions-Verhltnis ist. Es wird also nicht nur ein Gen-Baum rekonstru iert, sondern zustzlich ein Evolutionsmodell fr das Alignement vorgeschlagen.

47

Molekulare Phylogenie

Experimentelle und theoretische Phylogenien


Es wurden drei Verfahren zur Baumrekonstruktion vorgestellt, um aus einem Sequenzalignement einen Baum zu rekonstruieren. Die ungeklrte Frage ist jedoch, ob der rekonstruierte Baum mit der tat schlichen Phylogenie der Sequenzen bereinstimmt. Wie in jeder naturwissenschaftlichen Disziplin gibt es zwei potentielle Fehler quellen: Der erste Fehler ist der zufllige Fehler (random error), der auftritt, weil nur ein endliches Alignement zur Verfgung steht. Die ser Fehler kann durch die Vergrerung der Stichprobe (lngere Sequenzen) minimiert werden. Der zufllige Fehler wurde am Bei spiel der sechs Sequenzen in Abbildung 14 bereits demonstriert. Nur aus hinreichend langen Sequenzen lassen sich biologisch sinnvolle Bume rekonstruieren. Der zweite Fehler ist der systematische Feh ler (systematic error). Er tritt dann auf, wenn beispielsweise das gewhlte Modell der Sequenzevolution nicht mit den Daten ber einstimmt. Unabhngig von der Art des Fehlers kann ein rekonstru ierter Gen-Baum falsch sein, weil die Verzweigungsstruktur (Topolo gie) nicht stimmt oder die Kantenlngen falsch geschtzt wurden. Solche Fehler sind in der Regel nicht aufzudecken, da das Evolu tionsgeschehen und somit das Entstehen eines Gen-Baumes nicht beobachtet wird. Eine Ausnahme ist die Sequenzevolution im Rea genzglas. Im Labor lassen sich zum Beispiel Viren ber mehrere tau send Generationen kultivieren. Durch Zugabe von Mutagenen, die knstlich die Mutationsrate erhhen, werden experimentelle Phylo genien erzeugt. Forscher erstellten mit acht Taxa die in Abbildung 17 gezeigte Phy logenie. Um den Baum zu wurzeln, wurde ein weiteres Taxon als Au engruppe hinzugezogen (in Abbildung 17 nicht gezeigt). Fr die neun Sequenzen gibt es 135135 Bume. Die Wahrscheinlichkeit, aus diesen Tausenden von Bumen die wahre Phylogenie zu erraten, ist verschwindend gering. Bei der computergesttzten Rekonstruk 48

Experimentelle und theoretische Phylogenien

Abb.17: Experimentelle Phylogenie des Bakteriophagen T7. Acht Taxa (1-8) des Bak teriophagen T7 wurden im Labor gezchtet. Die Mutationsraten wurden knstlich erhht. Die Wurzel des Baumes W reprsentiert den Wildtyp, von dem die Experi mente ausgehen. Die Kantenlngen sind proportional zur Anzahl der Substitutio nen (Zahlen an den Kanten). Um den Baum zu wurzeln, wurde in die Rechnung eine Auengruppe hinzugezogen, die aber nicht dargestellt ist.

tion der Phylogenie ermittelten zwar alle Verfahren die richtige To pologie, aber keine Methode bestimmte die richtigen Kantenlngen. Dies zeigt, dass auch bei realen, biologischen Daten die Kantenln gen mglicherweise einem gewissen Fehler unterworfen sind. Da das Erstellen experimenteller Phylogenien sehr aufwndig ist, wird die Verlsslichkeit der Baumrekonstruktionsverfahren auch an hand theoretischer Phylogenien berprft. Dabei wird ein GenBaum vorgegeben, fr den dann die Sequenzevolution auf dem Com puter simuliert wird. Das Ergebnis dieser knstlichen Evolution ist ein simuliertes Sequenzalignement, das anschlieend mit verschie 49

Molekulare Phylogenie denen Methoden der Baumrekonstruktion untersucht wird. Somit lassen sich unterschiedliche Evolutionsszenarien fr verschiedene Baumrekonstruktionsverfahren evaluieren. Hierbei treten Unter schiede in der Verlsslichkeit der einzelnen Methoden fr die Baum rekonstruktion zutage. Mit der Untersuchung theoretischer Phylogenien gelang dem ame rikanischen Wissenschaftler Joe Felsenstein eine sehr bedeutende Entdeckung. Sie heit heute nach ihrem Entdecker die Felsenstein zone. Diese Zone kennzeichnet den Bereich, in dem Methoden zur Baumrekonstruktion einen systematischen Fehler aufweisen, wobei die Ausdehnung und Lage der Zone von der jeweiligen Methode abhngen. Abbildung 18c zeigt eine solche Felsensteinzone fr das Maximum-Parsimonie-Prinzip. Wie kommt die dort dargestellte Zone zustande und welche Aussage macht sie? Dem Computer werden folgende Informationen vorgegeben (Ab bildung i8a): eine theoretische Phylogenie mit den vier Taxa 1 bis 4 und eine Kombination von zwei Kantenlngen (k1 und k2). Die innere Kante des Baumes sowie die Kanten zu den Sequenzen 2 und 4 sind dabei gleich lang (k1), ebenso die Kantenlngen der Sequenzen 1 und 3 (k2). Fr die zwei Kantenlngen k1 und k2 wird ein k1-k2-Diagramm erstellt. Dann wird am Computer die Sequenzevolution simuliert, wobei jede Kombination der Kantenlngen (k1, k2) erlaubt ist. Um den zufl ligen Fehler der Baumrekonstruktion klein zu halten, sind die simu lierten Sequenzen mglichst lang. Anschlieend wird aus diesem Alignement der Maximum-Parsimonie-Baum berechnet (zum Bei spiel Abbildung 18b) und mit der theoretischen Phylogenie (Abbil dungi8a) verglichen.Sind die Bume verschieden,wird im Diagramm fr das zugehrige k1-k2-Wertepaar ein grner Punkt eingetragen. Stimmen sie berein, wird kein Punkt eingetragen. Die Simulationen werden Tausende Male wiederholt. Die Menge aller grnen Punkte im k1-k2-Diagramm ergibt die Felsensteinzone. 50

Experimentelle und theoretische Phylogenien

Abb.18: Die Felsensteinzone a) Eine theoretische Phylogenie mit vier Taxa (1-4) und zwei unterschiedlichen Kantenlngen (k1 und k2) b) Rekonstruierter Maximum-Parsimonie-Baum, basierend auf einem simulierten Sequenzalignement. c) Der Parameterraum der Kantenlngen k1 und k2. Die grn schattierte Region ist die Felsensteinzone, in der ein falscher Baum rekonstruiert wird.

Diese Zone kennzeichnet die Region im theoretischen Raum aller Kantenlngen eines Baumes, in der Maximum-Parsimonie einen sys tematischen Fehler aufweist. Ist k2 deutlich grer als k1, so wird der in Abbildung i8b dargestellte Baum rekonstruiert werden. Das heit, Sequenzen mit hoher Substitutionsrate werden zu einem Cluster zusammengefasst. Dieses Phnomen wird als Anziehungskraft zwischen langen Kanten (long-branch-attraction) bezeichnet. Felsensteinzonen, also systematische Fehler, gibt es bei jeder Methode zur Baumrekonstruktion. Fr distanzbasierte Rekonstruk 51

Molekulare Phylogenie tionsverfahren ist bekannt, dass sie bei mangelnder Korrektur fr multiple Substitutionen fehlerhaft werden. Es bleibt eine spannende Frage der molekularen Evolutionstheorie, die Felsensteinzone auch fr andere Methoden zu charakterisieren. Auch in biologischen Daten gibt es aufgrund der Anziehungskraft zwischen langen Kanten Hinweise auf falsch rekonstruierte Bu me. Ein gut untersuchtes Beispiel ist der Stammbaum der Sugetiere (Sau), Vgel (V), Krokodile (Kr) und Eidechsen (Ei). Morphologische Befunde liefern eindeutige Hinweise, dass Vgel und Krokodile eine monophyletische Gruppe bilden, die Archosaurier (grn hinterlegt in Tabelle 3) hingegen werden im Maximum-Parsimonie-Baum der 18S rRNA-Sequenzen Vgel mit den Sugetieren in eine Schwestergrup pe eingeteilt. In Tabelle 3 sind in der linken Spalte und der obersten Zeile die drei mglichen Phylogenien fr die vier Arten vorgegeben, wobei die Kantenlngen kt und k2 in allen Bumen gleich bleiben. Die klassi sche Phylogenie ((V,Kr) (Su,Ei)) ist grn unterlegt. Fr jeden der drei theoretisch mglichen Bume (linke Spalte) werden Tausende von Sequenzalignements simuliert und mit der Maximum-Parsimo nie-Methode die Baumtopologie rekonstruiert (oberste Zeile). In den fett markierten Kstchen stimmen die theoretische und rekonstru ierte Topologie berein. Die erste vorgegebene (theoretische) Topologie ((Kr,Ei) (V,Su)) wird zu 100% von den simulierten Daten rekonstruiert, daher wer den die anderen zwei Topologien ((V,Ei) (Su,Kr)) und ((V,Kr) (Su, Ei)) niemals gefunden. Die zweite vorgegebene Topologie wird mit Maximum-Parsimonie nur in 15% der Flle richtig rekonstruiert, whrend in 80% der Flle der Baum rekonstruiert wird, bei dem die zwei langen Kanten (V und Su) zusammenlaufen. Die dritte vorge gebene Topologie (die klassische Phylogenie) wird sogar nur in 7,5 von hundert Fllen gefunden, die (V,Su)-Topologie macht 85% aller Flle aus. 52

Experimentelle und theoretische Phylogenien

Abb.19: Gen-Bume in Spezies-Bumen. Die Entwicklung eines Gen-Baums (grn) findet innerhalb eines Spezies-Baums (schwarz) statt.

Unabhngig von der vorgegebenen (theoretischen) Phylogenie re konstruiert Maximum-Parsimonie mit hoher Wahrscheinlichkeit den Baum ((Krokodile, Eidechsen) (Vgel, Sugetiere)). Eine mgliche Er klrung fr diese Diskrepanz liefert die Felsensteinzone. Der Maxi mum-Parsimonie-Baum, basierend auf 18S rRNA-Sequenzen, hat zwei lange Kanten (Tabelle 3). Eine Kante fhrt zu den Vgeln, die zweite zu den Sugetieren. Krokodile und Eidechsen befinden sich an kurzen Kanten und sind nur durch eine kurze, innere Kante von 53

Molekulare Phylogenie

Tabelle 3: Drei mgliche Stammbume fr Vgel (V), Sugetiere (Su), Eidechsen (Ei) und Krokodile (Kr). Die linke Spalte zeigt die vorgegebenen, theoretischen Phylogenien. Die oberste Zeile zeigt die mit Maximum-Parsimonie rekonstruierten Topologien, basierend auf simulierten Sequenzalignements. Die Prozentzahlen geben an, wie oft die vor gegebene Baumtopologie im simulierten Alignement gefunden wurde. Grn unterlegt ist die klassische Phylogenie. Die Kantenlngen sind proportional zur Zahl der Substitutionen und basieren auf 18S rRNA-Sequenzen.

Sugetieren und Vgeln getrennt (siehe Abbildung 18). So sehen typischerweise Bume aus, deren Topologie durch long-branch attraction geprgt wurde. Mit Maximum-Parsimonie-Methoden rutscht die Baumrekonstruktion in die Felsensteinzone, das heit die langen Kanten werden als Cluster erkannt, sie ziehen sich an. Die ver wandtschaftlichen Beziehungen zwischen den vier Gruppen lassen sich daher anhand der vorliegenden Daten nicht klren. 54

Der Bootstrap Welche Auswege gibt es aus der Felsensteinzone? Zum einen ist es hilfreich, weitere Arten in die Analyse aufzunehmen, um die langen Kanten aufzubrechen. Zum anderen sollten zustzliche Bereiche des Genoms sequenziert werden. Dieses Beispiel zeigt, dass Einzelergeb nisse durchaus fehlerhaft sein knnen und nicht jede am Computer berechnete Phylogenie zwangslufig die wahre Evolution wider spiegelt. Daher ist es auch bei molekularen Merkmalen wichtig, mehrere Gene oder Sequenzen zu analysieren und die Ergebnisse mit den Befunden aus der Morphologie oder Verhaltensbiologie ab zugleichen.

Der Bootstrap
Die phylogenetische Analyse des Datensatzes aus Abbildung 14 hat gezeigt, dass die Stichprobengre, also die Lnge eines Sequenz alignements, wesentlich fr die verlssliche Rekonstruktion eines Gen-Baumes ist. Die Frage stellt sich, wie gut der rekonstruierte Baum die Verwandtschaftsverhltnisse wiedergibt. Wenn die Se quenzen lang genug sind, sollte im Prinzip der wahre Baum rekon struiert werden. Was kann getan werden, um den stochastischen Fehler aufgrund der Stichprobengre in einer Phylogenie abzu schtzen? Eine Mglichkeit besteht darin, mehrere Stichproben aus der Gruppe, an deren Phylogenie man interessiert ist, zu analysieren und die resultierenden Gen-Bume zu vergleichen. Die Variation in der Kollektion der Bume liefert dann Informationen darber, wie stabil beispielsweise eine bestimmte phylogenetische Gruppierung (Cluster) ist. Da die Bearbeitung vieler Stichproben in der Regel sehr teuer und zeitaufwndig ist, werden heute so genannte BootstrapVerfahren aus der Statistik angewendet, um den Stichprobenfehler abzuschtzen. Beim Bootstrap wird eine zufllige Stichprobe durch wiederholtes Ziehen mit Zurcklegen aus den bereits erhobenen Daten generiert. Dabei entstehen zahlreiche knstliche Stichproben, 55

Molekulare Phylogenie die Pseudoreplikate genannt werden. In der phylogenetischen Ana lyse werden aus einem multiplen Sequenzalignement (zum Beispiel Abbildung 7 und Abbildung 14) zufllig Spalten ausgewhlt, die beim nachfolgenden Ziehen einer weiteren Spalte erneut zur Verfgung stehen. Diese Prozedur wird so lange wiederholt, bis die ursprngli che Lnge des Alignements erreicht ist. Fr dieses Pseudoreplikat wird dann ein Gen-Baum ermittelt. Typischerweise werden auf diese Weise 1000 bis 10000 Gen-Bume bestimmt. Kommt ein Cluster in allen Gen-Bumen vor, so sagt man, die Gruppierung hat einen Bootstrap-Wert von 100%; das heit der Stichprobenfehler ist anschei nend so klein, dass die rekonstruierte Gruppierung die wahre Phylo genie der entsprechenden Taxa widerspiegelt. Cluster, die einen geringeren Bootstrap-Wert haben, typischerweise < 90%, werden durch die Daten nicht sehr stark gesttzt und bedrfen einer weite ren Analyse durch zustzliche Sequenzen. Liegt der Bootstrap-Wert eines Clusters unter 50%, so kann es zu widersprchlichen Ver wandtschaftsbeziehungen im Baum kommen. Solche Gruppierun gen sind dann in einem Gen-Baum mit uerster Vorsicht zu inter pretieren.

5 GEN-BUME IN DER PHYLOGENIE


Gen-Bume in Spezies-Bumen
In einem biologischen Stammbaum soll die Aufspaltung von Arten (lateinisch spezies) nachgezeichnet werden. Die Artbildung wird in der Biologie als Phylogenese bezeichnet. Phylogenese ist die wie derholte Aufspaltung von Populationen durch irreversible geneti sche Divergenz und der daraus resultierende Prozess der Entstehung von Organismengruppen unterschiedlichen Verwandtschaftsgra des. Stammbume werden daher auch Spezies-Bume genannt. Ein Spezies-Baum zeigt somit die zeitliche Abfolge der Aufspaltungs

Gen-Bume in Spezies-Bumen

Abb.20: Widersprchliche Sugetier-Phylogenien: a) klassischer Spezies-Baum, b) Gen-Baum basierend auf komplett sequenzierten Mitochondriengenomen.

ereignisse zwischen verschiedenen Populationen oder Arten. Im Ge gensatz dazu zeichnet ein Gen-Baum nur die Historie eines Gens oder eines DNA-Abschnitts nach. Dabei wird in der Fortpflanzungs gemeinschaft die Weitergabe des Sequenzabschnitts von einem Individuum auf das nchste rekonstruiert. Der Gen-Baum entwickelt sich gewissermaen im Spezies-Baum (Abbildung 19) und sollte im Idealfall die Abfolge der Aufspaltungs ereignisse fr verschiedene Arten wiedergeben. In den letzten Jahrzehnten wurden zahlreiche Gen-Bume erstellt. Die Analyse einzelner Gen-Bume fhrte mitunter zu sehr berra schenden Ergebnissen, die nicht immer mit den klassischen SpeziesBumen bereinstimmen. Ein prominentes Beispiel sind die ver wandtschaftlichen Beziehungen zwischen den Sugetieren. Dazu zhlen die Kloakentiere (Schnabeltier und Schnabeligel), die Beutel tiere und die hheren Sugetiere mit echter Plazenta (Eutheria). Die klassische Phylogenie nimmt an, dass die Beuteltiere die nchsten Verwandten der hheren Sugetiere sind; die Kloakentiere htten sich demzufolge vorher abgespaltet (Abbildung 20a). Anhand der 57

Gen-Bume in der Phylogenie vollstndig sequenzierten, mitochondrialen DNA wurde ein alterna tiver Gen-Baum vorgeschlagen (Abbildung 20b). Der Gen-Baum zeigt, dass Beuteltiere und Kloakentiere eine Schwestergruppe bilden. Ent gegen der klassischen Lehre wren demzufolge die Beuteltiere nicht nher mit den hheren Sugetieren verwandt. Noch mehr Verwirrung erzeugten die unterschiedlichen Mglich keiten fr einen Gen-Baum von Mensch, Schimpanse und Gorilla (Abbildung 21). Die Analyse von 45 unabhngigen Genen ergab drei Gen-Bume und damit drei Mglichkeiten fr Schwestergruppen. Im Ergebnis von 27 Genanalysen (60%) gehren Mensch und Schim panse zweifelsfrei einer Schwestergruppe an (Abbildung 21a). Die alternativen Schwestergruppierungen Schimpanse und Gorilla re spektive Mensch und Gorilla werden nur von jeweils neun Gen-Bu men (20%) untersttzt, die aber ebenfalls hohe Bootstrap-Werte erhalten. Wie lassen sich diese unterschiedlichen Ergebnisse fr die drei Gen-Bume von Mensch, Schimpanse und Gorilla erklren?

Widersprche zwischen Gen-Bumen und Spezies-Bumen


Abbildung 22 zeigt in grner Farbe die drei mglichen Gen-Bume, die in dem Spezies-Baum ((Mensch, Schimpanse) Gorilla) vorkom men knnen. Fr jeden Drei-Spezies-Baum sind zwei Aufspaltungs oder Artbildungsprozesse notwendig. In dem hier vorgestellten Bei spiel gehen Palontologen davon aus, dass sich der Gorilla in einem 1. Artbildungsprozess vor ca. 7-8 Millionen Jahren von der gemein samen Stammart (Mensch-Schimpanse-Gorilla) abspaltete. Der 2. Aufspaltungsprozess fand vor ca. 5-6 Millionen Jahren statt. Das bedeutet, dass die Zeit zwischen dem ersten und zweiten Aufspal tungsereignis nur sehr kurz war und die gemeinsame Stammart von Mensch und Schimpanse nur schtzungsweise 1-3 Millionen Jahre existierte. 58

Widersprche zwischen Gen-Bumen und Spezies-Bumen

Abb.2i: Die drei Gen-Bume von Mensch, Schimpanse und Gorilla.


Die Zahlen geben an, wie oft das jeweilige Verzweigungsmuster untersttzt wird.

Werden nun die drei Gen-Bume betrachtet, ergibt sich folgendes Bild: Im ersten Szenario (Abbildung 22a) verschmelzen die Sequen zen von Mensch und Schimpanse bei einer rckwrtigen Betrach tung in die Vergangenheit zeitgleich mit dem 2. Aufspaltungsereig nis. Die gemeinsame Linie von Mensch und Schimpanse existierte in ihrer Stammart M-S so lange, bis sie mit der Gorilla-Linie zum Zeit punkt des i. Aufspaltungsereignisses verschmolz. Zum Zeitpunkt U existierten sowohl im Spezies-Baum als auch im Gen-Baum nur zwei Arten beziehungsweise Linien, die eine in der Stammart von Mensch und Schimpanse (M-S) und die zweite im Gorilla. In dieser Situation stimmen die Topologien von Gen-Baum und Spezies-Baum berein. Die Stammart von Mensch und Schimpanse (M-S) existierte aber nur kurze Zeit. Es kann vorkommen, dass die Sequenzen beider Arten nicht verschmelzen. Diese Mglichkeit ist in den Bildern b und c dar gestellt. Zum Zeitpunkt t1 existierten formal bereits zwei Spezies, 59

Gen-Bume in der Phylogenie nmlich die Stammart Mensch und Schimpanse (M-S) und der Gorilla. Im Gen-Baum sind aber noch alle drei Linien vorhanden. In einer solchen Situation entscheidet allein der Zufall, welches SequenzPaar zuerst verschmilzt und somit die Schwestergruppen definiert. Es knnen zuerst die Linien von Schimpanse und Gorilla verschmel zen, aber ebenso knnen die Linien von Mensch und Gorilla zuerst verschmelzen. In beiden Fllen weicht der Gen-Baum vom SpeziesBaum ab. Der Zeitpunkt der Verschmelzung von Linien, das Coalescent-Ereig nis, ist fr jedes Gen unterschiedlich und kann weit in der Vergan genheit liegen. Die Stammart von Mensch und Schimpanse (M-S) kann eine oder zwei Linien enthalten, whrend in der Stammart von Mensch, Schimpanse und Gorilla (M-S-G) entweder eine, zwei oder noch alle drei Linien vorhanden sein knnen. In der Fachsprache wird hierfr der Begriff lineage sorting (Sortie rung der Linien) verwendet. Ist die Anzahl der Linien zu jedem Zeit punkt identisch mit der Anzahl der Arten (wie in Abbildung 22a), gibt es keine Diskrepanz zwischen dem Gen-Baum und dem SpeziesBaum. Man sagt, dass die Linien aussortiert sind. Ist im Gegensatz dazu, wie in Abbildung 22b und c, die Anzahl der Linien an einem bestimmten Zeitpunkt grer als die Anzahl an Arten, ist die Sortie rung der Linien noch nicht abgeschlossen. Man sagt, dass das Line age Sorting unvollstndig ist. Zum Zeitpunkt t, existieren jeweils drei Linien, aber nur zwei Arten, nmlich die Stammart MenschSchimpanse (M-S) und der Gorilla.
Abb.22: Der Spezies-Baum fr Mensch, Schimpanse und Gorilla (schwarz) mit den drei mglichen Gen-Bumen (grn). Gezeigt sind das Alter der zwei Aufspal tungsereignisse (gestrichelte Linie) in Millionen Jahren, die gemeinsame Stamm art (M-S) von Mensch und Schimpanse zum Zeitpunkt t1 sowie die gemeinsame Stammart (M-S-G) von Mensch, Schimpanse und Gorilla. a) Der Gen-Baum von Mensch (M), Schimpanse (S) und Gorilla (G) ist identisch zum Spezies-Baum, b) und c) Die Gen-Bume sind verschieden vom Spezies-Baum und kommen mit gleicher Wahrscheinlichkeit vor (siehe Abb. 21).

60

Widersprche zwischen Gen-Bumen und Spezies-Bumen

61

Gen-Bume in der Phylogenie

Abb.23: Einfluss einer Gen-Duplikation auf den Gen-Baum von Mensch und Schimpanse. Die Verdopplung des Gens o erzeugt zwei Kopien, das Gen a und das Gen b. Bei spterer Speziation enthalten Mensch und Schimpanse je ein Set der Gene a und b. Der Spezies-Baum von Mensch und Schimpanse enthlt zwei GenBume, einen vom Gen a (grau) und einen zweiten vom Gen b (grn).

Dieses kleine Beispiel mit drei Arten zeigt bereits, dass es zu einem Spezies-Baum mehr als einen Gen-Baum geben kann. Anders ausge drckt bedeutet dies, dass es in der Molekularen Evolution keine Ein-Spezies-Baum-Ein-Gen-Baum-Beziehung gibt. Widersprche sind im Besonderen dann zu erwarten, wenn die Aufspaltungsereig nisse zwischen zwei oder mehreren Arten in relativ kurzer Zeit ablie fen. Prinzipiell gilt, dass bei der Rekonstruktion von Gen-Bumen mehrere unabhngige Gene oder DNA-Sequenzen analysiert wer den sollten. Dies ist dann besonders wichtig, wenn es Unstimmig keiten zwischen der klassischen Phylogenie und den molekularen Befunden gibt. 62

Auswirkungen von Gen-Duplikationen auf Gen-Bumen

Auswirkungen von Gen-Duplikationen auf Gen-Bume


Ist im Verlauf der Evolution ein Gen verdoppelt (dupliziert) worden, kann dies ebenfalls zu einer Diskrepanz zwischen Gen-Baum und Spezies-Baum fhren. Das grundstzliche Phnomen wird in Abbil dung 23 veranschaulicht, in der wieder das Beispiel Mensch-Schim panse herangezogen wird. In der gemeinsamen Stammart von Mensch und Schimpanse (M-S) wird das vorhandene Gen 0 dupliziert, es entstehen zwei Kopien (Gen a und Gen b). Diese knnen im Verlaufe der Evolution in ganz unterschiedlichen Regionen des Genoms fixiert werden und sich zustzlich in ihrer Funktion deutlich voneinander unterscheiden. Spaltet sich die Stammart M-S in Mensch und Schimpanse, so erhlt jede Art jeweils ein Set der verdoppelten Gene. Im Menschen nen nen wir sie aM und bM, im Schimpansen aS und bS. In dem resultie renden Spezies-Baum von Mensch und Schimpanse gibt es zwei Gen-Bume, einen fr das Gen a (grau) und einen zweiten fr das Gen b (grn). Zur Unterscheidung der relativen Beziehungen zwischen den ori ginalen und kopierten Genen werden in der molekularen Evolutions biologie die Fachausdrcke homolog, ortholog und paralog verwen det. Homologe Sequenzen hneln sich in ihrem Aufbau und ihrer Struktur (griechisch homos = gleichartig, entsprechend). Obwohl seit der Duplikation des Vorfahr-Gens 0 viel Zeit vergangen ist, lassen sich noch Gemeinsamkeiten zwischen den vier Genen UM, as, bM und Verkennen. Orthologe Sequenzen haben den gleichen Ursprung (griechisch orthos = richtig). Die Gene aM und aS gehen auf das gemeinsame Vor fahren-Gen a zurck, die Gene bM und bS auf das Vorfahren-Gen b. Dementsprechend sind die Gen-Prchen (aM, aS) und (bM, bS) ortho 63

Gen-Bume in der Phylogenie log zueinander. Wird der Gen-Baum anhand orthologer Sequenzen re konstruiert, ist er in diesem Beispiel mit dem Spezies-Baum identisch. Paraloge Sequenzen haben keinen gemeinsamen Ursprung (grie chisch para = abweichend). In Abbildung 23 gilt dies fr die Kombi nation der Gene aM und bS sowie fr die der Gene bM und aS . Wenn die untersuchten Gene bekannt sind, mag es trivial erscheinen, para loge Sequenzen zu erkennen. In der Forschung ist die Funktion der untersuchten Gene oft nicht bekannt, und dann knnen die hnlich keiten ihrer Sequenzen dazu fhren, dass flschlicherweise ein gemeinsamer Ursprung angenommen wird. Bleibt die Paralogie unerkannt, kann der rekonstruierte Gen-Baum vom Spezies-Baum abweichen. Ein Ausweg besteht darin, nur solche Gene zu analysieren, die in einfacher Kopie vorliegen (single-copy Gene). Soll zum Beispiel unter sucht werden, ob ein menschliches Gen in einfacher oder mehrfa cher Kopie vorliegt, kann in der Datenbank des kompletten mensch lichen Genoms nach homologen Sequenzen gesucht werden. Findet sich im gesamten Genom keine hnliche Sequenz, so liegt das Gen wahrscheinlich in einfacher Kopie vor. Die Situation verkompliziert sich, wenn Gene nach ihrer Duplikation wieder verloren gehen (Dele tionen). Es besteht dann kaum eine Chance, dass die Orthologie be ziehungsweise Paralogie von Sequenzen erkannt wird.

Gen-Duplikationen als Motor der physiologischen Feinabstimmung


Das Wissen um Gen-Duplikationen ist zum einen wichtig fr die kor rekte Rekonstruktion von Stammbumen. Andererseits offenbaren Gen-Duplikationen faszinierende Einsichten in die Dynamik der molekularen Evolution. Mit der Duplikation eines Gens gehen oft nderungen der Funktion sowie vielfache Spezialisierungen in einer oder sogar in beiden Kopien einher. 64

Gen-Duplikationen als Motor der physiologischen Feinabstimmung In der Proteinfamilie der Globin-Gene ist dieses Phnomen sehr gut studiert (Abbildung 24).GIobine sind fr den Sauerstoff-Haushalt im Organismus verantwortlich. Bereits vor 600-800 Millionen Jahren wurde das Ur-Globin-Gen dupliziert. Die verdoppelten Gene diffe renzierten sich zum Myoglobin und zur Familie der Ur-Hmoglo bine. Das Myoglobin-Gen befindet sich beim Menschen auf dem Chromosom 22. Es reguliert die Speicherung des Sauerstoffs in den Muskeln. Vor 450-500 Millionen Jahren bildeten sich durch Duplikation des Ur-Hmoglobins die Familie der D-Globine und der E-Globine. Das Hmoglobin ist verantwortlich fr den Transport des Sauerstoffs im Blut. Die Familie der D-Globine, die beim Menschen auf dem Chromo som 16 liegt, besteht aus den vier funktionellen Genen -, D1, D2 und T1 sowie drei Pseudogenen (<-, <D1, <D2). Pseudogene haben keine Funktion, aber weisen noch immer die Strukturmerkmale von Genen auf. Das d-Gen entstand vor mehr als 300 Millionen Jahren und wird nur im Embryo aktiviert. Die Aufspaltung in das T1-Gen und die D-Gene fand vor 260 Millionen Jahren statt. Der Zeitpunkt fr die Entstehung des D1- und D2-Gens ist derzeit ungeklrt, da die Se quenzen nahezu identisch sind. Da aber beide Gene auch in den Affen vorkommen, sollten sie vor wenigsten 20 Millionen Jahren ent standen sein. Das Alter der Pseudogene lsst sich nicht schtzen. Die E-Globin-Familie befindet sich auf dem Chromosom 11. Es um fasst die fnf funktionellen Gene H, GJ, AJ, E und G sowie das Pseu dogen <E. Im Menschen wird das e-Gen in der frhen Embryonal entwicklung aktiviert (1.-8. Schwangerschaftswoche), whrend die zwei J-Gene fr den Sauerstoff-Transport im heranwachsenden Ftus (ab der 9.Schwangerschaftswoche) verantwortlich sind. Die Eund G-Gene werden erst im erwachsenen Menschen aktiviert. Die Aufspaltung der E-Globin-Gene begann vor 150-200 Millionen Jahren. 65

Gen-Bume in der Phylogenie An diesem Beispiel wird deutlich, dass Gen-Duplikationen dem un terschiedlichen Sauerstoffbedarf in der Entwicklung des mensch lichen Organismus bereits auf molekularer Ebene Rechnung tragen. Gen-Duplikationen knnen also zu einer erstaunlichen Feinabstim mung in der Physiologie beitragen. Inzwischen ist die Evolutionsge schichte weiterer Gen-Familien rekonstruiert worden, wie beispiels weise die der Homobox- (Hox-) Gene. Sie steuern die embryonale Segmentierung des Krpers entlang der Kopf-Schwanz-Achse. Zu den bemerkenswertesten Ergebnissen der Forschung der letzten Jahre gehrte es, dass Hox-Gene bei fast allen Tieren einschlielich des Menschen und sogar bei Pflanzen zu finden sind. Es stellte sich sogar heraus, dass Fliegen, denen das fr die Entstehung des Auges verantwortliche homotische Gen einer Maus eingepflanzt wurde, ein zustzliches Facettenauge entwickelten. Offenbar sind die Gene, welche die Entwicklung der Augen einleiten, bei Sugetieren und Insekten sehr hnlich. In naher Zukunft sind auf diesem Sektor noch viele spannende Ergebnisse zu erwarten, die unser Verstndnis ber das molekulare Evolutionsgeschehen erweitern werden.

6 GEN-BUME IN POPULATIONEN
Gen-Bume sind auch fr die Aufklrung der Verwandtschaftsver hltnisse zwischen den Individuen einer Art beziehungsweise Popu lation von groer Bedeutung. Das Aufstellen solcher Bume ffnet ein vllig neues Feld fr die Erforschung der molekularen Evolu tionstheorie. Das Paradebeispiel sind die Ergebnisse der Untersu chungen zur jngeren Geschichte des modernen Menschen. Anhand von DNA-Sequenzen konnten Wissenschaftler die Geschichte des modernen Menschen neu interpretieren.
Abb.24: Gen-Baum der menschlichen Globin-Gene. Grne Kreise symbolisieren jeweils eine Gen-Duplikation; Datierung in Millionen Jahren.

66

Gen-Bume in Populationen

67

Gen-Bume in Populationen

Rekonstruktion der Populationsgeschichte anhand von DNA-Sequenzen


Die Geschichte einer Population wird anhand der Sequenzen einer Stichprobe von zufllig ausgewhlten Individuen untersucht. Dafr werden bevorzugt die variablen Regionen des Genoms untersucht, denn nur hier gibt es berhaupt eine Chance, dass sich die Sequen zen zwischen den Individuen einer Population unterscheiden. Fr die Populationsgeschichte des Menschen und anderer Tierpopulationen wird dafr bevorzugt die Kontrollregion des Mitochondrien-Genoms analysiert. Aus dem resultierenden Sequenzalignement wird mit den in Kapitel 4 dargestellten Methoden ein Gen-Baum berechnet. Im Unterschied zu einem phylogenetischen Datensatz sind die Se quenzen zwischen den Individuen eines Populations-Alignements entweder sehr hnlich oder hufig sogar identisch (Abbildung 25b). Daher braucht man keine komplizierten Methoden wie MaximumLikelihood oder distanzbasierte Methoden, um multiple Substitutio nen im Alignement zu korrigieren. Maximum-Parsimonie reicht aus, um den Gen-Baum zu bestimmen. Ein Beispiel soll dies veranschaulichen. Gegeben sei eine ber die Zeit konstante Population. Aus der heutigen Generation werden zufllig acht Individuen, A bis H, ausgewhlt und fr jedes Individu um die gleiche Region im Genom sequenziert. Die Analyse der Sequenzen ergibt folgendes Bild (Abbildung 25a): Die Sequenz S1 wurde in den drei Individuen A, B und C gefunden. Die Sequenz S2 war in den zwei Individuen G und H prsent, whrend die drei verbleibenden Sequenzen S3, S4 und S5 nur in jeweils einem Individuum vorkommen. Fr die Rekonstruktion des Gen-Baums (Abbildung 25b) ist nur die Anzahl der unterschiedlichen Sequenzen relevant; fr das Beispiel also die fnf Sequenzen S1 bis S5. Die Hufigkeit der einzelnen Se quenzen wird im Gen-Baum vernachlssigt, oder wie in Abbildung 68

Rekonstruktion der Populationsgeschichte

Abb.25a: Sequenz-Alignement einer Stichprobe von acht Individuen (A-H).

Abb.25b: Maximum-Parsimonie-Baum der fnf unterschiedlichen Sequenzen S1 bis S5. Insgesamt sind fnf Mutationen, m1 bis m5, fr die Rekonstruktion not wendig. Der kleine weie Kreis zeigt eine in der Population nicht gefundene Sequenz an.

25b lediglich durch die Gre der Knoten symbolisiert. Wie oft eine Sequenz in einer Stichprobe gefunden wurde, liefert aber wichtige Informationen ber die genetische Vielfalt innerhalb der Population. Die Verzweigungsstruktur des Gen-Baums spiegelt die verwandt schaftlichen Beziehungen zwischen den unterschiedlichen Sequen 69

Gen-Bume in Populationen zen wider. Insgesamt sind fnf Mutationen (m1 bis m5) ntig, um die Variabilitt im Sequenz-Alignement zu erklren. Die Sequenzen S2 und S3 stehen im Gen-Baum an inneren Knoten (Abbildung 25b). Sie sind damit gleichzeitig rezente Sequenzen (die in der heutigen Po pulation vorkommen) als auch Vorfahr-Sequenzen fr die anderen Individuen. Diese Doppelfunktion einer Sequenz als Vorfahr-Sequenz und als rezente Sequenz ist typisch fr die Analyse populationsge netischer Datenstze. Die Individuen mit einer identischen Sequenz, nmlich A, B und C (Si) sowie G und H (S2) sind in jeweils einem Knoten vereinigt. Die Verwandtschaftsstruktur zwischen den Individuen innerhalb eines Knotens lsst sich mit dem bisherigen Methoden besteck nicht auf klren. Um etwas ber die Geschichte einer Population auszusagen, sind wiederum statistische Methoden notwendig.

Die Genealogie einer Stichprobe


Der Gen-Baum in Abbildung 25b zeigt die verwandtschaftlichen Beziehungen zwischen den fnf Sequenzen Si bis S5. Wie kann die Verwandtschaftsstruktur zwischen den Individuen bestimmt wer den? Wo liegt die Wurzel des Gen-Baums, also der jngste gemein same Vorfahre (MRCA) der Stichprobe und wann lebte er? Diese Fra gen werden bei der phylogenetischen Rekonstruktion durch das Hinzuziehen einer Auengruppe beziehungsweise durch die mole kulare Uhr beantwortet. In einer Population mit vielen Sequenzen muss der Prozess der Vorfahrenfindung am Computer modelliert werden (Coalescent-Prozess). Die resultierenden Bume heien Genealogien, abgeleitet von dem griechischen Wort genealogia fr Geburt beziehungsweise Abstammung. Im Gegensatz zur genba sierten Stammbaumrekonstruktion sind in einer Genealogie weder das Verzweigungsmuster noch die Kantenlngen feste Gren. Es wird angenommen, dass die Genealogie im Verlauf der Evolution 70

S.103

S.105

Die Genealogie einer Stichprobe

Abb.26: Drei mgliche Genealogien fr die Individuen A, B und C.

zufllig entstanden ist. Was heit dies fr das Beispiel in Abbildung 25? Die Individuen A, B und C haben die gleiche Sequenz S1. Abbil dung 26 zeigt die drei gleichwahrscheinlichen Topologien ((A, B) C), ((A, C) B), (A (B, C)). Darin sind die Verzweigungsmuster und die Zeit punkte, an denen die Sequenzen ihren jngsten gemeinsamen Vor fahren finden, unterschiedlich. Die Zeit kann in der Anzahl der Gene rationen gemessen werden. Fr die acht untersuchten Individuen A bis H aus der konstanten Population zeigt Abbildung 27 eine mgliche Genealogie. Jedes Indi viduum ist durch einen Kreis dargestellt, jede Zeile reprsentiert die Individuen beziehungsweise Gene einer Generation. Der Zeitpfeil luft von der Vergangenheit in die Gegenwart und ist ein Ma fr die Anzahl an Generationen. Die hypothetischen Zeitpunkte fr das Auftreten der fnf Mutationen m1 bis m5 sind eingezeichnet. Der weie Kreis an der Basis der Genealogie zeigt den jngsten gemein samen Vorfahren aller acht Sequenzen. Wie fr die phylogenetischen 71

Gen-Bume in Populationen Bume gilt auch bei den Genealogien, dass die Anzahl der Bume mit der Anzahl der Individuen exponentiell ansteigt.

Wann lebte der jngste Vorfahre der menschlichen Population?


In Abbildung 27 wird ein weiteres Phnomen deutlich: Die Zeit zum jngsten gemeinsamen Vorfahren (MRCA) hngt sowohl von der Stichprobengre als auch der Populationsgre ab. Die Zeit bis zum MRCA wird in einer groen Stichprobe beziehungsweise Population grer sein als in einer kleineren, da mehr Sequenzen zu einem ge meinsamen Vorfahren verschmelzen mssen. Dabei wird diese Zeit in der Anzahl an Generationen zwischen der heutigen Population und deren MRCA gemessen. Werden nur die drei Individuen A, B und C aus Abbildung 27 be trachtet, wird deren gemeinsamer Vorfahre bereits nach zwlf Gene rationen gefunden. Dies gilt auch, wenn nur eine kleine Population untersucht wird. Fr acht untersuchte Individuen ist die Zeit zum MRCA entsprechend grer. In dem dargestellten Beispiel (Abbil dung 27) nmlich wird der jngste gemeinsame Vorfahre nach fnf zig Generationen gefunden. Dasselbe gilt fr eine groe Population. Eine theoretische berlegung aus dem Coalescent-Prozess zeigt, dass in einer Population konstanter Gre die Zeit TMRCA bis zum jngsten gemeinsamen Vorfahren nach folgender Gleichung be rechnet wird TMRCA = 2G (1-1/n) . Darin ist n die Stichprobengre und G die Populationsgre fr das untersuchte Gen, das heit die Anzahl der Kopien eines Gens in einer Population. Ist die untersuchte Stichprobe nicht zu klein, vereinfacht
Abb.27: Eine mgliche Genealogie fr acht Individuen

S.105

72

Wann lebte der jngste Vorfahre der menschlichen Population?

73

Gen-Bume in Populationen

Tabelle 4: Alter des jngsten gemeinsamen Vorfahren (MRCA) in einer Population mit konstanter Populationsgre N

sich die Gleichung zu TMSCA 2G. berraschenderweise entspricht somit die Zeit bis zum jngsten gemeinsamen Vorfahren der doppelten Populationsgre G fr das untersuchte Gen. In einer Sugetier-Population der Gre N wird angenommen, dass die Anzahl der reproduzierenden Weibchen (NW) gleich der Anzahl der reproduzierenden Mnnchen (Nm) ist. Dann gilt N = NW + Nm und NW = Nm = N/2. In Tabelle 4 wird fr eine solche Population zunchst die Anzahl der untersuchten Gene im Mitochondrien-Genom, auf den Y- respektive X-Chromosomen sowie den autosomalen Chromosomen berechnet. Einfache berlegungen fhren zu folgenden Ergebnissen: Fr die 74

Wann lebte der jngste Vorfahre der menschlichen Population?

Tabelle 5: Geschtzte Zeiten zum jngsten gemeinsamen Vorfahren (MRCA) fr unterschiedliche Genregionen des modernen Menschen

Gene auf dem Mitochondrien-Genom, die nur ber die mtterlichen Linien vererbt werden, entspricht die Populationsgre G der Anzahl der Weibchen in der Population (G = Nw). Fr Gene auf dem Y-Chro mosom,das nur bei den Mnnchen vorkommt und zwar in einfacher Kopie, ist die Populationsgre G gleich der Anzahl der Mnnchen (Nm) in der Population (G = Nm). Fr Gene, die sich auf dem X-Chro mosom befinden, berechnet sich die Populationsgre G aus der doppelten Anzahl der Weibchen in einer Population (die zwei XChromosomen besitzen) plus der Anzahl der Mnnchen (die nur ein X-Chromosom tragen). Fr die Populationsgre dieser Gene gilt dann G = 2 Nw + Nm. Fr alle autosomalen Gene, die sowohl bei den Mnnchen als auch bei den Weibchen in doppelter Kopie vorliegen, berechnet sich die Populationsgre zu G = 2 (Nw + Nm). Aus der Populationsgre fr jedes Gen lassen sich nach der obi gen Nherung TMRCA 2G und der Gleichung Nw = Nm = N/2 die Zeiten bis zum jngsten gemeinsamen Vorfahren einer heutigen Popu lation angeben (Tabelle 4). Die Gene auf dem Mitochondrien-Genom sowie die Gene auf dem Y-Chromosom werden nach N Generatio nen ihren jeweiligen Vorfahren finden. Die Gene auf dem X-Chromo 75

Gen-Bume in Populationen som und die autosomalen Gene brauchen eine drei- respektive vier mal so lange Zeit. Sie finden ihren gemeinsamen Vorfahren erst nach 3N respektive nach 4N Generationen. Das fhrt zu einem be deutenden Schluss: Der gemeinsame Vorfahre einer Population ist je nach Lage der untersuchten Sequenz im Genom unterschiedlich alt. Daraus ergibt sich die berraschende Konsequenz: Fr die Gesamt heit der Gene einer Population gibt es keinen gemeinsamen Zeit punkt fr das Auftreten des jngsten gemeinsamen Vorfahren. Obwohl diese theoretischen Vorhersagen fr idealisierte Popula tionen entwickelt wurden, treffen sie auch bei der Analyse verschie dener Regionen im Genom des modernen Menschen erstaunlich gut zu (Tabelle 5). Daraus folgt: Die genetischen Vorfahren des modernen Menschen haben je nach Lage des untersuchten Gens oder der untersuchten Sequenz zu sehr unterschiedlichen Zeiten gelebt. Wir heutigen Men schen sind genetische Mosaiktypen, die auf ganz verschiedene Vor fahren zurckgehen. Die Vorstellung einer Eva oder eines Adams, aus denen der moderne Mensch entstanden sei, ist auf genetischer Ebene nicht zu rechtfertigen. Jeder DNA-Abschnitt hat seine eigene Eva respektive seinen eigenen Adam. Darber hinaus waren die jeweiligen genetischen Evas und Adams zu ihrer Zeit auch nicht allein, sondern stets Mitglieder einer Population. Daraus folgt, dass die Zeitpunkte der jngsten gemeinsamen Vorfahren nicht notwen digerweise mit dem Zeitpunkt der Entstehung des modernen Men schen korrelieren.

Demographie
Bislang wurde der Coalescent-Prozess nur in Populationen mit kon stanter Gre betrachtet. Wie ndert sich die Genealogie, wenn sich die Gre der Population ndert? Wie kann die demographische Ge schichte aus einem Alignement erschlossen werden? 76

Demographie Die Demographie einer (menschlichen) Population beschreibt ihre Bevlkerungsentwicklung im Laufe der Zeit. Als illustrative Bei spiele unterschiedlicher Bevlkerungsentwicklung und ihr Einfluss auf die Genealogien werden exemplarisch drei Szenarien vorgestellt, die in Abbildung 28 zusammengefasst sind. Abbildungen 28a und b zeigen jeweils eine typische Genealogie fr acht Sequenzen einer kleinen Population (G = 2500) und einer viermal greren Population (G = 10000). Von diesen Populationen nehmen wir an, dass ihre Gre, die durch das graue Feld symboli siert ist, konstant bleibt. Im dritten Fall (Abbildung 28c) wchst eine kleine ursprngliche Population (G = 500) innerhalb von 800 Gene rationen auf G = 10 000 Gene. Die Population hat sich in 800 Gene rationen um das Zwanzigfache vergrert, was einer Wachstumsrate von 0,375% pro Generation entspricht. Eine solche Populationsge schichte wird unter dem Begriff bottleneck, Flaschenhals, zusam mengefasst. Optisch entsteht annhernd der Eindruck einer nach unten geffneten Flasche, wobei nur wenige Individuen in dem Fla schenhals lebten. Fr die konstanten Populationen (Abbildung 28a, b), die dem Wright-Fisher-Modell entsprechen, berechnet man die Zeit zum MRCA (Coalescent-Prozess) mit 4375 beziehungsweise 17 500 Gene rationen. Die zuflligen Genealogien (Abbildung 28) stimmen gut mit den Erwartungswerten berein. Fr grere Stichproben wird sich die Zeit zum MRCA dem Wert 2G nhern. ndert sich die Populationsgre im Laufe der Zeit (FlaschenhalsBeispiel), so lsst sich die erwartete Zeit bis zum MRCA nicht mehr berechnen. Man muss auf Computersimulationen zurckgreifen. Im gezeigten Beispiel (Abbildung 28c) vergehen 2800 Generationen bis zum MRCA. Die Zeit zum jngsten gemeinsamen Vorfahren ist in der Flaschenhals-Population viel kleiner als in den beiden konstanten Populationen. Die Genealogie der Flaschenhals-Population, deren Demographie seit 2000 Generationen identisch mit der groen Po 77

S.105

Gen-Bume in Populationen pulation ist, wird also im Flaschenhals extrem verkrzt. Durch die Verkleinerung der Populationsgre kommt es zu einer Beschleuni gung des Coalescent-Prozesses, der die noch vorhandenen Linien innerhalb kurzer Zeit (im Beispiel 800 Generationen) zusammen schmelzen lsst. Wie wirkt sich die vernderte Gestalt der Genealogie auf die gene tische Variabilitt einer Population aus? Es wird angenommen, dass jede Substitution an einer neuen Position der Sequenz stattfindet und dass es keine Rckmutationen gibt (infinite-sites-model). Die grnen Balken in Abbildung 28 zeigen die Verteilung der Substitu tionen auf die Genealogien. Als Ma fr die genetische Variabilitt einer Stichprobe wird die Verteilung der paarweisen Unterschiede zwischen den Sequenzen und die Zahl der variablen Positionen im Alignement herangezogen. Zur Bestimmung der Hufigkeitsverteilung paarweiser Unter schiede in einer Stichprobe wird fr jedes Paar von Sequenzen die Anzahl der unterschiedlichen Positionen ausgezhlt und in einem Balkendiagramm aufgetragen. Man zhlt also aus, wie viele Se quenzpaare identisch sind (Anzahl der Unterschiede gleich Null), und wie viele sich an einer, zwei, drei,... Positionen unterscheiden. Abbildung 29 zeigt die Verteilung der paarweisen Sequenzunterschiede fr die drei Genealogien aus Abbildung 28, nmlich a) fr die kleine, konstante Population (G = 2500), b) fr die groe, konstante Population (G = 10000) und c) fr die Flaschenhals-Population. Bei der kleinen, konstanten Population (a) ist die Verteilung der paarweisen Unterschiede sehr weit gestreut. Es gibt Sequenzen, die relativ nah verwandt miteinander sind und daher wenige Unter schiede haben. Andererseits gibt es auch viele Sequenzpaare, die sechs oder mehr Unterschiede zeigen. Dies sind gerade jene Se quenzpaare, die ihren gemeinsamen Vorfahren vor etwa 5000 Gene rationen hatten. In der groen, konstanten Population (b) sieht die Verteilung der paarweisen Unterschiede hnlich aus, allerdings sind 78

S.109

Demographie

Abb.28: Der Einfluss der demographischen Geschichte auf die Genealogie. Die Ent wicklung der Populationsgre wird durch die graue Flche symbolisiert. Die Zeit
wird in Generationen gemessen.
a) Genealogie einer kleinen Population, b) Genealogie einer groen Population,
c) bottleneck-Population.

die absoluten Unterschiede zwischen den Sequenzen grer. Auch hier gibt es eine Reihe von Sequenzen, die nah miteinander ver wandt sind, whrend die nicht nher verwandten Sequenzen bis zu 32 Unterschiede haben (vergleiche Abbildung 28b). Die Flaschen hals-Population (c) hat eine eingipfelige Verteilung. Das Maximum der Verteilung liegt bei zwei bis drei Unterschieden. Die Verteilung hnelt der bekannten Gau'schen Glockenkurve. 79

Gen-Bume in Populationen Offensichtlich beeinflusst die Genealogie nicht nur die Zahl der Un terschiede, sondern auch die Form der Distanzverteilung. Die Gene alogien konstanter Populationen sind gekennzeichnet durch zwei lange Kanten oder Linien, die zum MRCA verschmelzen. Auf diesen Linien sammeln sich viele Substitutionen an. Sequenzpaare, deren gemeinsamer Vorfahre mit dem MRCA der gesamten Genealogie zusammenfllt, werden also sehr viele Sequenzunterschiede tragen. Sequenzpaare, deren gemeinsamer Vorfahre wesentlich jnger ist, werden sich sehr hnlich sein. Dies erklrt im Beispiel der konstan ten Populationen die Streuung der paarweisen Distanzen und die irregulre Form ihrer Verteilung. Die Genealogie der Flaschenhals-Population hat nicht das tiefe Verzweigungsmuster wie die Populationen mit konstanter Gre. Nach 2000 Generationen schmilzt die Populationsgre innerhalb von 800 Generationen auf G = 500. Die Wartezeit zum MRCA der Stichprobe wird extrem verkrzt, so dass die Zahl an Substitutionen in diesem Zeitraum dramatisch reduziert ist. Im gezeigten Beispiel finden im eigentlichen Flaschenhals keine Substitutionen statt. Die Distanz zwischen den Sequenzen wird also im Wesentlichen durch die Zeit bis zum Flaschenhals (ca. 2000 Generationen) bestimmt. Dies erklrt die glockenfrmige Verteilung der paarweisen Distan zen in einer Flaschenhals-Population. Die Betrachtung der paarweisen Distanzverteilung einer Stichpro be liefert also einen anschaulichen Hinweis auf die demographische Geschichte einer Population. Konstante Populationen haben eine ir regulre Distanzverteilung und Flaschenhals-Populationen eine glockenfrmige Distanzverteilung.
Abb.29: Hufigkeitsverteilung der paarweisen Distanzen fr drei Populationen mit unterschiedlicher demographischer Geschichte: a) kleine, konstante Popula tion; b) groe, konstante Population (beachte anderen Mastab!); c) FlaschenhalsPopulation; die Sequenzen sind Abbildung 28 entnommen, die Zahlen an den Pfei len geben die mittlere Anzahl der paarweisen Unterschiede an.

80

Demographie

81

Gen-Bume in Populationen

Abb. 30: Gen-Baum der Menschenaffen. Das auf dem X-Chromosom gelegene Gen Xq13 wurde in 70 Menschen, 30 Schimpansen, 11 Gorillas und 14 Orang-Utans untersucht.

S.109

Um die anschauliche Deutung statistisch abzusichern, sind eine Rei he von Tests entwickelt worden. Dazu berechnet man zunchst die mittlere Zahl an paarweisen Unterschieden. Die Sequenzen der zwei konstanten Populationen unterscheiden sich im Mittel an 4,9 Posi tionen in der kleinen Population und 17,7 Positionen in der groen Po pulation. Hingegen betrgt der mittlere Unterschied zwischen den Sequenzen der Flaschenhals-Population 2,9 Positionen. Nun liefert der Mittelwert allein keinen Hinweis auf die Demographie, da die 2,9 unterschiedlichen Positionen auch mit einer kleinen Populationsgr e erklrt werden knnen (Genetische Variabilitt einer Population). Die mittleren paarweisen Distanzen einer Stichprobe mssen also mit einem weiteren Ma fr genetische Variabilitt verglichen wer den. Hier bietet sich die Zahl an variablen Positionen Sn im Aligne ment an, die im infinite-sites-model gleich der Anzahl der stattge fundenen Substitutionen (grne Balken in Abbildung 28) ist.
Im Beispiel findet man S8
klein

= 13, S8

gro

= 38 und s8

bottleneck

= 10. Die

kleine Population hat annhernd ein Drittel der genetischen Variabi litt der groen Population. Theoretisch erwartet man viermal mehr variable Positionen in der groen Population. Da es sich beim Coales 82

Demographie

Abb.31: Zwei Hypothesen zur Evolution des modernen Menschen Homo sapiens.

cent- und beim Substitutions-Prozess um Zufallsereignisse handelt, sind Abweichungen von den erwarteten Werten wahrscheinlich. Die Flaschenhals-Population hat mit zehn Substitutionen bezie hungsweise variablen Positionen nur ein Viertel der genetischen Variabilitt der groen, konstanten Population. Im Vergleich zur klei nen Population hat die sprunghaft gewachsene Population nur et was weniger variable Positionen. Wenn die Demographie der Fla schenhals-Population unbekannt ist, wrde man aufgrund der zehn variablen Positionen folgern, dass die Flaschenhals-Population eine hnliche Populationsgeschichte wie die kleine Population hat; ange sichts der heutigen Populationsgre von G = 10000 ein erstaunli ches Ergebnis. Die Zahl der variablen Positionen allein gibt also ebenso wie die mittlere paarweise Distanz keine Information ber die demographi sche Entwicklung einer Population. Die geringe Zahl an variablen Positionen kann auch mit einer kleinen Populationsgre erklrt 83

Gen-Bume in Populationen werden. Nur der Vergleich zwischen den mittleren paarweisen Dis tanzen und der Anzahl der variablen Positionen liefert einen Test, der die demographische Geschichte einer Population aufdeckt und so mit eine statistisch fundierte Aussage ber die Demographie er laubt. Dieser Test basiert auf der Tatsache, dass sich aus der mittle ren paarweisen Distanz und der Anzahl an variablen Positionen die Populationsgre einer konstanten Population bestimmen lsst. Weichen die beiden geschtzten Populationsgren signifikant von einander ab, so kann die Populationsgre nicht konstant geblieben sein. Da sowohl die mittlere Distanz als auch die Zahl der variablen Posi tionen in einem Sequenzalignement leicht zu bestimmen sind, er staunt es nicht, dass die Aufdeckung der demographischen Ge schichte mittels Sequenzstichproben aus einer Population weite Verbreitung gefunden hat. Zumal in jngster Vergangenheit die Analysemethoden wesentlich genauer geworden sind als die hier vorgestellte, sehr einfache Methode. Mit diesem Ansatz wurde in den letzten Jahren insbesondere die Populationsgeschichte des modernen Menschen genauer unter sucht. Bei der vergleichenden Analyse der genetischen Variabilitt des modernen Menschen und seines nchsten Verwandten, dem Schimpansen, zeigte sich berraschenderweise, dass die genetische Variabilitt der Schimpansen rund viermal grer ist als die des Menschen. Bedenkt man, dass der moderne Mensch weltweit ver breitet ist und mit sechs Milliarden Menschen eine im Vergleich zum Schimpansen gigantische Populationsgre hat, liegt die Erklrung nahe, dass der Mensch in seiner jngsten Vergangenheit gewaltig angewachsen ist. Dieses Wachstum hat vor ungefhr 100 000 200 000 Jahren begonnen. Abbildung 30 zeigt den Gen-Baum fr den Menschen und die drei nchstverwandten Menschenaffen. Er basiert auf Sequenzen des Xq13-Gens, das auf dem X-Chromosom liegt. An der Verzweigungstiefe innerhalb der vier untersuchten Ar 84

Wo kommen wir her?

Abb.32: Schematische Illustration des geographischen Ursprungs der modernen Menschen. Die Sequenzen von sechs Afrikanern (A1 bis A6) stehen basal zu den vier nicht-afrikanischen Sequenzen (E7 bis E10), die von Eurasiern und Amerika nern stammen.

ten zeigt sich, dass der Mensch mit seinem relativen Alter von ca. 0,5 Millionen Jahren sowohl der jngste Vertreter der untersuchten Ar ten ist als auch die geringste genetische Vielfalt trgt. Die Menschen haben sich also als letzte Form der groen Menschenaffen etabliert und wir sind alle miteinander nher verwandt, als das fr die einzel nen Populationen der Schimpansen, Gorillas oder Orang-Utans der Fall ist.

Wo kommen wir her?


Die geographische Herkunft der modernen Menschen ist noch immer ein Rtsel, was vor allem an der Lckenhaftigkeit der Fossil 85

Gen-Bume in Populationen funde liegt. Dass die Wiege der Hominiden, das heit alle heutigen Menschen zusammen mit den ausgestorbenen Vor- und Frhmen schen, in Afrika steht, ist mittlerweile unumstritten. Bezglich der weiteren Besiedlung und Ausbreitung des modernen Menschen ste hen sich zwei Hypothesen gegenber, nmlich das Multiregionale Modell und das Arche-Noah-Modell (Abbildung 31). Nach dem Multiregionalen Modell entstand die geographische Vielfalt der heutigen Menschen schon vor ein bis zwei Millionen Jah ren, als sich Homo erectus von Afrika aus ber die anderen Kontinente ausbreitete. Die charakteristischen Merkmalsunterschiede zwi schen den heutigen Grogruppen wie Afrikaner, Asiaten oder Europer haben sich demnach in einem sehr langen Zeitraum in den entsprechenden Regionen herausgebildet. Die genetische hnlich keit aller modernen Menschen wird damit erklrt, dass durch Kreu zungen zwischen benachbarten Populationen ein anhaltender Gen fluss durch das gesamte geographische Verbreitungsgebiet des Menschen entstand. Im Arche-Noah-Modell wird davon ausgegangen, dass sich nur eine kleine Population des Homo erectus in Afrika zum Homo sapiens entwickelte. Nur diese Homo-sapiens-Population verlie vor etwa 100000 bis 200000 Jahren Afrika und besiedelte nachfolgend die gesamte Welt. Alle Nachfahren des Homo erectus, einschlielich des in Mitteleuropa lebenden Neandertalers, starben aus, ohne zum Genpool der heutigen Menschen beizutragen. Nach dieser Hypothe se, die auch Out-of-Africa-Modell genannt wird, sind die heutigen Menschen viel nher verwandt, als nach dem Multiregionalen Mo dell angenommen werden muss. Die Molekulargenetik hat sich ebenfalls der Frage angenommen, wo der geographische Ursprung des modernen Menschen liegt. Dazu wurden bisher Hunderte von mitochondrialen DNA-Sequen zen nahezu aller Volksgruppen analysiert. Smtliche Untersuchun gen sttzen das Arche-Noah-Modell. In Abbildung 32 wurden zufl 86

Die Zukunft lig zehn Sequenzen von heutigen Menschen herausgegriffen. Sechs von ihnen (A1 bis A6) stammen aus Afrika, die restlichen vier (E7 bis E10) aus Eurasien und Amerika. Der Gen-Baum wurde mit der Se quenz des Schimpansen gewurzelt. Wie lsst sich dieser Baum bezglich des geographischen Ur sprungs der heutigen Menschheit interpretieren? In Afrika gibt es zum einen die Sequenzen A1, A2 und A3, die im Gen-Baum basal ste hen und nicht nher mit den verbleibenden Sequenzen A4, A5 und A6 verwandt sind. Diese letzen drei afrikanischen Sequenzen sind nher mit den eurasischen und amerikanischen Sequenzen E7 bis E10 verwandt als mit den afrikanischen Sequenzen Ai bis A3. Daraus folgt, die sechs afrikanischen Sequenzen sind nicht monophyletisch. Die sparsamste Erklrung fr den dargestellten Baum nach dem Parsimonie-Prinzip ist ein geographischer Ursprung der zehn zufllig ausgewhlten Menschen in Afrika. Das legt den Schluss nahe, dass der moderne Mensch vor etwa 100000 bis 200000 Jahren in Afrika entstanden ist und sich anschlieend ber die ganze Welt verbreitet hat. Dieses Modell wird auch dadurch erhrtet, dass sich das grund stzliche Verzweigungsmuster des Gen-Baums auch dann nicht ndert, wenn auer den bisherigen zehn Sequenzen weitere mito chondriale DNA-Sequenzen hinzugezogen oder zustzlich Genregio nen des X- respektive Y-Chromosoms analysiert werden.

7 DIE ZUKUNFT
Mit der Ansammlung molekulargenetischer Daten erlebt die Rekon struktion der Stammesgeschichte einen Aufschwung, der weit ber die klassische Phylogenie als Wissenschaft von der Klassifikation des Lebenden hinausgeht. Sequenzdaten werden auch in Zukunft eine bedeutende Rolle bei der Aufklrung der verwandtschaftlichen Be ziehungen zwischen den Organismen spielen und dabei die Daten 87

Die Zukunft aus der Morphologie, Ontologie, Ethologie und geographischer Ver breitung der Taxa ergnzen. Die Erkenntnis, dass Gen-Bume die Phylogenie der Organismen widerspiegeln, hat in den 70er Jahren zur Rekonstruktion des univer sellen Baums des Lebens gefhrt (siehe Abbildung auf der letzten Seite). Von besonderem Interesse sind dabei die basalen Verzwei gungsmuster zwischen den drei groen Reichen des Lebens. Im Ein zelnen sind dies die Archaebakterien, die sehr ursprngliche (grie chisch arche = Anfang) Bakterien sind und an extremen Standorten wie Salzseen oder heien Quellen vorkommen. Weiterhin die echten Bakterien (Eubakterien), aus denen sich zum Beispiel die Darmflora zusammensetzt, und die Eukaryoten. Letztere sind Organismen, die einen echten Zellkern enthalten und zu denen unter anderem die Pflanzen, Pilze, Tiere und wir Menschen gehren. Der auf der letzten Seite abgebildete Baum beruht auf der Analyse eines einzigen Molekls, nmlich der kleinen Untereinheit der ribo somalen RNA (small subunit ribosomal RNA, abgekrzt SSU rRNA). Dieses Molekl kommt in allen Organismen vor und evolviert sehr langsam. Die Sequenzen lassen sich daher auch noch zwischen so unterschiedlichen Gruppen wie Bakterien und Sugetieren alignie ren. Die universelle Phylogenie spiegelt die Unterteilung in die drei groen Reiche Archaebakterien, Eubakterien und Eukaryoten wider. Diese Dreiteilung wird auch durch andere biochemische Befunde gesttzt. Auerdem wurde die Endosymbinontentheorie besttigt. Diese Theorie geht davon aus, dass die Mitochondrien und Chloro plasten der heutigen Eukaryoten einst eigenstndige kleine, bakte rienhnliche Zellen waren. Sie wurden in einem frhen Stadium der Evolution von den Vorlufern der Eukaryoten aufgenommen. In der universellen Phylogenie sind Bakterien (zum Beispiel Agrobacterium tumefaciens und Escherichia coli) die nchsten Verwandten der Mito chondrien, die mit Hilfe von Sauerstoff aus organischer Nahrung Energie gewinnen. Die Chloroplasten sind aller Wahrscheinlichkeit 88

Die Zukunft nach aus Blaualgen (Cyanobakterien) hervorgegangen, die ihrerseits Photosynthese betreiben, das heit Strahlungsenergie des Sonnen lichts in chemisch gebundene Energie umwandeln. Der anfngliche Optimismus, mit der kleinen Untereinheit der ri bosomalen RNA ber ein universelles Werkzeug zur phylogeneti schen Rekonstruktion zu verfgen, wurde im Laufe der Jahre er schttert. Verschiedene Gene fhren nicht notwendigerweise zu den gleichen Bumen. Selbst wenn zufllige Effekte bei der Erhebung der Daten vernachlssigt werden, ist die Idee von einem universellen Baum des Lebens (tree of life) in der naiven Form, nach der alle heu tigen Lebewesen auf einen gemeinsamen Vorfahren zurckgehen, so nicht haltbar. Die Evolution einzelner Gene lsst sich in den meisten Fllen mit einem phylogenetischen Baum beschreiben, im Extremfall hat aber jedes Gen seinen eigenen Baum. Zustzliche Effekte wie Gendupli kationen, unvollstndiges Aussortieren der Linien (lineage sorting) oder horizontaler Gentransferfhren dazu, dass es zu einem SpeziesBaum oft viele Gen-Bume gibt. Eine spannende Frage bleibt, wie sich aus einer Kollektion verschiedener Gen-Bume ein allgemein gltiger Speziationsbaum rekonstruieren lsst. Eine weitere Besonderheit kennzeichnet die Evolution der Bakte rien. Whrend Eukaryoten hauptschlich durch Vernderung ihrer vorhandenen genomischen Information evolvieren, haben Bakterien anscheinend einen groen Teil ihrer genetischen Diversitt durch Einverleibung von DNA-Abschnitten verwandtschaftlich weit ent fernter Organismen erworben. Dieses Phnomen bezeichnet man als horizontalen Gentransfer. Durch die Sequenzierung ganzer Geno me ist offensichtlich geworden, dass Genduplikation und horizonta ler Gentransfer wesentliche Motoren der bakteriellen Evolution sind. Die zur Verfgung stehenden Daten deuten darauf hin, dass kein Organismus immun ist gegen horizontalen Gentransfer. Dabei wer den Gene, die eine zentrale Rolle im Stoffwechsel spielen, oder Gene, 89

Die Zukunft die vollstndige biochemische Stoffwechselwege kodieren, aber auch Teile der Transkriptions- und Translationsmaschinerie und so gar ribosomale Proteine und ribosomale RNA von einem Organis mus in einen phylogenetisch weit entfernten Organismus transfe riert. Hier mssen neuartige Methoden in der molekularen Evolution entwickelt werden, um die komplexe Dynamik des Evolutionsge schehens besser zu verstehen. Der universelle Baum des Lebens wird sicher eines Tages durch ein Netzwerk ersetzt werden, in dem die vielfltigen Transferereignisse auf molekularem Niveau besser dargestellt werden als indem stren gen, dichotomen Baum, der auf der letzten Seite abgebildet ist. Erste Schritte zu solchen Analysen wurden unternommen, aber der Baum des Lebens wird eines der ganz spannenden Felder zuknftiger For schung bleiben. Auch mit der Sequenzierung ganzer Genome werden neue Her ausforderungen an die molekulare Evolutionstheorie gestellt. Bis lang wurde hauptschlich die Evolution einzelner Gene untersucht. Ganze Genome erfordern die Analyse einer heterogenen Sammlung von DNA-Sequenzen, die aus kodierenden und nicht-kodierenden Genen, repetitiver DNA, regulatorischen Sequenzen (siehe Abbil dung 3) usw. besteht. Unser mikroskopischer Blick auf einzelne Gene wird durch die Betrachtung ganzer Genome enorm erweitert. Neue Fragen sind dabei beispielsweise, ob die Evolution in verschiedenen Teilen des Genoms, zum Beispiel auf unterschiedlichen Chromoso men, verschieden abluft und falls ja, warum? Die Analyse solcher Fragen erfordert die Entwicklung neuer Algo rithmen. Das Alignement ganzer genomischer Sequenzbereiche wird rechentechnisch aufwndiger, da die Sequenzen lnger und hetero gener sind und Inversionen und Translokationen das Bild zustzlich verkomplizieren. Neue effiziente Algorithmen sowie eine erweiterte Theorie der molekularen Evolution mssen entwickelt werden und werden derzeit auch intensiv bearbeitet. 90

Molekulare Techniken

91

VERTIEFUNGEN
Molekulare Techniken
Das mittlerweile sehr umfangreiche Wissen ber die Struktur und Evolution von Genen und DNA- beziehungsweise RNA-Sequenzen geht einher mit den rasanten technischen Entwicklungen auf dem Gebiet der Molekularbiologie. Aus jedem Organismus kann im Labor die gesamte DNA beziehungsweise RNA isoliert und analysiert wer den. Fast alle gentechnischen Anwendungen beruhen auf der Kennt nis der genauen Abfolge der Nukleotide (Nukleotidsequenzen) in den Organismen. Fr eine solche Sequenzanalyse reicht ein einziges DNA-Molekl nicht aus, dafr sind einige tausend Kopien des DNAMolekls erforderlich. Stehen nur wenige DNA-Molekle zur Verf gung, mssen diese zunchst vervielfltigt werden. Handelt es sich dabei um einen relativ groen DNA-Abschnitt, nutzt man das ver hltnismig aufwndige und langwierige Klonieren. Kleinere DNAAbschnitte knnen mit Hilfe der Polymerase-Kettenreaktion (PCR) in relativ kurzer Zeit millionenfach kopiert werden. Bei vielen molekularen Techniken werden - wie bei den Stoffwech selvorgngen im lebenden Organismus - spezielle Enzyme (gekenn zeichnet durch die Endung -ase) verwendet, wobei es fr jedes Ver fahren ein Temperaturoptimum gibt. Grundlegende Operationen in der Molekularbiologie sind: Isolieren der DNA aus einem Organismus, Trennen eines DNA-Strangs in zwei Einzelstrnge, Vervielfltigen eines DNA-Abschnittes mit Polymerasen, Ausschneiden von DNA-Fragmenten mit Endonucleasen, Verbinden zweier DNA-Molekle mit Hilfe von DNA-Ligasen, bertragen von DNA-Moleklen in Bakterienzellen, 91

Molekulare Techniken

92

Zerschneiden von DNA-Strngen mit Restriktionsenzymen, Auftrennen von DNA-Fragmenten durch Gel-Elektrophorese, Bestimmen der DNA-Sequenz mit Hilfe einer Sequenziermaschine. Das Klonieren dient der Vervielfltigung groer DNA-Abschnitte. Die hierzu erforderlichen Arbeitsschritte sind in Abbildung 33 schema tisch dargestellt. Im ersten Schritt zerschneiden Restriktionsenzyme die DNA an spezifischen, nur wenige Nukleotide langen Erkennungs sequenzen. Das Alul-Enzym erkennt zum Beispiel die Sequenz AGCT, das EcoRI-Enzym die Sequenz GAATTC. Die resultierenden DNA-Frag mente sind bis zu 50000 Basenpaare lang. Anschlieend werden die zahlreichen DNA-Fragmente getrennt. Dazu sind bertrger-Molekle (Vektoren) notwendig, die ebenfalls aus DNA bestehen. Die gebruchlichsten Vektoren sind Plasmide. Hierbei handelt es sich um kleine ringfrmige DNA-Molekle, die aus dem Zellplasma von Bakterien oder Hefen isoliert werden. Die zu trennenden DNA-Fragmente werden in die Plasmide eingebaut. Dazu werden die ringfrmigen Bakterien-Plasmide aufgeschnitten, um die fremden DNA-Abschnitte in die ursprngliche Plasmid-DNA einzubinden. Dieser Schritt heit Ligation. Das so entstandene Hybrid-Molekl wird anschlieend in eine lebende Bakterienzelle eingeschleust. Dieser Umwandlungsprozess der Bakterienzelle heit Transformation. Die Bakterienzelle enthlt nun zustzlich zu ihrer eigenen Bakterien-DNA das fremde DNA-Hybrid-Molekl. Die Trans formation ist der entscheidende Schritt im Trennungsvorgang der ursprnglichen DNA-Fragmente, da jede Bakterienzelle nur ein Hyb rid-Molekl aufnimmt und somit die Fragmente in den Bakterien zellen rumlich voneinander getrennt werden. In einem weiteren Schritt, der eigentlichen Klonierung, wird je weils eine transformierte Bakterienzelle auf einer Nhrst off platte angezchtet, wobei sich die Bakterien durch Zellteilung sehr schnell vermehren. Bei diesem Prozess entstehen zahlreiche identische Ko 92

Molekulare Techniken pien der Bakterienzelle: die Klone. Die in den Bakterienzellen enthal tenen DNA-Hybrid-Molekle werden auf diesem Wege ebenfalls ver vielfltigt. Zur weiteren Untersuchung werden die Hybrid-Molekle aus den Bakterienzellen isoliert. Schlielich werden aus der riesigen Anzahl der DNA-Hybrid-Molekle die ursprnglichen DNA-Fragmen te wieder freigesetzt, die nun in gengender Anzahl fr weiterfh rende Forschungen zur Verfgung stehen. Da sich transformierte Bakterienzellen problemlos zchten und lagern lassen, stehen jederzeit beliebige Mengen eines gewnsch ten DNA-Fragments zur Verfgung. Eine solche Sammlung von DNAFragmenten eines Genoms wird Genombibliothek genannt. Eine schnellere und vielseitigere Mglichkeit zur Vervielfltigung kleinster Mengen spezifischer DNA-Abschnitte ist die PolymeraseKettenreaktion (PCR). Die PCR hat die Molekularbiologie in zweifa cher Weise grundlegend revolutioniert: Zum einen lassen sich DNAFragmente im Reagenzglas vervielfltigen. Der aufwndige Umweg ber die Einschleusung in lebende Bakterienzellen entfllt. Zum an deren sind nur winzige Mengen an Ausgangs-DNA notwendig. Kleinste Reste von Hautschuppen, Haaren oder Blut reichen aus, um gengende Mengen an neu synthetisierter DNA zu gewinnen. Das Prinzip der PCR ist die Vervielfltigung eines DNA-Abschnittes mit Hilfe der DNA-Polymerase. Dieses Enzym synthetisiert DNA. Im lebenden Organismus ist es unter anderem fr die Reparatur und die Vervielfltigung der DNA bei der Zellteilung verantwortlich. Bei der PCR wird selektiv ein DNA-Abschnitt vervielfltigt. Eine zwingende Voraussetzung fr die Anwendung der PCR ist die Kennt nis ber die Abfolge der Nukleotide in den beiden Randzonen des DNA-Abschnitts. Vor der PCR werden fr diese zwei Regionen die dazu passenden komplementren Basen als Startermolekle syn thetisch hergestellt. Diese kurzen Nukleotid-Molekle heien Primer. Sie sind etwa zwanzig Basenpaare lang und lagern sich whrend der PCR an die Randzonen an. Dies geschieht allerdings nur, wenn der 93

93

Molekulare Techniken

94

94

Molekulare Techniken DNA-Doppelstrang zuvor in die beiden Einzelstrnge aufgetrennt wurde. Die PCR umfasst somit drei Schritte (Abbildung 34): (1) Denaturierung des DNA-Abschnitts in zwei Einzelstrnge, (2) Anlagerung von zwei Startermoleklen (Primer) an die Randzonen und (3) DNA-Synthese der komplementren Strnge zu neuen vollstndigen Doppelstrngen dieses DNA-Abschnitts. Jeder Arbeitsschritt der PCR erfordert eine andere Temperatur. Die Steuerung der Temperatur bernimmt ein Wrmebad oderThermo cycler. Dieses Gert reguliert auer der Temperatur auch die Zeit dauer der einzelnen Schritte und die Anzahl der Wiederholungen. Der PCR-Cocktail, in dem die Reaktionen stattfinden, enthlt die Ausgangs-DNA, die zwei zuvor synthetisch hergestellten Primer, die DNA-Polymerase sowie die vier DNA-Bausteine A, G, C und T. Im Thermocycler wird das Reaktionsgemisch einem dreistufigen Temperaturregime unterworfen. Fr die Denaturierung der DNA ist eine Temperatur von 94C erforderlich. Erst dann lsen sich die Was serstoffbrckenbindungen zwischen den Doppelstrngen der Ausgangs-DNA auf. Es bilden sich Einzelstrnge. Nach dem Abkhlen auf Temperaturen von 5O-55C lagern sich die zwei Primer an die Bindungsstellen in den Randzonen an. Dann synthetisiert das Enzym DNA-Polymerase den jeweils komplementren DNA-Strang. Da sich stets nur die Nukleotide Cytosin und Thymin sowie Guanin und Ade nin verbinden, dienen die zwei getrennten DNA-Strnge als Matrizen fr die Bildung von zwei neuen, vollstndigen DNA-Strngen. Das Temperaturoptimum dieser Reaktion liegt bei 68C. Aufgrund der hohen Temperaturen bentigt die PCR hitzestabile Enzyme. Die DNA-Polymerase wird aus Bakterien isoliert, die in hei en Quellen leben. Diese Enzyme verfgen ber spezielle Schutzme
Abb.33: Die wichtigsten Schritte beim Klonieren

95

95

Molekulare Techniken

96

Abb.34: Prinzip der Polymerase-Kettenreaktion (PCR)

chanismen, so dass sie auch bei extremen Temperaturen noch aktiv sind. Das am hufigsten verwendete Enzym ist die Taq-Polymerase. Diese Bezeichnung leitet sich vom Namen des Bakteriums ab, das Thermus aquaticus heit. Der Zyklus aus Denaturierung, Primeranlagerung und DNA-Syn these wird 25-40 Mal wiederholt. Alle neu synthetisierten DNAFragmente stehen den nachfolgenden Vermehrungszyklen wieder als Ausgangs-DNA zur Verfgung. Dies erklrt den exponentiellen Zuwachs an DNA und den Namen Kettenreaktion. Bei optimalen Bedingungen werden in einer PCR-Reaktion theoretisch nach 25 Wie 96

Molekulare Techniken derholungen 225 Kopien eines gewnschten DNA-Fragments synthe tisiert. In Wirklichkeit sind es nur 105 bis 106 Kopien. Daher reichen selbst kleinste Ausgangsmengen an DNA, im Extremfall nur ein ein ziges DNA-Fragment, um gengende Mengen an DNA-Kopien fr die weitere Analyse zu synthetisieren. Als Vervielfltigungsmethode erreicht die PCR ihre Grenzen dann, wenn die Lnge der DNA-Ab schnitte 5000 bis 8000 Basenpaare berschreitet. Sie ist also nur fr die Vermehrung relativ kurzer DNA-Abschnitte geeignet. Bei der DNA-Sequenzierung wird die genaue Abfolge der Nukleoti de entlang eines DNA-Strangs bestimmt. Hierfr gibt es verschiede ne Verfahren. Heute wird meist die Kettenabbruch-Methode ange wandt, die Frederick Sanger und Kollegen in den 1970er Jahren entwickelten. Das Grundprinzip ist die enzymatische Synthetisie rung eines DNA-Strangs und erinnert in seinen Grundzgen an die Polymerase-Kettenreaktion (PCR). Auch bei der DNA-Sequenzierung werden die drei Schritte (1) Denaturierung, (2) Primeranlagerung und (3) DNA-Synthese durchlaufen. Das Raffinierte an der Methode nach Sanger ist der gezielte Einsatz von vier Stopp-Nukleotiden (Dide soxynukleotide). Ihnen fehlt eine OH-Gruppe am Zuckerrest. Die Stopp-Nukleotide werden zwar von der Polymerase noch an der zu gehrigen Stelle in den neu synthetisierten DNA-Strang eingebaut, aber die Synthese bricht danach ab. So erklrt sich auch der Name Kettenabbruch-Methode. Fr die sptere Entschlsselung der DNASequenz gibt es unterschiedliche Markierungssysteme fr die Stopp-Nukleotide. So kann etwa an jedes der vier Stopp-Nukleotide ein jeweils anderer Fluoreszenz-Farbstoff gebunden werden. Ein weiterer Unterschied zur Polymerase-Kettenreaktion besteht darin, dass nur ein Primer, nmlich der Sequenzier-Primer, verwendet wird. Bei der PCR dienen beide Einzelstrnge als Matrizen fr die neu synthetisierte DNA. Bei der DNA-Sequenzierung lagert sich der Sequenzier-Primer nur an einen der beiden DNA-Strnge an, der damit als Matrize fr die Neusynthese dient. Der zweite Strang wird 97

97

Molekulare Techniken

98

nicht analysiert. Die Sequenzierung der DNA verluft daher aus schlielich in eine Richtung. Damit enthlt der Sequenzier-Cocktail bei der KettenabbruchMethode die zu sequenzierende DNA, einen Sequenzier-Primer (P), das Enzym Polymerase, die vier DNA-Bausteine A, G, C und T sowie in geringer Konzentration - die vier farbig markierten Stopp-Nukleo tide.Wie bei der PCR wird dieses Gemisch im Thermocycler nachein ander drei unterschiedlichen Reaktionsbedingungen ausgesetzt. Nach der Denaturierung lagert sich der Sequenzier-Primer (P) an einen der beiden DNA-Strnge an. Im dritten Schritt wird der kom plementre DNA-Strang synthetisiert. Die DNA-Synthese endet, wenn ein Stopp-Nukleotid eingebaut wird. Bei 25 bis 35 Wiederho lungszyklen darf davon ausgegangen werden, dass sich an jedes Nu kleotid der Ausgangs-DNA ein passendes Stopp-Nukleotid anlagert. Dadurch entstehen aus den ursprnglichen, gleich langen DNAStrngen zahlreiche neue DNA-Fragmente unterschiedlicher Lnge. Ein kleines Beispiel soll das Prinzip der Kettenabbruch-Methode veranschaulichen: Gegeben sei der zu analysierende DNA-Strang TAGGTACT. Im Ergebnis der DNA-Sequenzierung entstehen die acht verschieden langen, jeweils neu synthetisierten DNA-Fragmente T, TA, TAG, TAGG, TAGGT, TAGGTA, TAGGTAC und TAGGTACT, die jeweils an den Sequenzier-Primer (P) gebunden sind. Die Lnge der verschie denen DNA-Fragmente lsst sich mit Hilfe der Gel-Elektrophorese bestimmen. Abbildung 35a zeigt das Gemisch aus den acht verschie den langen DNA-Fragmenten. Dieses Gemisch wird in Abbildung 35b auf ein Sequenzier-Gel gegeben. Zum Auftragen der Probe enthlt der obere Rand des Gels Vertiefungen oder Kerben. Am unteren Rand des Gels befindet sich der Laser, der die Farbmarkierungen erkennt und diese Signale ber einen Detektor an den Computer weiterlei tet. Fr das Auftrennen der unterschiedlich langen DNA-Fragmente entsprechend ihrer Masse nutzt man die Bewegung elektrisch gela dener Krper in einem elektrischen Feld. Dazu wird an das Gel eine 98

Molekulare Techniken

99

Abb.35: Auftrennung von DNA-Fragmenten in einem Sequenzier-Gel.


a) Gemisch von unterschiedlich langen DNA-Fragmenten nach der DNA-Sequen zierung; P kennzeichnet den Sequenzier-Primer, die vier Stopp-Nukleotide sind far big markiert.
b) Auftragen der Probe auf das Sequenzier-Gel.
c) Trennung der DNA-Fragmente im elektrischen Feld und Signalempfang durch
einen Laser.

Spannung angelegt (Abbildung 35c). Da die DNA negativ geladen ist, bewegen sich alle DNA-Fragmente von der Kathode (-) zur Anode (+), nur verschieden schnell. Die kurzen und damit leichteren Frag mente wandern am schnellsten, whrend die lngeren und somit schwereren Fragmente entsprechend langsamer sind. Daher erfolgt im elektrischen Feld das Sortieren der zahlreichen, unterschiedlich langen DNA-Fragmente nach ihrer jeweiligen Lnge. Die krzesten 99

Genetische Drift

100

Fragmente (P-T, P-TA, P-TAC.) kommen zuerst am Laser an, die ln geren Fragmente spter. Der Laser regt die vier verschiedenen Fluoreszenz-Farbstoffe an, die an die jeweiligen Stopp-Nukleotide gebunden sind. Die vier unter schiedlichen Lichtimpulse werden von der Sequenziermaschine auto matisch registriert und in die Sequenz-Datei des zu analysierenden DNA-Strangs umgeschrieben. Pro Durchlauf lassen sich DNA-Frag mente mit einer Lnge von 600 bis 800 Basenpaaren analysieren.

Genetische Drift
Die Idee der genetischen Drift ist einer der Grundbausteine fr die Theorie der neutralen Evolution. Sie verdient es, genauer erlutert zu werden. In einer Population existiert ein Gen typischerweise in ver schiedenen Versionen (so genannte Allele), die sich in ihrer DNASequenz unterscheiden. In Abwesenheit anderer evolutionr wirksa mer Faktoren wie Selektion, Mutation und Migration erwartet man, dass die Allelfrequenzen in jeder Generation gleich sind. Da Popula tionen eine endliche Gre haben, kommt es bei der Weitergabe der Allele einer Elterngeneration an ihre Nachkommen zu zuflligen n derungen der Allelfrequenzen. Einige Individuen werden keine Nach kommen haben, ihre Allele sterben aus. Andere Individuen haben mehrere Nachkommen, die entsprechenden Allele werden in der nchsten Generation hufiger vertreten sein. Daraus ergeben sich Schwankungen in der Nachkommenzahl pro Individuum, die zwi schen den jeweiligen Generationen zu unterschiedlichen Allelfre quenzen fhren. Dieser Zufallsprozess heit (zufllige) genetische Drift. Er wurde von Sewall Wright (1889-1988) beschrieben, einem der Urvter der theoretischen Populationsgenetik. Zufllige Schwankungen in den Allelfrequenzen fhren dazu, dass letztendlich nur ein Allel in der Population fixiert wird. Die Population verliert durch Drift ihre gene 100

Die neutrale Theorie der Molekularen Evolution tische Variabilitt. In einer kleinen Population geschieht dies schnel ler als in einer sehr groen Population.

101

Die neutrale Theorie der Molekularen Evolution


Motoo Kimura (1924-1994) formulierte 1968 die neutrale Theorie der Molekularen Evolution, um das Ausma an Variabilitt in einer Population auf molekularem Niveau zu erklren. Die Theorie besagt, dass der Groteil der Substitutionen neutral sind, das heit sie haben keinen Einfluss auf die Anzahl der Nachkommen des betrof fenen Individuums. Das heit aber nicht, dass es keine Selektion gibt. Kimura postu lierte lediglich, dass die Mehrzahl der Basenaustausche auf moleku larem Niveau nicht adaptiv, das heit fr das Individuum nicht vor teilhaft sind. Finden solche vorteilhaften Mutationen statt, dann fhrt dies zu einer besseren Anpassung an die herrschenden Um weltbedingungen, und die Nachkommen dieser Individuen verbrei ten sich schneller durch die Population (so genannte positive oder Darwinsche Selektion). Diese seltenen Mutationen wurden von Ki mura nicht weiter untersucht. Auch schdliche (deleterious) Muta tionen wurden von Kimura nicht betrachtet, da sie schnell aus der Population verschwinden. Individuen, die schdliche Mutationen tragen, sterben entweder sehr schnell oder haben keine respektive schlecht angepasste Nachkommen. Diese Form der Selektion heit in der Fachsprache negative oder reinigende Selektion (purifying selection). Schdliche Mutationen sind fr die Mehrzahl der Vernderungen im Genom verantwortlich, whrend sie die genetische Variabilitt einer Population nur unwesentlich beeintrchtigen. Es sind die vorteilhaf ten und neutralen Substitutionen, die fr die Evolution einer Popula tion wichtig sind. Welchen genauen Anteil dabei die neutralen Sub stitutionen haben, wird nach wie vor unter Fachleuten diskutiert. 101

Die neutrale Theorie der Molekularen Evolution

102

Fr die neutrale Mutante eines Gens kann nicht die natrliche Se lektion als treibende Kraft der Evolution herangezogen werden. Neu trale Mutanten knnen allein durch die Wirkung des Zufalls in einer Population fixiert werden, das heit alle Individuen der Population sind nach einiger Zeit Trger dieser Mutation. Die Evolutionsrate gibt die Geschwindigkeit an, mit der eine neutrale Mutante in der Popu lation fixiert wird. berraschenderweise hat die Gre der Population keinen Einfluss auf die Evolutionsgeschwindigkeit. In einer Wright-Fisher-Population ist die Evolutionsrate gleich der Substitutionsrate. Die im Lauf der letzten Jahrzehnte angesammelten molekularen Daten ermglichen es, die von der Theorie vorhergesagten Effekte zu berprfen. Da die Evolutionsrate im neutralen Fall nur von der Rate abhngt, mit der neutrale Substitutionen auftreten, bestimmt die Substitu tionsrate die Evolutionsgeschwindigkeit. Betrachtet man Gene, bei denen die meisten Aminosuren fr die Funktion des resultierenden Proteins wichtig sind, so sind die meisten Mutationen schdlich und werden sofort durch negative Selektion eliminiert. In einem solchen Szenario ist nur ein kleiner Anteil aller auftretenden Mutationen selektiv neutral. Allgemein gilt fr protein-codierende Sequenzen, dass die Substitutionsrate an nicht-synonymen Positionen kleiner als an synonymen Positionen ist (siehe Tabelle 1). Ursache dafr ist, dass nur die nicht-synonymen Substitutionen die Aminosure-Se quenz ndern und somit unter Umstnden zu einem funktionsunf higen Protein fhren. Im Gegensatz dazu haben Pseudogene, das heit funktionslos gewordene DNA-Abschnitte, die hchste Evolu tionsrate. Kimuras Modell der neutralen Evolutionstheorie ist nicht unum stritten, hat aber aufgrund seiner Einfachheit und seiner quantitati ven Natur den Vorteil, dass es testbare Vorhersagen macht, die sich anhand molekularer Daten berprfen lassen. Stimmen die Daten 102

Die molekulare Uhr mit den Vorhersagen berein, so kann dies als ein Erfolg der Theorie gewertet werden. Eine klassische Vorhersage der neutralen Theorie ist die Existenz einer molekularen Uhr.

102

Die molekulare Uhr


Emile Zuckerkandl und Linus Pauling (1901-1994) machten 1965 die Aufsehen erregende Entdeckung, dass die Unterschiede zwischen Aminosuresequenzen proportional zur Aufspaltungszeit der Arten sind (Abbildung 36). Sie schlugen daher vor, dass fr jedes Protein die Evolutionsrate mehr oder weniger konstant in der Zeit ist. Eine Be obachtung, die sicher auch Kimura bei der Formulierung der neutra len Theorie inspiriert hat. Mit einer molekularen Uhr und der Kenntnis der Evolutionsrate knnen Aufspaltungsereignisse von Arten ohne fossile Funde datiert werden. Da die Anzahl der Substitutionen (d) proportional zum Pro dukt aus der Zeit (t) seit dem Aufspaltungsereignis und der Evolu tionsrate (m) der Sequenz ist, kann man die Beziehung d=2Pt benutzen, um anhand zweier rezenter Sequenzen entweder die Zeit (t) oder die Evolutionsrate (P) zu schtzen. Die Evolutionsrate einer Art kann dann beispielsweise benutzt werden, um fr andere Arten, bei denen die palontologischen Aufspaltungszeiten unbekannt sind, die Aufspaltungszeit zu ermitteln. Die Evolutionsrate fr die nicht-synonymen Substitutionen des DHmoglobins betrgt P = 0,56 10-9 Substitutionen pro Position und Jahr. Der Vergleich der a-Hmoglobin-Sequenzen zwischen Mensch und Ratte ergibt d = 0,093 Substitutionen pro Position. Somit haben sich die Hmoglobin-Sequenzen von Mensch und Ratte vor t = 0,093 / (2 0,56 10 -9 ) = 80 000 000

103

Die molekulare Uhr

104

Abb.36: Lineare Beziehung zwischen palontologischen Aufspaltungszeiten und der Substitutionsrate verschiedener Proteine.

Jahren aufgespalten. Die Einfachheit dieser Idee und ihre universelle Anwendbarkeit hat in den folgenden Jahren zu einer Flut von Datie rungen gefhrt, die vorher nicht mglich waren. Zu den spektakulrs ten Ergebnissen der Datierung mit Hilfe der molekularen Uhr geh ren die Schtzungen der Aufspaltungszeiten fr Prokaryoten und Eukaryoten (2,0 bis 2,6 Milliarden Jahre), fr Pflanzen, Pilze und Tiere (1,0 bis 1,2 Milliarden Jahren) sowie fr Mensch und Schimpanse (5,0 Millionen Jahre). Die geschtzte Aufspaltungszeit fr Mensch und Schimpanse widersprach dramatisch den damaligen palontologi schen Schtzungen, die von 15 Millionen Jahren ausgingen. Mit der zunehmenden Anzahl an ausgewerteten Sequenzen (meistens Aminosuresequenzen) wurde die Existenz der molekula ren Uhr ein wenig abgeschwcht. Kimura schrieb 1983: For each protein, the rate of evolution in terms of amino acid sub stitutions is approximately constant per year per site for various 104

Der Coalescent-Prozess lines, as long as the function and tertiary structure of the molecule remains essentially unaltered. Wenn ein Gen beispielsweise seine Funktion oder Teile seiner Funk tionalitt verliert beziehungsweise eine neue biologische Funktion erhlt, greift der zweite Teil von Kimuras Zitat. Die Funktionsnde rung des Gens fhrt zu einer nderung der funktionellen Beschrn kungen, die auf das Gen wirken. Eine Konsequenz ist eine nderung der Substitutionsrate. Die Diskussion ber die Existenz einer molekularen Uhr ist auch heute noch nicht abgeschlossen. Eine Reihe von Hypothesen wurden und werden diskutiert, um Abweichungen von der molekularen Uhr zu erklren. Die Hypothesen lassen sich grob in zwei Klassen eintei len: (1) Replikations-abhngige Faktoren wie Generationszeit und Effizienz der DNA-Reparatur und (2) Replikations-unabhngige Fak toren wie Grundstoffwechsel, Krpergre und Umwelteinflsse. Welchen Einfluss die jeweiligen Faktoren tatschlich haben, wird noch kontrovers diskutiert. Sicher ist, dass sowohl (1) als auch (2) ver schieden starke Abweichungen von der molekularen Uhr verursa chen. Daher ist es extrem schwierig, den Beitrag eines einzelnen Fak tors zu ermitteln.

105

Der Coalescent-Prozess
Der Coalescent-Prozess beschreibt die Entstehung einer Genealogie in einer Population beim Zurcklaufen in der Zeit und ist somit eine theoretische Umkehrung der genetischen Drift, bei der das Schick sal einzelner Sequenzen vom Jetzt-Zeitpunkt aus in die Zukunft ver folgt wird. Beim Coalescent-Prozess verfolgt man das Schicksal von Sequenzen vom Jetzt-Zeitpunkt zurck in die Vergangenheit. Entscheidend beim Coalescent-Prozess ist das Verschmelzen von Linien (Individuen oder homologe Sequenzabschnitte). Zum Zeit punkt des Verschmelzens entsteht der gemeinsame Vorfahre der
105

Der Coalescent-Prozess

106

verschmolzenen Linien. Startet man mit vielen Kopien eines Gens, so nimmt deren Anzahl aufgrund der Verschmelzung einzelner Kopien im Laufe der Zeit ab. Letztendlich wird es einen einzigen gemeinsa men Vorfahren aller Linien geben (most recent common ancestor, abgekrzt MRCA). Solange keine Rekombination stattfindet, ent steht durch den Coalescent-Prozess ein Baum, die so genannte Ge nealogie. Diese Genealogie beschreibt die zufllige Verwandtschaft einer Stichprobe von Genkopien. Im Gegensatz zu einem phylogene tischen Baum, der eine einzige Realisierung eines geschichtlichen Prozesses ist, ist die Genealogie immer zufllig. Die groe Popularitt von Genealogien basiert auf der Tatsache, dass sich nicht nur evolutionre Prozesse wie Selektion und Drift, son dern auch unterschiedliche demographische Faktoren, wie Wachs tum oder Schrumpfung einer Population aus den verschiedenen Ver zweigungsmustern ableiten lassen. Anders ausgedrckt: Aus einer Genealogie beziehungsweise deren Verzweigungsmuster kann auf diejenigen Prozesse geschlossen werden, die der Population ihre heu tige Struktur verliehen haben. Umgekehrt lassen sich populations genetische Phnomene (etwa die Ausbreitung erblicher Krankhei ten) mithilfe der Coalescent-Theorie sehr einfach auf dem Computer simulieren. Die Tatsache, dass sich auch komplizierte evolutionre Szenarien mittels effizienter Computerprogramme simulieren las sen, die dann mit den tatschlichen Daten verglichen werden, macht den Coalescent-Prozess mit seinen Modifikationen zu einem der wichtigsten Werkzeuge der Populationsgenetik. Der mathematische Grundgedanke der Coalescent-Theorie wird hier vereinfacht dargestellt. Eine Grundvoraussetzung ist, dass sich die Population nach dem Wright-Fisher-Modell entwickelt. Das WrightFisher-Modell ist gewissermaen das Null-Modell der Populations biologie, es macht die folgenden vereinfachenden Annahmen: Es sei G die Anzahl der Kopien eines Gens in einer Population. G ist in jeder Generation gleich gro, so dass die Population in ihrer Gre weder 106

Der Coalescent-Prozess wchst noch schrumpft. Die Paarung zwischen den einzelnen Mit gliedern der Population ist zufllig und wird nicht von Selektionsfak toren oder geographischer Isolierung beeinflusst. In der Fachsprache wird hierfr der Begriff Panmixie (Allmischung) verwendet. Zwi schen einer Vorfahrengeneration und deren Nachkommen gibt es keine berlappung, das heit dass sich immer nur die Individuen einer Generation paaren. Die Anzahl der Nachkommen pro Individu um ist zufllig. Einige Individuen haben keine Nachkommen, andere haben genau einen, zwei oder mehrere Nachfahren. Die Gesamtan zahl der Nachkommen ist aber in jeder Generation gleich gro. Selektion findet nicht statt. Jedes Individuum hat mit der gleichen Wahrscheinlichkeit Nachkommen, der Reproduktionserfolg ist daher eine zufllige Gre. Werden diese Annahmen erfllt, lsst sich beispielsweise die mitt lere Zeitspanne (gemessen in der Zahl der Generationen) berechnen, bis zwei zufllig ausgewhlte Individuen beziehungsweise Gene I1 und I2 ihren gemeinsamen Vorfahren finden. Es ist klar, dass I1 von einer der G-Kopien der Vorgngergeneration abstammt. Mit Wahr scheinlichkeit 1/G stammt I2 auch von genau diesem Vorfahren ab. Tritt dieses Ereignis ein, so liegt der gemeinsame Vorfahre (MRCA) der beiden Gene nur eine Generation zurck. Mit einer Wahrschein lichkeit von 11/G haben I1 und I2 verschiedene Vorfahren. Ihr MRCA liegt dann wenigstens zwei Generationen zurck. Die eben angestellte berlegung kann fr die direkten Vorfahren von I1 und I2 wiederholt werden. Die Eltern von I1 und I2 haben mit der Wahrscheinlichkeit 1/G ihren MRCA in der Vorgngergeneration oder mit der Wahrscheinlichkeit 1-1/G verschiedene Vorfahren. So mit ist die Wahrscheinlichkeit, dass I1 und I2 ihren MRCA in der 2. Vor fahrgeneration haben (1 1/G) (1/G). Daraus lsst sich die Wahrscheinlichkeit P2(i) berechnen, nach der I1 107

107

Der Coalescent-Prozess

108

und I2 in der i-ten Vorfahrgeneration verschmelzen. Sie ist


i-1 P2(i) = (1-1/G) (1/G) fr i = 1,2,...

Dies ist die geometrische Verteilung mit dem Parameter 1/G. Fr die geometrische Verteilung ist der Mittelwert gerade G. Es werden also durchschnittlich G Generationen bis zum MRCA bentigt. Wie lange dauert es, bis eine Stichprobe von drei Genen ihren MRCA gefunden hat? Wieder gengt es, den bergang von der heu tigen Generation zur Elterngeneration zu betrachten. Abbildung 37 zeigt die mglichen Verschmelzungsereignisse fr drei Gene. Die Wahrscheinlichkeit fr wenigstens eine Verschmelzung ist die Summe der Einzelwahrscheinlichkeiten in Abbildung 37. Man erhlt 3(G-1)/G2 + 1/G2 3/G. Der erste Summand gibt die Wahrscheinlichkeit fr genau eine Ver schmelzung an, es bleiben also zwei Linien brig (Abbildung 37 links). Der zweite Summand steht fr das sehr unwahrscheinliche Ereignis, dass die drei Linien gleichzeitig verschmelzen (Abbildung 37 rechts). Da simultane Verschmelzungen sehr unwahrscheinlich sind, wird der zweite Summand nicht weiter bercksichtigt. Daraus folgt, dass mit der Wahrscheinlichkeit 5/G pro Generation ein Verschmelzungs ereignis stattfindet. Die Wartezeit bis zum ersten Verschmelzungs ereignis betrgt nun G/3 Generationen. Die Stichprobe ist von drei Linien auf zwei Linien verkleinert. In einer zuflligen Stichprobe von n Genkopien aus einer Popula tion gibt es n(n-1)/2 mgliche Gen-Paare, die einen gemeinsamen Vorfahren in der vorhergegangenen Generation haben knnen. Ist n im Verhltnis zu G klein, dann ist die Wahrscheinlichkeit fr das erste Coalescent- beziehungsweise Verschmelzungs-Ereignis in der i-ten Generation

108

Die genetische Variabilitt einer Population fr i = 1, 2, ... Die mittlere Wartezeit Tn bis zwei von n Linien ver schmelzen ist somit Tn = 2G/n(n-1). Je grer die Stichprobe, desto schneller findet das erste Coalescent ereignis statt, da T2 = G, T3 = G/3, T4 = G/6 usw. Hat ein Coalescentereignis stattgefunden, startet der Prozess der Verschmelzung von Linien mit n-1 Linien neu. Bis die letzten beiden Linien verschmolzen sind, vergehen also TMRCA =
Tn + Tn-1 + ... + T2 =
2G{1/n(n-1) + 1/(n-1)(n-2) + ... 1} =
2G(1-1/n) 2G
Generationen. Nach 2G Generationen sind alle Linien auf ihren MRCA, ihren gemeinsamen Vorfahren, zurckgefhrt. Computersimulationen machen es heute mglich, den Coales cent-Prozess auch fr Populationen zu modellieren, die nicht wie das einfache Wright-Fisher-Modell evolvieren. Dafr ist dann die mathe matische Behandlung des Modells in vielen Fllen nicht mehr mg lich.

109

Die genetische Variabilitt einer Population


Im Allgemeinen bezeichnet man mit genetischer Variabilitt oder genetischen Polymorphismen (Vielgestaltigkeit) das Vorhandensein verschiedener Zustnde eines vererbbaren Merkmals in einer Popu lation. Polymorphismen gibt es auf den unterschiedlichsten Ebenen, zum Beispiel morphologische Varianten in einer Population, chromo somale Variabilitt, verschiedene Allele eines Proteins und letztend lich auch Nukleotidvariationen auf dem DNA-Niveau. Die Variabilitt zeichnet die Spuren der Evolutionsgeschichte in einer Population 109

Das Jukes-Cantor-Modell der Sequenzevolution

110

nach. Die genetische Variabilitt eines Gens in einer Population kann nur whrend der Zeitspanne vom MRCA bis heute entstanden sein. Im Wright-Fisher-Modell stehen also 2G Generationen zur Verf gung. Da das Wright-Fisher-Modell sehr einfach ist, kann die erwar tete Variabilitt auf dem Sequenzniveau berechnet werden. Ein Ma fr die genetische Variabilitt in einer Stichprobe von n Sequenzen ist das arithmetische Mittel der paarweisen Sequenzunterschiede (D), wenn das infinite-sites-model zugrunde liegt. Das arithmetische Mittel kann leicht anhand der Daten berechnet wer den. Theoretische berlegungen zeigen, dass (1) D = 2 G P = T MRCA P

ist, wobei P die Substitutionsrate pro Sequenz und Generation ist. Die genetische Variabilitt, gemessen als mittlerer paarweiser Se quenzunterschied, wird also bestimmt durch die Anzahl der Genko pien in der Population und die Mutationsrate. Je mehr Kopien eines Gens vorhanden sind, umso grer ist die Variabilitt. Anstelle der erwarteten Anzahl an paarweisen Unterschieden kann auch die erwartete Anzahl an variablen Positionen Sn in einer Stichprobe von n Sequenzen bestimmt werden. Es gilt (2) Sn = 2GP (1+1/2 + 1/3 +... +1/(n-1)).

Die Formeln (1) und (2) gelten nur fr Populationen mit Wright-FisherModell. Sn ist dabei proportional zu D und die Proportionalittskon stante (1 + 1/2 +1/s + ...+1/(n-1)) hngt von der Stichprobengre ab.

Das Jukes-Cantor-Modell der Sequenzevolution


In den letzten Jahren wurden eine Vielzahl von Modellen zur Se quenzevolution entwickelt, die zum Ziel haben, den Prozess des Nu kleotidaustausches realistischer abzubilden. Getrieben wurden und werden diese Entwicklungen durch die stndige Akkumulation von 110

Das Jukes-Cantor-Modell der Sequenzevolution

111

Abb.37: Mgliche Verschmelzungsereignisse (zwei Gene verschmelzen und das dritte nicht; alle drei Gene verschmelzen) fr drei Gene mit den jeweiligen Wahr scheinlichkeiten.

neuen Sequenzdaten. So ergaben die Auswertungen beispielsweise, dass Transitionen wahrscheinlicher sind als Transversionen, dass die Basenhufigkeiten in unterschiedlichen Regionen des Genoms vari ieren, dass einzelne Positionen eine hohe Mutationsrate haben, wh rend andere Positionen invariabel sind. Diese Beobachtungen kn nen alle in ein einheitliches Evolutionsmodell integriert werden, das dann bei der Auswertung beliebiger Sequenzalignements zur Verf gung steht. Um die prinzipielle Idee von Substitutionsmodellen zu erlutern, wird hier das relativ einfache Jukes-Cantor-Modell vorgestellt. Fr eine mathematische Handhabbarkeit werden eine Reihe von Verein fachungen gemacht: Die vier Nukleotide kommen mit gleicher Hu figkeit vor und alle Substitutionen (Transitionen und Transversionen) sind gleich wahrscheinlich. Daraus folgt, dass Nukleotid-Austausche an jeder Position der Sequenz mit gleicher Wahrscheinlichkeit auf treten. Findet eine Substitution statt, so wird das vorhandene Nukleotid durch eines der drei anderen Nukleotide mit gleicher Rate a ersetzt, wobei a zum Beispiel in Jahren gemessen wird. Eine Posi tion in der Sequenz evolviert mit der Gesamtrate r=3D. Der Parame 111

Wer sind die nchsten Verwandten der Wale?

112

terrist die Evolutionsrate pro Position und Jahr. Er ist typischerweise so klein, dass rauch als Wahrscheinlichkeit fr eine Substitution pro Jahr interpretiert werden kann. Innerhalb von t Jahren finden daher im Mittel r t Substitutionen an einer Position statt. Dann ist Pxx(d) = 1/4 + (3/4) exp[-4d/3] die Wahrscheinlichkeit fr ein identisches Nukleotidpaar, wenn d Substitutionen stattgefunden haben. Mit dieser Gleichung kann aus der Wahrscheinlichkeit fr ein identisches Nukleotidpaar die Zahl der tatschlich stattgefundenen Substitutionen berechnet werden d = (3/4) ln [1(4/3)p)] wobei p = 1-Pxx(d) die Wahrscheinlichkeit fr ein verschiedenes Nu kleotidpaar ist. Diese Formel ist die so genannte Jukes-Cantor-Kor rekturformel zur Berechnung der Zahl an Substitutionen aus den beobachteten Unterschieden. Die Berechnung zeigt, dass fr zwei Sequenzen nur die Zahl der Substitutionen geschtzt werden kann, aber nicht die Evolutionsra te r oder die Zeit W. In der Praxis wird fr zwei Sequenzen der Wert von p geschtzt, indem die Zahl unterschiedlicher Nukleotidpaare durch die Lnge der alignierten Sequenzen geteilt wird; p eingesetzt in die Jukes Cantor-Korrekturformel ergibt die geschtzte Zahl an stattgefunde nen Substitutionen.

Wer sind die nchsten Verwandten der Wale?


Ein nicht-sequenzbasierter Ansatz zur Aufklrung
der Phylogenie

Neben der sequenzbasierten Rekonstruktion von Stammbumen knnen auch andere genetische Merkmale fr die Untersuchung der verwandtschaftlichen Beziehungen von Organismen herangezogen 112

Wer sind die nchsten Verwandten der Wale?

113

Abb.38: Cladogramm der Paarhufer und Wale (Cerartidactyla).


Die Pfeile markieren jeweils die Insertion eines SINEs oder LINEs.

werden. Ausgezeichnete Kandidaten sind zum Beispiel die SINEs und LINEs der Eukaryoten (siehe Abbildung 3). SINEs sind repetitive DNAAbschnitte von 80-400bp Lnge, wohingegen die LINEs von einigen loo bis zu einigen 1000bp lang sind. SINEs und LINEs sind von tRNAs abgeleitete Retrotransposons, das heit bewegliche genetische Elemente, die zur Selbstreplikation in der Lage sind. Anders als bei der Transkription von Genen, bei der die DNA-Sequenz in mRNA um geschrieben wird, dient hier eine tRNA-Sequenz als Matrize fr die zu synthetisierende DNA. Deshalb werden die transponierbaren Ele 113

Wer sind die nchsten Verwandten der Wale?

114

mente als Retrotransposons (retro = rckwrts) bezeichnet. Die repli zierten SINEs oder LINEs werden dann zufllig in das Genom des Organismus integriert. Meist - aber nicht immer! -findet dieser Ein bau in einer nicht-kodierenden Region statt. SINEs und LINEs verhal ten sich dann selektiv neutral. Es wird angenommen, dass Insertio nen von SINEs und LINEs einmalige, irreversible Prozesse sind und es daher sehr unwahrscheinlich ist, dass sie mehrfach unabhngig von einander an der gleichen Stelle im Genom eingebaut werden. Wenn sie einmal an einem bestimmten Ort im Chromosom vorkommen, gehen sie im Verlauf der Evolution so gut wie nie verloren. Ausnah men sind grorumige Deletionen ganzer genomischer Abschnitte. Die Anwesenheit identischer SINEs oder LINEs in relativ nah ver wandten Lebewesen ist daher ein starkes Indiz fr einen gemeinsa men Vorfahren. Solche Daten werden durch eine 0-1-Matix repr sentiert: Ein Transposon ist entweder vorhanden (i) oder nicht vorhanden (o). Fr diese Datenmatrix lsst sich dann mittels Maximum-Parsimonie der zugehrige Baum bestimmen, wobei die Merk male nun die Insertion eines SINEs oder LINEs sind und nicht die Substitution eines Nukleotids. Da die Insertion eines SINEs oder LINEs an einer Stelle im Genom ein einmaliges Ereignis ist und sogar der ursprngliche Zustand (keine Insertion) bekannt ist, eignen sich auf Parsimonie basierte Rekonstruktionsmethoden sehr gut dazu, den zugehrigen Baum zu rekonstruieren. Ein bekanntes Anwendungsbeispiel ist die Aufklrung der ver wandtschaftlichen Beziehung von Walen (Cetacea) und Paarhufern (Artiodactyla) mittels Retrotransposons. Anhand morphologischer und palontologischer Daten wurde bisher vermutet, dass Wale die Schwestergruppe der Paarhufer sind. Der in Abbildung 38 dargestellte Baum basierend auf der Analyse von 21 verschiedenen SINEs und LINEs zeigt, dass die Wale eine monophyletische Gruppe innerhalb der Paarhufer (Artiodactyla) sind und die Schwestergruppe zu den Flusspferden (Hippopotamus) bilden. Bisher bersehene oder unbe 114

Fossile DNA - eine Zeitreise in die Vergangenheit achtete morphologische hnlichkeiten zwischen Flusspferden und Walen sttzen die Schwestergruppen-Hypothese: etwa das Fehlen von Krperhaaren, die Aufzucht der Jungen unter Wasser und die Unterwasserkommunikation. Es wurde daher vorgeschlagen, die Paarhufer unter Einschluss der Wale in der umbenannten Ordnung Cerartiodactlya zusammenzufassen. Dennoch sind SINEs und LINEs nicht der Weisheit letzter Schluss, da es auch die gleichen Probleme wie bei der sequenzbasierten Baumrekonstruktion gibt. Dazu zhlen vor allem das unvollstndige Aussortieren der Linien (incomplete lineage sorting). Auch SINE- und LINE-Bume knnen sich vom Spezies-Baum unterscheiden. In dem speziellen Beispiel der Paarhufer und Wale werden die einzelnen Kanten des Baumes durch mehrere SINEs gesttzt, die an ganz ver schiedenen Stellen im Genom liegen und jeweils die gleiche Ver zweigung sttzen. Zustzlich gibt es eine sehr hohe Kongruenz zwi schen dem Auftreten der SINEs und LINEs und der sequenzbasierten Phylogenie (15 mitochondriale und nukleare Gene), so dass es un wahrscheinlich ist, dass der vorgeschlagene Baum nicht auch der Spezies-Baum ist.

115

Fossile DNA
eine Zeitreise in die Vergangenheit

DNA ist ein sehr instabiles Molekl, das durch Wasser oder Sauer stoff abgebaut wird. Dabei kommt es an den Nukleotiden unter anderem zur hydrolytischen Abspaltung von Stickstoff-Gruppen (= Deaminierung) oder ganzen Purinbasen (= Depurinierung). Im le benden Sugetier ereignen sich spontane Deaminierungen schtz ungsweise 400 Mal pro Tag, die aber von dem Enzym DNA-Glyko sylase sofort erkannt und repariert werden. Zustzlich bilden sich aus den Nebenprodukten der Atmungskette und beim Einwirken ionisierender Strahlung zum Beispiel aus der Atmosphre (= Hinter 115

Fossile DNA - eine Zeitreise in die Vergangenheit

116

Abb.39: Geologische Zeittafel (in Millionen Jahren) mit angeblichen Nachweisen ber fossile DNA. Gesicherte Funde gibt es nur aus dem Quartr (bis maximal 100000 Jahre).

grundstrahlung) freie Radikale, die zu oxidativen Basenschdigun gen fhren. Auch hier gibt es in den lebenden Zellen mehrere Repa raturwege, um schwere Schden zu vermeiden. Nach dem Tod eines Organismus und dem Aussetzen jeglicher Reparaturmechanismen ist es daher unwahrscheinlich, dass DNA ber lange Zeitrume un beschdigt erhalten bleibt. 116

Fossile DNA - eine Zeitreise in die Vergangenheit Theoretische Studien haben gezeigt, dass aufgrund kumulativer Umwelteinflsse die DNA nach 100000 Jahren zerstrt beziehungs weise nicht mehr abrufbar ist. Unter sehr speziellen Umweltbe dingungen wird dieser Abbau allerdings verzgert. Dazu zhlen vor allem Klte, Trockenheit und Sauerstoffmangel. Dies erklrt, warum fossile und subfossile Funde aus Gletschern und dem Packeis der Pole sowie aus Permafrost-Bden beziehungsweise sauerstofffreien Ein schlssen in Mooren trotz ihres Alters noch hinreichend viel DNA liefern. Trotz dieser vielen Einschrnkungen wurde dennoch versucht, alte DNA zu sequenzieren. Die ersten Arbeiten an Museumsstcken be gannen in den 1980er Jahren. In der Arbeitsgruppe von Allan Wilson (1934-1991) an der Universitt Berkeley, Kalifornien, wurde 1984 erfolgreich DNA aus einem 140 Jahre alten Quagga kloniert. Diese Zebraart aus dem sdlichen Afrika war vor ca. 120 Jahren ausgestor ben. Als nchstes wurde in Schweden DNA aus 2400 Jahre alten gyptischen Mumien amplifiziert. Allerdings war die Klonierung wenig effizient, da zum einen groe Mengen an Ausgangs-DNA bentigt wurden und es viele Kopierfehler gab. Erst mit der Erfindung der PCR wurde es mglich, kleinste Mengen an DNA zu vervielfltigen. Damit begann eine neue ra in der Biolo gie; prhistorische Funde lieen sich nun auch mit molekularen Techniken bearbeiten. Mit der Untersuchung von alter, fossiler DNA wurde die Molekularbiologie um die zeitliche Dimension berei chert. Die Ergebnisse erlauben Einblicke in die molekulare Vergan genheit der Organismen. Die Fachrichtung, die molekulare Metho den mit der traditionellen Ahnenkunde verbindet, wird auch als Molekulare Archologie bezeichnet. Kurz nach der Etablierung der PCR berichteten 1992 kalifornische Wissenschaftler ber die erfolgreiche Isolierung und Vervielflti gung kurzer DNA-Bruchstcke aus einer 25-40 Millionen Jahre alten Bienenart (Proplebeia dominicana). Die Biene war im dominikani schen Bernstein eingeschlossen. Wenig spter erlangten Termiten 117

117

Fossile DNA - eine Zeitreise in die Vergangenheit

118

und Kfer aus libanesischem Bernstein vergleichbare Berhmtheit, deren Alter sogar auf bis zu 135 Millionen Jahre geschtzt wurde (Ab bildung 39). 1994 gelang angeblich ein weiterer Durchbruch, nm lich die Sequenzierung eines 170 Basenpaare langen DNA-Ab schnitts aus einem 80 Millionen Jahre alten Dinosaurier-Knochen. Weitere Forschungsgruppen berichteten ber die DNA-Isolierung aus 8-18 Millionen Jahre altem Pflanzenmaterial, darunter Magno lien-Bltter aus limnischen Sedimenten in Idaho (USA). All diese Ergebnisse wurden vom wissenschaftlichen Publikum teils mit Begeisterung, teils mit grter Zurckhaltung aufgenommen. Die Hauptkritik bestand darin, dass keine ausreichenden Vorkehrun gen gegen Kontamination getroffen wurden und nicht eine einzige DNA-Isolierung von unabhngigen Labors besttigt werden konnte. In den 1990er Jahren zeigte eine Arbeitsgruppe des Naturhistori schen Museums London, dass smtliche alte DNA aus in Bernstein eingeschlossenen Insekten Artefakte sind. Die tatschlich amplifi zierte DNA stammte aus anderen, mit den untersuchten Objekten nicht nher verwandten Arten. Selbst viel jngere Insekten, die im weichen Copal (Vorform des Bernsteins) eingebettet sind, enthalten keine DNA. Da Bernstein gasdurchlssige Mikroporen besitzt, wird die eingeschlossene DNA im Laufe der Jahrmillionen durch Oxida tionsprozesse zersetzt. Daher sind im Bernstein die Bedingungen fr die Konservierung von DNA ausgesprochen schlecht, wenngleich Insekten und anderes organisches Material makroskopisch sehr gut erhalten bleiben. Bei der Dinosaurier-DNA haben mehrere Forscher gruppen nachgewiesen, dass die vermeintliche fossile Sequenz ein menschliches Pseudogen ist. Es handelt sich dabei um mitochondri ale DNA-Fragmente, die in das nukleare Genom des Zellkerns inkor poriert wurden. Die Fremd-DNA wurde von den Forschern im Labor ins Reagenzglas bertragen. Dass die Ergebnisse mit alter DNA anfnglich viel Skepsis hervor riefen, ist daher gut zu verstehen. Mittlerweile sind die Schwierig 118

Fossile DNA - eine Zeitreise in die Vergangenheit keiten aber erkannt worden und allgemein akzeptierte, strenge Richtlinien sollen helfen, solche Irrtmer in Zukunft zu verhindern. Eine Erfolgsgeschichte bei der Analyse alter DNA zeichnet sich bei der Sequenzierung von DNA aus 50000-100000 Jahre alten ber resten ab. Einige Forschergruppen haben die verwandtschaftlichen Beziehungen von ausgestorbenen Arten zu ihren rezenten Vertre tern analysiert. Zu nennen sind hier unter anderem die mitochondri alen DNA-Studien (mtDNA) am australischen Beutelwolf. Diese zu Beginn des 20. Jahrhunderts ausgestorbene Art ist nher mit den Beuteltieren des australischen Kontinents verwandt als mit sd amerikanischen Beutelraubtieren, denen sie morphologisch sehr hnlich sind. Ebenso liefert die fossile mtDNA Hinweise, dass Neu seeland zweimal von Vorfahren flugunfhiger, strauenartiger Vgel besiedelt wurde (Abbildung 40). Die Kiwis und die bereits ausge storbenen Moas sind keine Schwestergruppe, was bislang aufgrund morphologischer Untersuchungen angenommen wurde. Die Vor fahren der Moas haben Neuseeland wahrscheinlich in einer ersten Immigrationswelle vor ca. 80 Millionen Jahren besiedelt, als sich die Inseln vom Urkontinent Gondwana abtrennten. Die Entwicklungsli nie der Kiwis scheint sich erst spter, vor ca. 30 Millionen Jahren, von der des australischen Emus abgespalten zu haben. Die Kiwis erreich ten Neuseeland erst whrend einer zweiten Immigrationswelle. Die umfangreichen und gut konservierten fossilen Funde aus den arktischen Permafrostbden erlauben nun auch Untersuchungen zu populationsgenetischen Aspekten. Damit lsst sich ein Bild von der genetischen Komposition einzelner Populationen vor und whrend der letzten Eiszeit rekonstruieren, die dann mit den Daten der heuti gen Populationen in Verbindung gebracht werden. Die mitochondri alen DNA-Linien der Alaska-Braunbren, die heute in getrennten geographischen Regionen vorkommen, haben vor ca. 30000 Jahren in derselben Population zusammengelebt. In einer anderen Studie wurde die mtDNA von 191 rezenten Pferden mit der von 16 fossilen 119

119

Fossile DNA - eine Zeitreise in die Vergangenheit

120

Abb.40: Stammbaum der flugunfhigen Strauenvgel, basierend auf mitochon drialen DNA-Sequenzen

Pferden aus Nordamerika, Estland und Schweden verglichen. Der l teste Knochenfund war 28000 Jahre alt. Die Untersuchungen zeig ten, dass ein Groteil der ursprnglichen Variabilitt der Pferde bei 120

Fossile DNA - eine Zeitreise in die Vergangenheit ihrer mehrfachen Domestizierung erhalten blieb. Wieder andere Un tersuchungen befassen sich mit der Populationsstruktur der vor et wa 10000 Jahren ausgestorbenen Hhlenbren und deren Bezie hungen zu heutigen Braunbren oder untersuchen die vernderte Evolutionsrate bei Adelie-Pinguinen im antarktischen Eis. Groes Aufsehen haben die Untersuchungen von lange verstorbe nen oder bereits fossilisierten Menschen erregt, weil gerade damit unsere eigene Geschichte im Spiegel der Zeit beleuchtet wird. Wie bereits erwhnt, wurde mit den gyptischen Mumien ein erster Meilenstein gelegt. Kurze Zeit spter folgte die Analyse des ca.5000 Jahre alten Tiroler Eismannes, genannt tzi. 1997 wurde die erste Se quenz eines Neandertalers verffentlicht. Hierbei handelte es sich um das Typus-Exemplar aus dem Neandertal bei Dsseldorf. Die mi tochondriale DNA-Sequenz des Neandertalers ist in der heutigen menschlichen Weltpopulation nicht mehr vertreten, sondern spal tete sich vor ca. 500000 Jahren von der Linie zum modernen Men schen ab, lange bevor der jngste gemeinsame Vorfahre (MRCA) des modernen Menschen Homo sapiens sapiens lebte, der ca. 170000 Jahre alt ist. Diese Ergebnisse sind eine weitere Besttigung fr die Arche-Noah-Theorie. Mittlerweile sind DNA-Sequenzen zweier wei terer Neandertaler ermittelt worden, welche die bisherigen Ergeb nisse untermauern. Mit der alten oder fossilen DNA ist die molekulare Evolution in neue Dimensionen der phylogenetischen Analysen vorgestoen, auch wenn Spekulationen ber einen Jurassic Park oder die Wieder belebung bereits ausgestorbener Arten sicher nicht im Bereich der technischen Mglichkeiten liegen.

121

121

Alignement

dot-plot

GLOSSAR

Alignement - Besteht aus zwei Sequenzen, die durch Einfhrung eines Extra-Zeichens (-) auf gleiche Lnge gebracht werden. s.S.23f.,45ff.,76 Allel - Verschiedene Zustandsformen eines Gens, die auf dem glei chen chromosomalen Abschnitt liegen. s. S. 100 Auengruppe - Ein Taxon, das sich von einer Gruppe anderer Taxa abspaltete, bevor diese untereinander divergierten. s. S. 29,49, 70 Baumtopologie - Verzweigungsmuster eines phylogenetischen Baumes. s. S. 40,46,54 bottleneck - (Flaschenhals) drastische Verkleinerung einer Popula tion. s. S. 77,79 Codon - Nukleotidtriplett in der DNA beziehungsweise mRNA, das eine Aminosure festlegt oder das Ende einer Polypeptidkette sig nalisiert (Stopp-Codon). s .S. 7,9,12 Clusterungsmethoden -Verfahren zum Gruppieren und Klassifizie ren von Objekten (Lebewesen), die durch eine Menge von Eigen schaften (Spalten im Sequenzalignement) beschrieben werden. s. S. 44 Dichotomie-Aufspaltung einer Linie in zwei neue Linien. s.S.25 dot-plot - Einfache graphische Darstellung zum Vergleich zweier Sequenzen. s. S. 23f. 122

Evolutionsrate

lineage sorting

Evolutionsrate - Geschwindigkeit, mit der eine Mutation in einer Population fixiert wird. s. S. 702f., 112,121 Genealogie - Gen-Baum, der die Verwandtschaftsverhltnisse von Allelen eines Gens in einer Population beschreibt. s. S. 70ff.,76ff., 105f. Gen-Baum -Stammbaum eines Gens. s. S. 36,42, 55ff. Genom - Die gesamte DNA eines Organismus. Bei Eukaryoten umfasst dies auch die nicht im Kern vorkommende Mitochondrienund Plastiden-DNA. s. S. 4,7ff.,74ff. Homolog- Die untersuchten Merkmale gehen auf einen gemeinsa men Vorfahren zurck. s. S. 8, 63f., 105 Indel - Extra-Zeichen, das in ein Sequenzalignement eingefhrt wird, um die whrend der Evolution aufgetretenen Insertionen oder Deletionen anzuzeigen. s. S. 22f. infinite-site-model - DNA-Substitutionsmodell, bei dem jede Posi tion einer Sequenz nur einmal mutiert. s. S. 78, 82,110 Intron - Nicht-kodierende DNA zwischen den Exons eines Gens. s. S. 11 Klonierung - Selektive Vermehrung eines gewnschten DNA-Frag ments. Dabei entstehen zahlreiche identische Molekle (= Klone), die alle von einem einzigen Vorlufer abstammen. s. S. 4,92,117 lineage sorting - Ursprngliche Polymorphien bleiben ber Artauf spaltungsereignisse erhalten. s. S. 60, 89, 775

123

Linie

Ortholog

Linie - Lckenloser Fortbestand einer Ahnenreihe. s. S. 23,32,59f. Minimale Evolution - Distanzbasierte Baumrekonstruktionsmetho de, s. S. 44 Modell der Sequenzevolution - Mathematische Beschreibung des Substitutionsprozesses. s .S. 21,45f., 110f. Monophyletische Gruppe - Umschliet alle Nachfahren des MRCA einer Gruppe. s. S. 28ff., 52, 114 MRCA (most recent common ancestor) - Der jngste gemeinsame Vorfahre einer Kollektion von Sequenzen, Individuen oder Arten. s. S. 37, 70, 72 Negative Selektion - Eliminierung nachteiliger Mutanten aus einer Population. s. S. 102 Neighbor-Joining - Clusterungsverfahren zur Rekonstruktion von distanzbasierten Bumen. s. S. 39,44f. Nicht-synonyme Substitution - Der Austausch eines Nukleotids im Codon fhrt zu einer nderung der Aminosure. s. S. 76 Nukleotid - Eine Base (Adenin, Cytosin, Guanin, Thymin oder Uracil), die mit einem Zuckermolekl (Ribose oder Desoxyribose) und einer Phosphatgruppe verbunden ist. s. S. 5, 7,14ff. Ortholog - Nennt man zwei Gene, wenn sie aufgrund eines Spezia tionsereignisses entstanden sind. s. S. 63

124

Paralog

Substitutionsmodelle

Paralog - Nennt man zwei Gene, wenn sie aufgrund einer Gendupli kation entstanden sind. s. S. 63 Paraphyletische Gruppen - Enthalten nicht alle Nachkommen einer Stammart. s. S .29f. PCR (Polymerase Chain Reaction) - Enzymatische Vervielfltigung eines DNA-Abschnittes unter Verwendung von zwei OligonukleotidPrimern. s. S. 4,93ff., 117 Polyphyletische Gruppen - Enthalten alle Nachkommen verschiede ner Stammarten, wobei nicht alle Nachfahren des gemeinsamen Vorfahren der Stammarten in der Gruppe vorkommen. s. S.29f. Polytomie - Eine Stammart produziert gleichzeitig mehr als zwei neue Linien. s. S. 25f. Positive Selektion - Beschreibt das Phnomen, dass sich eine besser angepasste Mutation in der Population ausbreitet. s. S. 101 Schwestergruppe - Die zu einer monophyletischen Gruppe nchst verwandte monophyletische Gruppe in einem dichotomen Baum, s. S. 30, 58, 114 Spezies-Baum - Stammbaum, der die Aufspaltungsfolge einer Artengruppe darstellt. s. S. 53, 56ff., 115 Stammart - Die Vorfahrenart, aus der eine monophyletische Gruppe entsteht, s. S. 26,28f., 58ff. Substitutionsmodelle - Austausch eines Nukleotids oder einer Amino sure wird mittels mathematischer Modelle beschrieben. s. S. 22, 111 125

Substitutionsrate

Zuflliger Fehler

Substitutionsrate - Mittlere Anzahl von Nukleotid- oder Aminosu reaustauschen. s. S. 17ff.,51, 102 Synonyme Substitution - Der Austausch eines Nukleotids im Codon fhrt nicht zu einer nderung der kodierten Aminosure. s. S. 16 Systematischer Fehler- Fehler unterschiedlichster Art, die unabhn gig von der Stichprobengre zu einer Verzerrung des Ergebnisses fhren. s. S. 48,50f. Transition - Basenaustausch zwischen Purinen (Adenin vs. Guanin) oder zwischen Pyrimidinen (Thymin vs. Cytosin). s. S. 15,47, 110 Transversion - Austausch zwischen einer Purin- und einer Pyrimidin base. s. S. 75, 19, 22 Wright-Fisher-Modell - Das Nullmodell der mathematischen Popu lationsbiologie. s. S. 77,106, 109f. Zuflliger Fehler - Abweichungen, die aufgrund der Zufallsauswahl der erhobenen Daten entstehen. s.S. 48

126

Literaturhinweise

ALLGEMEINE REFERENZEN Avise J. C: PhylogeographyrThe History and For mation of Species. Harvard University Press 2OOO, Cambridge, Massachusetts. Graur, D. und Li,W.-H.: Fundamentals of Molecular Evolution, 2nd edition. Sinauer Associates 2000, Sunderland, MA. Hillis, D. M. et al. (Hg.): Molecular Systematics. 2. Auflage. Sinauer Associates 1998, Sunder jand, MA. Kimura, M.:The neutral theory of molecular evolution. Cambridge University Press 1983, Cambridge. Klein, J., und Takahata, N.: Where Do We Come from: The Molecular Evidence of Human Descent. Springer-Verlag 2002, Heidelberg. Knippers, R.: Molekulare Genetik. Thieme Verlag 2001, StuttgartLewin, B-: Genes VII. Oxford University Press 2000, Oxford. Li, W.-H.: Molecular Evolution. Sinauer Associates 1997, Sunderland, AAA. Nelson, D. und Cox, M.: Lehninger Biochemie. 3. Auflage, Springer-Verlag 2001, Berlin. Net, M. und Kumar, S.: Molecuiar Evolution and Phylogenetics. Oxford University Press 2000, New York. Pagel, M. D. fHg.): Enydopedia of Evolution. Volume l und 2. Oxford University Press 2002, Oxford. Page, R. D. M. und Holmes, E. C: Molecuiar Evolution: A phyiogenetic approach. Blackwell Science 1998, Oxford. Swofford, D. L et al.: Phyiogenetic inference. In-. Molecular Systematics, 2. Auflage. Hillis D M., et al. (Hg.), Seiten 407-514, Sinauer Associates 1996, Sunderland, MA. Wageie,J.-W.:Grundlagen der Phylogenetischen Systematik. Verlag Dr. Friedrich Pfeil 2000, Mnchen.

SPEZIELLE ARBEITEN Austin, J. i. et al.: Palaeontology in a molecular world: the research for authentic ancient DNA. Trends in Ecology and Evolution 12 (1997): 303-306. Cann, R. L, et a!.: Mitochondrial DNA and human evolution. Nature 325 (1987): 31-36. Dayhoff, M.O.Atlas of Protein Sequences and Structure, Vol. 5, Natl. Biomed. Res. Found. 1972, Washington, DC. Donnelly, P., und Tavare, S.: Coalescence and Genealogical Structure under Neutrality. Ann. Rev. Genet. 20 (1995): 410-421. Fitch, W. M.: Toward defining the course of evolution: Minimum change for a specific tree topology. Syst. Zoo!. 20 (1971): 406-416. von Haesele^A., et al^Thegenetical archaeology of the human genome. Nature 14 (1996): 135-140. Hillis, D. M. et al.: Experimental Phylogenetics: Generation of a known phylogeny Science 255 (1992) : 589-592. Hofreiter, M. et at.: Ancient DNA. Nature Reviews Genetics 2 (2001): 353-359. Hudson, R. R.: Gene genealogies and the coalescent process. Oxford surveys in evoiutionary biology-7 (ig9o),i-44. Janke, A., et ai.:The mitochondrial genome of a monotreme - the platypus (Ornithorhynchus anatinus)J.Mol. Evol.42 (1996): 153-159. Jukes, T. H. und Cantor, CR.: Evolution of protein molecules. In: Mammalian protein metabolism. H. N. Munro (Hg.), 21-132. Academic Press 1969, New York. Kaessmann, H., et al. DNA sequence variation in a non-coding region of low recombination on the human X chromosome. Nature 22 (1999): 78-81. Kaessmann, H.: Great ape DNA sequences reveal a reduced diversity and an expansion in humans. Nature Genetics 27 (2001): 155-156.

127

Literaturhinweise

Mullis, K. 8., und Faloona, F.: Specific synthesis of DNA in vitro via a polymerase catalyzed chain reaction. Methods Enzyrmo!. 155 {1987): 335-350. Muse, S.V. und Weir, B. S,: Testing for equality of evolutionary rates. Genetics 132 (1992): 269276. Nikaido, M. et al.: Phylogenetic relationships among cetartiodactyis based from evidence from SlNEs and LINES: Hippopotamuses are the closest extant relatives of the whales Proc. Natl. Acad. Sei. 96 (1999): 10261-10266. Nordborg, M.:Coatescent Theory, in: The Handbook of Statistical Genetics, D.J. Balding et al. (Hg.}, 179-212, Chichester 2001. Ou, C.-Y. et al.:Mofecular Epidemiology of HIV transmission in a dental practice. Science 256 (1992): 1165-1171. Pamilo, N., urd Nei, M.: Relationships between gene trees and species trees. Mol. Biol. Evol. 5 (1988): 568-583. Saitou N-, und Nei, M.:The neighbor-joining method: A new method for reconstructing phylogenetic trees. Mol. Biol. Evot. 4 (1987): 406-425.

5arich,V M. und Wilson, A.C.: Immunological time scale for hominid evolution. Science 158 (19 67} :i 200-1203. Satta,Y.,et al.: DNA archives and our nearest relative: The trichotomy problem revisited. Moi. Phyl. Evol. 5 (2000): 259-275. Tajima, F.: The effect of change in population size on DNA polymorphisms. Genetics 123 (1989): 597-601. Tajima, F,; Statistical Tests for testing the neutral mutation hypothesis by DNA polymorphism. Genetics 123 (1986): 585-595. Vigilant, L, et al.: African population and the evolution of human mitochondria! DNA. Science 253 (1991): 1503-1507. Watterson, G.A.: On the number of segregating sites in genetica! models without recombination. Theor. Pop. Biol. 7 (1975): 256-276. Woese C. R.;The universal ancestor. Proc. Natl. Acad. Sei. 95: (1998): 6854-6859. Zuckerkandl, E., und Pauling, L: Evolutionary divergence and convergence in proteins. In Evolving genes and proteins. V. Bryson und HJ. Vogel (Hg.), 97-166. Academic Press 1965, New York.

Danksagung Unser Dank geht an alle, die unser Vorhaben aktiv untersttzt haben. Fr ihre Geduld bedanken wir uns besonders bei Ulrike Friedrichs und Andreas Heibig. Ganz besonders herzlich danken wir Klaus Liebers, der mit seiner Sorgfalt und reichen Erfahrung wesentlich zum Gelingen des Vorhabens beigetragen hat.

Abbildungsnachweise: Abb. 4 nach: Bayrhuber, H. und Kuli, U. (Hg,). Linder Biologie, 1989; Abb. 9 u. 11 nach: Page, R. D. M. und Holmes, E. C, 1998; Abb. 17 nach: Hitiis, D, M. et al.,1992; Abb. 24 nach: Li, W.-H., 1997; Abb. 30 nach: Kaessmann, H 2001; Abb. 31 nach: Weber, U. (Hg.): Biologie Oberstufe, 2001; Abb. 32 nach: von Haese!er, A., et al., 1996; Abb. 36 nach: Graur, D. und Li, W.-H., 2000; Abb. 38 nach: Nikaido, M. et al., 1999; Abb. 39 nach: Austin, j. J. et al., 1997; Abb. 40 nach: Pbo, S.: DNA aus alter Zeit. Spektrum der Wissenschaft, Januar 1994; Abb. U3 nach: Pagel M. D. (Hg.), 2002. Da mehrere Rechteinhaber trotz aller Bemhungen nicht feststellbar oder erreichbar waren, verpflichtet sich der Verlag, nachtrglich geltend gemachte rechtmige Ansprche nach den blichen Honorarstzen zu vergten.

Das könnte Ihnen auch gefallen