Beruflich Dokumente
Kultur Dokumente
Datengetriebene
6/11
Wissenschaft
un
d Ein
He eP
ide ub
Th lber l
eo ge ikatio
ret r In nv
isc st
he itut on
Stu für
die
n
Das Unmögliche demnächst –
nur Wunder dauern etwas länger
A ls ich in die Wissenschaft einstieg, war man schon froh, wenn man mit dem Rechner eine
Kurve »plotten« konnte – gerne auch mal in Abhängigkeit von zwei Variablen, also echt
dreidimensional! Später gelang es vereinzelt sogar, dynamische Probleme mit Hilfe von Differenzial
gleichungen für einige Zeitschritte zu verfolgen. Und das vom »Terminal« aus, ganz ohne Loch
streifen oder -karten – ein absolutes Highlight in der Computersteinzeit.
Der Rückblick sei gestattet, um die Dimensionen des Fortschritts zu begreifen: Welche Probleme
sich heute mit Superrechnern behandeln lassen und welch riesige Datenmengen dabei produziert
und gezielt ausgewertet werden, überstieg noch vor wenigen Jahren fast die Vorstellungskraft oder
galt schlicht als unmöglich. Darum erstaunt es mich immer wieder, was in der Wissenschaft inzwi
schen alles machbar ist – und was insbesondere auch an dem vom Wissenschaftsmäzen Klaus
Reinhard Breuer Tschira gegründeten Heidelberger Institut für Theoretische Studien passiert, mit dem sich dieser
Sonderteil beschäftigt.
Die dort tätigen Forscher stellen ausgewählte Projekte ihrer Arbeit auf den folgenden Seiten
selbst vor, betreut und unterstützt von der Redaktion von »Spektrum der Wissenschaft«. Einige
haben vorher schon in unserem Magazin geschrieben oder wurden darin porträtiert: so der Computer
linguist Michael Strube (»Wikipedia: Wissen für die Künstliche Intelligenz«, 12/2010, S. 94) und der
Astrophysiker Volker Springel (»Vielleicht laufen wir einem Phantom nach«, 11/2010, S. 34).
W er hätte sich träumen lassen, was Forscher heutzutage mit Hilfe von Simulationen – so nennt
man die Berechnungen inzwischen – alles ergründen können: neben der Entstehung von
Galaxien (S. 10) und der automatischen Erkennung natürlicher Sprachen (S. 30) auch die Stammes
geschichte von Organismen (S. 22) oder die Wechselwirkung von Proteinen (S. 14). Man möchte an
numerische Zauberei glauben, so schnell gerät das (einst) Unmögliche in Reichweite – nur Wunder
dauern immer noch etwas länger.
Mit den exponentiell anwachsenden Datenmengen und Publikationen wächst aber zugleich
das Problem, sich darin noch zurechtzufinden. Entsprechend arbeiten auch Gruppen am HITS über
Datenbankmanagement, beispielsweise um für Forscher Informationen über Stoffwechselprozesse
bereitzustellen (S. 26). Denn die Simulation von Problemen mit niemals völlig zutreffenden, aber
oft nützlichen Modellen (wie Klaus Tschira in seinem Editorial auf der nächsten Seite vermerkt) ist
nur ein Aspekt jener »datengetriebenen Wissenschaft«, die mit dem Siegeszug der Höchstleistungs
rechner immer mehr an Bedeutung gewinnt. Auf die immensen Herausforderungen, vor die sie
alle Forschungsgebiete stellt, weist HITS-Chef Andreas Reuter in seinem Beitrag ab S. 6 hin.
Ob diese Herausforderungen schon überall verstanden sind, lässt sich bezweifeln. Wohin jedoch die
abenteuerliche Reise vermutlich geht, können Sie bei der Lektüre der folgenden Artikel erahnen.
Reinhard Breuer
Editor-at-Large
Spektrum der Wissenschaft
W as tun Wissenschaftler, die in der Grundlagenforschung arbeiten, die also versuchen, be
stimmte Teilaspekte der uns umgebenden Welt zu verstehen? Manche von ihnen machen
das, was die meisten Menschen von Wissenschaftlern erwarten: Sie beobachten, zählen, messen,
registrieren, katalogisieren. Das sind die Empiriker. Sie streben danach, möglichst genaue Informa
Tim Wegner, © klaus tschira stiftung
D ie zwei genannten Arbeitsweisen ergänzen sich auf fruchtbare Weise. So nutzte Johannes
Kepler das umfangreiche Beobachtungsmaterial Tycho Brahes zur Formulierung seiner Plane
tengesetze – ein klassisches Beispiel dafür, wie Messergebnisse durch Theoriebildung zu neuen
Erkenntnissen führen. Manchmal ist das theoretische Modell auch zuerst da. Dann dienen Messun
gen dazu, es durch Vergleich mit seinen Voraussagen nachträglich zu bestätigen oder zu widerlegen.
In diese Kategorie fällt Einsteins allgemeine Relativitätstheorie, die erst Jahre später experimentell
untermauert wurde.
Natürlich befruchten Theorien auch die empirische Seite der Wissenschaft. So ermöglichen sie
neue experimentelle Fragestellungen oder innovative Messverfahren. Weder Experimente noch
Theorien allein verhelfen also zu grundlegenden neuen Einsichten. Nur ihr Wechselspiel bringt die
Wissenschaft voran.
Seit etwa 20 Jahren verschiebt sich jedoch die Balance zwischen Experiment und Theorie in
einem Maß, das teils schon eine Entkopplung befürchten lässt. Der Hauptgrund dafür ist, dass
erheblich mehr Fördermittel in Experimentiereinrichtungen wie Beschleuniger, Teleskope, Sequen
zierer oder Computer geflossen sind als in die Theoriebildung. In Verbindung mit dem rasanten
Leistungszuwachs in der Halbleitertechnik kam es so zur Ansammlung gigantischer Datenmengen,
die kein Mensch mehr allein durch Sichten und Nachdenken verarbeiten kann. Die Frage, wie solche
Datenfluten jemals zu Theorien verdichtet, zu Erkenntnis veredelt werden können, geriet völlig in
den Hintergrund. Das war für mich der Impuls zur Gründung des gemeinnützigen Heidelberger
Instituts für Theoretische Studien (HITS).
Daten gibt es, wie gesagt, in Hülle und Fülle, und zwar auf allen Gebieten der Naturwissen
schaften und darüber hinaus. Die Forschungsgruppen des HITS sollen technisch und organisatorisch
die Möglichkeit bekommen, Methoden zu entwickeln und zusammen mit experimentell arbeitenden
Forschern zu erproben, die es erlauben, diese Datenmengen effektiv zu verwalten und zur Gewin
nung neuer Einsichten nutzbar zu machen. Wenn dabei gelegentlich regelrechte Forschungs-Hits
entstehen, ist das ganz im Sinne des Erfinders.
Klaus Tschira
Geschäftsführer HITS gGmbH
Datengetriebene Wissenschaft 3
inhalt
6 D
atengetriebene Forschung –
Herausforderung für die Informatik
Von Andreas Reuter
Auf allen Gebieten der Natur- und Inge
nieurwissenschaften gewinnt eine Arbeits-
methode an Bedeutung, bei der die Ana-
lyse sehr großer Mengen von Daten zu
neuen Erkenntnissen führt. Mit welchen
technischen und organisatorischen Maß-
nahmen kann die Informatik eine solche
datengetriebene Forschung unterstützen?
10 Der Kosmos im Computer
Von Volker Springel
In den fortgeschrittensten Supercomputer-
simulationen versuchen Forscher, eine
Brücke vom Universum kurz nach dem
Urknall bis zur Gegenwart zu schlagen. Sie
untersuchen, wie sich aus der einst homo-
gen verteilten Materie die heutige Vielfalt
von Galaxien entwickeln konnte
14 D
as biomolekulare Erkennungspuzzle
Von Rebecca C. Wade
Proteine sind die Funktionsträger des
Lebens. Ihre Wechselwirkungen miteinan-
der und mit anderen Biomolekülen sorgen
dafür, dass Zellen ihre Aufgabe im Organis-
mus erfüllen. Um diese Wechselwirkungen
besser zu verstehen, setzen Forscher zuneh-
mend rechnergestützte Methoden ein. Com-
putersimulationen von Proteininteraktio-
nen leisten auch einen immer wichtigeren
Beitrag zum Design von Wirkstoffen gegen
Krankheiten und in der Biotechnologie
mit frdl. gen. von Anne Ashley und Gerard manning, salk institute
und der Stammbaum des Lebens
Von Alexandros Stamatakis
Eine wahre Flut von DNA-Daten ermöglicht
inzwischen immer präzisere Rekonstruk
tionen von Stammbäumen – im Prinzip
jedenfalls. In der Praxis überfordern exakte
Lösungen auch die leistungsfähigsten
Computer. Die Herausforderung heißt
Europa
Zeitalter
deshalb, die Effizienz der Programme für Kunst
Moderne
Deutschland
Russland
26 Pfade im Informationsdschungel
Phosphoglucose- Person Phosphofructo- Kultur
Hexo-Kinase (Europa) Aldolase
+
Isomerase (Bildende Kunst) Kinase
Neuzeit
Deutscher
Deutscher
Daten in der Flut an Publikationen aufzu Pyruvat- H2O
Enolase
Komponist Phosphoglycerat-
Künstler
Phosphoglycerat-
Russischer
Künstler
Glycerinaldehyd-
Künstler
3-phosphat-
der Neuzeit Triosephosphat-
Kinase (Klassische Musik) Mutase Kinase Dehydrogenase Isomerase
finden Komponist
(Kirchenmusik)
Russische
Musik
Komponist (Oper)
ATP ADP H2O ATP ADP NADH, H+
Grafiker
Deutscher
Musiker Russischer NAD+
Künstler
der Moderne
Pyruvat Phosphoenol- 2-Phospho- 3-Phospho-
Musiker 1,3-Bisphospho-
Radierer
pyruvat Komponist glycerat
Deutscher
glycerat glycerat
Künstler
Ludus Tonalis Ernst Ludwig Paula des Suprematismus
guistik ihre Erfolge erzielt Musikalisches
Werk
Kirchner Modersohn-Becker
Dadaismus
Mathis der Maler
Werk von
Ballett (Werk) Igor Strawinski
Künstler
Frau Hannah Höch des Dadaismus
Oper (Werk)
34 Virtuelle Forschungs-
The Rake’s
Le sacre
Progress
du printemps
Datengetriebene Wissenschaft 5
Datengetriebene Forschung –
Herausforderung für die Informatik
Auf allen Gebieten der Natur- und Ingenieurwissenschaften gewinnt eine Arbeitsmethode
an Bedeutung, bei der die Analyse von sehr großen Mengen an Daten zu neuen Erkenntnissen
führt. Mit welchen technischen und organisatorischen Maßnahmen kann die Informatik eine
solche datengetriebene Forschung unterstützen?
D
erzeit vollzieht sich ein grund- beitsteilige Vorgehensweise nicht bewältigen. Heute gilt die Simulation vielfach als drit-
legender Wandel in den Natur- Zum anderen stehen Wissenschaftler immer te Säule der Wissenschaft – neben Experiment
und Ingenieurwissenschaften – häufiger nur noch in sehr indirektem Kontakt und Theorie. Manche sprechen ihr zwar die-
und das gleich auf mehreren mit den Gegenständen ihrer Untersuchung, sen Rang ab und betrachten sie nur als eine
Ebenen. So ändern sich etwa als Folge des seien es Zellen oder Galaxien. von mehreren möglichen Arten, theoretische
Internets und der darauf aufbauenden Diens- Wenn wir die Entwicklung im Methoden- Modelle auszuwerten. Tatsache aber ist, dass
te die Kommunikationsstrukturen innerhalb vorrat der Naturwissenschaften einmal Revue ohne Simulation viele Modelle »steril« bleiben
und zwischen den Fachgebieten ganz erheb- passieren lassen (unterer Kasten auf S. 8), so würden, da es nicht möglich wäre, Ergebnisse
lich. Außerdem entwickeln sich neue Organi- gab es ganz am Anfang die empirische Be- daraus abzuleiten.
sationsformen für wissenschaftliche Einrich- schreibung, die sich gelegentlich zu – gleich- Von der Simulation führt der Weg schließ-
tungen, die der rasch wachsenden Komplexi- falls empirisch abgeleiteten – Handlungsre- lich zur datengetriebenen Wissenschaft. Auf
tät der Forschungsvorhaben Rechnung tragen. geln verdichtete. Parallel dazu, aber doch mit den ersten Blick scheint sie nichts grundsätz-
Das wiederum erfordert neue Finanzierungs einer merklichen Verzögerung, entwickelte lich Neues zu bieten; schließlich geht es nur
modelle für wissenschaftliche (Groß-)Vorha- sich die Theoriebildung. Ihr Ziel war, formali- um die Zusammenführung von Experiment
ben. Ferner wandelt sich die Position der sierte Modelle der beobachteten Phänomene (Messung), Theoriebildung und Simulation
Wissenschaft in der Gesellschaft: Ihr wird – zu erstellen. Diese sind aber nur um den Preis zu einem kohärenten Methodenvorrat. Das
zumindest in den westlichen Ländern – sehr idealisierender Annahmen möglich – bei- eigentlich Interessante ist jedoch der Grund,
viel mehr Transparenz und Rechtfertigung der spielsweise durch Vernachlässigung der Rei- der diese Zusammenführung notwendig
Ziele und Methoden abverlangt als früher. bung bei der Beschreibung von Bewegungs macht: die rasch wachsende Menge von Da-
Aber auch die wissenschaftliche Methodik gesetzen. ten, die von Messgeräten (wie Satelliten, Tele-
selbst befindet sich im Umbruch. In der öf- skopen, Sequenziermaschinen und Microar-
fentlichen Wahrnehmung, die sich in Filmen Rasch anschwellende Datenflut rays) oder aus Simulationen (etwa Klimavor-
oder Reportagen widerspiegelt, erscheint Wis- Der nächste Schritt bestand darin, den Grad hersagen und Szenarienanalysen) stammen.
senschaft immer noch als Tätigkeit, der ein- der Idealisierung zu verringern, um auch Denn die Menge neu erzeugter und gespei-
zelne (vorzugsweise geniale) Forscher in der komplexe Vorgänge wie etwa die Verformung cherter Daten verdoppelt sich jedes Jahr, oder
Abgeschiedenheit eines Labors nachgehen. eines Autos beim Aufprall oder die Flugeigen- anders ausgedrückt: In jedem einzelnen Jahr
Dort kommen sie nach zähem Ringen und di- schaften eines Flugzeugs so realistisch beschrei fallen mehr experimentelle oder Simulations-
versen Geistesblitzen zu bahnbrechenden Er- ben zu können, dass sich die Ergebnisse der daten an als in allen Vorjahren zusammen. Am
kenntnissen – oder aber erfinden eine fürch- Modellanalyse auf das tatsächliche System Anfang sieht eine solche exponentielle Wachs-
terliche Waffe, je nachdem, ob sie auf der Sei- übertragen lassen. Dies führte zu sehr kompli- tumskurve noch relativ harmlos aus, und tat-
te der Guten oder der Schurken stehen. zierten Modellen, deren Gleichungen nicht sächlich konnten Forscher immerhin bis ins
Dieses romantisierende Bild hat mit mo- mehr direkt lösbar waren. In solchen Fällen 20. Jahrhundert hinein Messergebnisse durch
derner Forschung wenig zu tun. Zum einen bleibt nur die Möglichkeit, mit Methoden der Sichten und Darübernachdenken analysieren.
wird Wissenschaft in immer größeren, kom- numerischen Mathematik Näherungslösun- Mit zunehmender Automatisierung der
plexeren Projekten und Projektverbünden or- gen zu bestimmen, was bei großen Problemen Messgeräte und dem breiteren Einsatz von Si-
ganisiert – man denke etwa an den Large wie etwa der Crashsimulation im Automobil- mulationsmethoden sind die Daten in vielen
Hadron Collider (LHC) bei der Europäischen bau Gleichungssysteme mit Hunderttausen- Projekten jedoch schon längst auf einen Um-
Organisation für Kernforschung CERN in den oder Millionen von Unbekannten ergibt. fang angewachsen, der es völlig unmöglich
Genf. Solche Vorhaben lassen sich ohne in- Deren Handhabung ist überhaupt nur noch macht, sie im herkömmlichen Sinn direkt in
dustrielle Methoden und eine hochgradig ar- mit dem Computer möglich. Augenschein zu nehmen. Hierzu nur zwei
Projektdokumentation
Messgerät mit
eigenem Speicher
Festplatte Referenzierung
Verknüpfung mit der
Einbindung wissenschaftlichen
weiterer Daten Struktur- Literatur
anpasssung
passiv
Magnetband
Gutachter
Daten-
Laufwerk sammlung
Erweiterbarkeit
aktiv
Datenextraktion
Datenerfassung
Spektrum der Wissenschaft / Buske-Grafik, nach: Andreas Reuter
globaler Datenpool
Observatorium
Datengetriebene Wissenschaft 7
Speicherung aufzubereiten, was weitere hohe miteinander verknüpfen zu können, um über- Modellierungsmethoden einsetzt, muss es
Anforderungen an die Leistungsfähigkeit der greifende Fragen zu untersuchen. Zum Bei- möglich sein, die Daten flexibel in der dafür
Hard- und Software stellt. spiel müssen in der Klimaforschung meteoro- erforderlichen Struktur bereitzustellen.
Das Abspeichern hat dabei so zu erfolgen, logische, ozeanografische, geografische, statis- Zur Verarbeitung der Rohdaten gehört
dass die Bestände wachsen können, unter tische und etliche weitere Datensammlungen auch, sie zu verdichten; denn nur in kompri-
Umständen um mehrere Größenordnungen. zueinander in Beziehung gesetzt werden. Das mierter Form kann der Forscher die enthal
Außerdem muss jederzeit eine Erweiterung scheitert heute oft an ihrem unterschiedlichen tene Information aufnehmen. Die Software
um neue Informationskategorien und Daten- Aufbau. So verwenden die einzelnen Diszipli- sollte möglichst verschiedene Arten der Ver-
strukturen möglich sein. nen häufig andere Begriffe und Einheiten dichtung erlauben, so dass sich im Einzelfall
Verwandt damit ist die Forderung, Daten oder nicht einmal dasselbe Koordinatensys- diejenige Methode auswählen lässt, die am
aus verschiedenen Projekten und Disziplinen tem. Da jedes Fachgebiet zudem seine eigenen besten zu den jeweiligen Daten und Modellen
passt. Von besonderer Bedeutung ist dabei die
visuelle Darstellung.
Meist müssen Datenbestände für verschie-
Größenvergleich dene Auswertungen immer wieder durchsucht
1 Petabyte = 1015 Bytes = 1 000 000 000 000 000 Bytes und verarbeitet werden. Wenn sie sehr groß
Buch mit 330 Seiten: 1 Million = 106 Buchstaben (1 Buchstabe entspricht 1 Byte) sind, beansprucht das viel Zeit. Die Geschwin-
Library of Congress: Rund 31 Millionen Bücher (ohne Handschriften, Fotos und so digkeit des Zugriffs auf gespeicherte Daten
weiter); 1 PB entspricht also dem Umfang von 10 Millionen Kongressbibliotheken. beträgt heute bestenfalls 1012 Bytes (1 Tera
Schnelle DSL-Leitung: 50 Mbit/Sekunde ð 8 × 106 Bytes/Sekunde byte) pro Sekunde; 10 PB zu durchsuchen,
Transfer von 1 PB über diese Leitung: 1,25 × 108 Sekunden ð 1448 Tage ð 4 Jahre dauert somit rund drei Stunden. Um übermä-
ßige Wartezeiten zu vermeiden, sollte man
deshalb den Daten Indexstrukturen überstül-
pen können, die es erlauben, jederzeit gezielt
relevante Teilmengen auszuwählen.
Entwicklung der wissenschaftlichen Vorgehensweise
Wenn Forschungsarbeiten auf der Auswer-
Bis vor rund 300 Jahren: Empirie
aus: Tycho Brahe, Mechanica, 1602
Naturphänomene wachsender Komplexität lassen sich mit zu- beitsgruppen durchgeführt werden. Jede Ein-
nehmender Genauigkeit auf Computern simulieren – oft unter richtung erzeugt oder verarbeitet in diesem
Rückgriff auf mathematische Modelle. Fall einen Teil der Daten, wobei andere Ko-
operationspartner eventuell auf ihre Ergebnis-
Heute: Datengetriebene Wissenschaft se zugreifen. Da auch Urheberrechte und Fra-
Experiment, Theoriebildung und Simulation wer- gen der wissenschaftlichen Priorität eine Rolle
den zusammengeführt: spielen, muss gewährleistet sein, dass keine
➤ Geräte und Simulationen erzeugen sehr große Gruppe Daten einer anderen sehen kann, die
Mengen von Daten. diese nicht zur gemeinsamen Nutzung freige-
➤ Diese Daten werden durch Software aufbereitet. geben hat. Eng damit verwandt ist die Forde-
➤ Die Daten und die daraus abgeleiteten Informa- rung, dass alle Interaktionen der Wissenschaft-
tionen werden in Computern gespeichert. ler mit den Datenbeständen – wie Modellde-
➤ Die Wissenschaftler analysieren die Daten- finitionen, Auswertungen, Veröffentlichungen
sammlungen mit Hilfe von Suchverfahren, sta- und so weiter – automatisch zu einerProjekt-
tistischen Methoden, Visualisierungsverfahren dokumentation zusammengeführt werden.
und so weiter. Allerdings sollen die Schutzvorkehrungen
kleines Foto: ESO, Stéphane Guisard;
rechts: Besselfunctions, CC-by-2.5
die Zusammenarbeit nicht behindern. Tat-
Datengetriebene Wissenschaft 9
Der Kosmos im Computer
Die Arbeitsgruppe »Theoretische Astrophysik« schlägt eine Brücke vom Universum
kurz nach dem Urknall bis zur Gegenwart. In den fortgeschrittensten Super
computersimulationen untersuchen die Forscher, wie sich aus der einst homogen
verteilten Materie die heutige Vielfalt von Galaxien entwickeln konnte.
A
stronomie und Astrophysik be Vielleicht die größte Zumutung, welche ausgesehen hat. Zu jener Zeit waren Materie
schäftigen sich mit dem wohl die moderne Kosmologie für unseren Ver und Strahlung fast perfekt gleichmäßig ver
größten aller denkbaren For stand bereithält, ist aber die Entdeckung, dass teilt, abgesehen von winzigen Abweichungen,
schungsgegenstände: dem Uni das Universum vor allem so genannte Dunkle den Folgen von Quantenfluktuationen in ei
versum als Ganzem. Tatsächlich sprengen die Materie und Dunkle Energie enthält. Erstere ner frühen Phase des Urknalls. Diese lassen
Dimensionen der Zahlen in diesen Diszipli besteht aus einer bislang noch nicht nachge sich noch heute messen, denn sie sind dem
nen die menschliche Vorstellungskraft und wiesenen Teilchenart, die sich vor allem durch extrem gleichmäßigen »Hintergrund« aus
Erfahrungswelt. Welche physikalische Größe ihre Schwerkraftwirkung verrät. Die Dunkle Mikrowellenstrahlung aufgeprägt, der das All
man auch betrachtet – ob Temperatur, Dich Energie ist noch rätselhafter. Forscher machen erfüllt. Die Astronomen vermuten, dass die
te, Druck oder Magnetfeldstärke –, im Univer sie für die beschleunigte Ausdehnung des Kos Schwankungen gleichsam die Saatkörner für
sum finden wir dafür fast durchweg Zahlen mos verantwortlich. alle späteren von der Schwerkraft geformten
werte, die um viele Größenordnungen über Im Universum dominieren also keines Materiestrukturen im Universum darstellen.
allem liegen, was wir auf der Erde und in un wegs die Atome der »normalen«, so genann Um die Entstehung dieser Strukturen zu
seren Laboratorien je werden messen können. ten baryonischen Materie. Vielmehr repräsen untersuchen, sind wir mittlerweile nicht mehr
Schon grundlegende Tatsachen über den tiert der Stoff, aus dem wir selbst ebenso wie allein auf Beobachtungen angewiesen. Viel
Kosmos übersteigen unseren Erfahrungshori Sterne und Galaxien bestehen, gerade einmal mehr haben sich Computersimulationen als
zont. Wir wissen heute, dass das Universum vier Prozent der kosmischen Energiedichte. außerordentlich wichtiges neues Forschungs
etwa 13,6 Milliarden Jahre alt ist, dass dieses Diese Erkenntnis verdanken wir dem instrument etabliert. Dank ihrer Hilfe lassen
Raumzeitgebilde expandiert und dass sich die Lambda-CDM-Modell (Lambda Cold Dark sich komplexe physikalische Gleichungssyste
Expansion sogar immer weiter beschleunigt. Matter), das als Standardmodell der Kosmo me lösen, ohne dass wir auf Vereinfachungen
Wir wissen, dass Sterne viele hundert Millio logie gilt. Als umfassende Theorie des Univer zurückgreifen müssen, welche die Ergebnisse
nen Jahre lang leben – aber nicht ewig –, dass sums erklärt es eine Vielzahl astronomischer verfälschen. Auch virtuelle astrophysikalische
Planeten um andere Sterne eher die Regel als Daten und macht auch genaue Voraussagen Experimente sind nun möglich. Im Compu
die Ausnahme sind und dass große Galaxien darüber, wie das All unmittelbar nach dem ter können wir beispielsweise zwei Galaxien
gewaltige Schwarze Löcher beherbergen. heißen Urknall vor 13,6 Milliarden Jahren kollidieren und miteinander verschmelzen
Datengetriebene Wissenschaft 11
XXL-Simulation bilden sich tatsächlich auch etwa eine Gaswolke nur deshalb allmählich zu nannten Voronoi-Zelle umgeben sind. Diese
Galaxienhaufen, die ein wenig mehr Masse einem Stern, weil sich die Teilchen gegenseitig besteht einfach aus derjenigen Raumregion,
besitzen. Noch besteht daher kein offensicht anziehen. die näher an diesem Punkt liegt als an irgend
licher Grund zur Besorgnis: Alle Galaxien Astrophysiker müssen also neue Wege ge einem anderen. Gemeinsam bilden die Voro
haufen, die je beobachtet wurden, lassen sich hen, um geeignete numerische Verfahren für noi-Zellen dann ein Voronoi-Gitter, das den
weiterhin mit dem kosmologischen Standard die Kosmologie zu entwickeln. Die zentrale Raum gewissermaßen pflastert. Die Wände
modell erklären. Doch schon die Entdeckung Idee des Ansatzes zur Simulation baryonischer zwischen den Zellen sind die Ebenen, welche
eines einzigen Haufens, dessen Masse diese Gase, den unsere Gruppe entwickelt hat, ist die Verbindungsstrecken benachbarter Punk
Grenze deutlich überschreitet, könnte es wi der Einsatz eines unstrukturierten Gitters, das te in der Mitte senkrecht durchschneiden (sie
derlegen. im Unterschied zu herkömmlichen Verfahren he Abbildung S. 11). Nun kann man, wäh
nicht stationär ist, sondern sich mit dem Gas rend sich Gestalt und Topologie des Gitters
Eher ein Gas als eine Flüssigkeit mitbewegen kann. Dadurch lässt sich genau kontinuierlich ändern, die Bewegung der ein
Trotz ihrer beeindruckenden Größe besitzt dort, wo die relevanten Prozesse stattfinden, zelnen Punkte der lokalen Bewegung des Ga
die Millennium-XXL-Simulation einen Nach eine hohe Auflösung erzielen. Bei der neuen ses anpassen.
teil: Über kleinräumige Strukturen und Vor Methode gehen wir von einem Satz von Punk Darüber hinaus gelang es uns, ein so ge
gänge in einzelnen Galaxien trifft sie nur we ten im Raum aus, die jeweils von einer so ge nanntes Godunov-Verfahren höherer Ord
nige Aussagen. Schließlich ist selbst ein Ob
jekt von der Größe der Milchstraße durch
gerade einmal 1000 Bausteine repräsentiert.
Klügere Algorithmen, weniger Artefakte
Hinzu kommt: Unsere Simulation behandelt
die normale baryonische Materie der Einfach Bewegen sich zwei Phasen eines Gases aneinander vorbei – im Beispiel fließt eine
heit halber als stoßfreies Fluid; als einzige dichte Phase (rot) nach rechts, eine weniger dichte (blau) nach links –, entsteht eine
Wechselwirkung ist also die Schwerkraft be so genannte Scherströmung, die zu typischen Kevin-Helmholtz-Wirbeln führt (un-
rücksichtigt. Tatsächlich unterliegt die Mate terste Zeile). Ein dynamisch mitbewegtes Voronoi-Gitter (schwarz umrandete Git-
rie aber Druckkräften und verhält sich damit terzellen) erlaubt es, sie korrekt und ohne Artefakte darzustellen.
eher wie ein ideales Gas. Außerdem kann sie
Zeitpunkt
thermische Energie verlieren, indem sie Strah 1 2 3
lung abgibt. Unter der Wirkung der Schwer
kraft kann sie also, weil sie von Hitze weniger
stark auseinandergetrieben wird, noch viel
stärker verklumpen als Dunkle Materie.
Diese Unterschiede von baryonischer und
Dunkler Materie werden auf kleinen Skalen
wichtig. Wir müssen also die baryonischen
Prozesse korrekt simulieren, wenn unser Mo
dell auch über die inneren Regionen von Ga
4 5 6
laxien Aussagen treffen soll. Die Berechnung
des hydrodynamischen Verhaltens normaler
Materie erweist sich allerdings als ausgespro
chen anspruchsvoll. Die typische Dichte des
Wasserstoff- und Heliumgases, das sich zu
sternbildenden Galaxien verdichtet, ist sehr
niedrig. Ein solches ideales Gas, in dem prak
tisch keine innere Reibung stattfindet, neigt
über einen sehr weiten Skalenbereich hin-
weg stark zu Turbulenzen. Zudem führen gro 7 8 9
ße Unterschiede in Temperatur, Dichte und
Geschwindigkeit zu gewaltigen Überschall
strömungen. Und schließlich »spürt« auch
jedes Teilchen im Gas die Schwerkraft aller
anderen Gaspartikel. Während diese so ge
nannte Eigengravitation bei strömungsme
chanischen Problemen auf der Erde völlig ver
nachlässigbar ist, gewinnt sie in der Astrophy
sik entscheidende Bedeutung. So kontrahiert
nung auf dem bewegten Gitter zu implemen Will man diese so genannten Kelvin-Helm
tieren. Mit seiner Hilfe können wir mit analy holtz-Instabilitäten numerisch beschreiben,
tischen Methoden bestimmen, wie viel Masse, führen Advektionsfehler in der Regel dazu,
Energie und Impuls eine Zelle nach jedem dass sich die Phasen im Modell früher vermi der autor
Zeitschritt enthält. schen als in der Realität. Indem wir diese Feh
ler stark reduzieren, können wir Überschall Volker Springel hat in
Tübingen und an der
Mitfließende Gitter strömungen und Turbulenzen mit größerer University of California
Der wesentliche Vorteil ist dabei der lagrange Präzision darstellen (Bilder links und oben). in Berkeley Physik
sche Charakter der Methode. Wenn irgendwo Deshalb wollen wir das neue Verfahren auch studiert und im Jahr
2000 an der Ludwig-
im Universum eine neue Galaxie entsteht und in unserer Simulationssoftware AREPO ein Maximilians-Universität
sich die Gasdichte in dieser Region millionen setzen. An ersten Rechnungen dieser Art ar München promoviert.
fach erhöht, dann fließt das Gitter automa beiten wir bereits intensiv, sowohl mit Kolle Als Postdoc war er an der Harvard Uni-
versity in Cambridge (Massachusetts) und
tisch mit. Es erlaubt also genau dort eine stark gen am Harvard Center for Astrophysics am Max-Planck-Institut für Astrophysik in
erhöhte räumliche Auflösung, wo die Galaxie in Cambridge (Massachusetts) als auch im Garching, wo er anschließend bis 2010
entsteht. Daneben erweisen sich die Zahlen Virgo-Konsortium. eine Forschungsgruppe zur numerischen
Kosmologie leitete. Seither ist er Professor
werte der Ergebnisse, anders als in traditionel Außerdem wollen wir in der nächsten Zeit für Theoretische Astrophysik an der
len Gittermethoden, als vollständig unabhän endlich die Entstehung von Spiralgalaxien Universität Heidelberg. Hier forscht er am
gig vom verwendeten Bezugssystem. besser verstehen lernen. Sternsysteme dieses Heidelberger Institut für Theoretische
Studien (HITS) und am Astronomischen
Das fließende Gitter verringert zudem Typs sind zwar die häufigsten im Universum,
Recheninstitut des Zentrums für Astro
Advektionsfehler. Zu diesem Typ von Berech doch in bisherigen Simulationen bildeten sich nomie.
nungsfehler kommt es, wenn ein Masseteil fast ausschließlich elliptische Galaxien. Wir
chen mit der Strömung mitgeführt wird und vermuten die Gründe dafür in einem unzu Quellen
dabei nicht vollständig, sondern nur teilweise reichenden Verständnis der Regulation der
von einer Zelle in die nächste übertritt, so dass Sternentstehung durch bestimmte astro Springel, V.: E pur si muove: Galilean-
invariant Cosmological Hydrodynamical
es zu einem unerwünschten Ausschmieren der physikalische Prozesse wie etwa die Explosion Simulations on a Moving Mesh. In:
Strömung kommt. Wegen der diskreten Struk von Sternen als Supernovae. Auch die man Monthly Notices of the Royal Astrono
tur des Gitters lässt sich dieser Vorgang mathe gelnde Genauigkeit der bisher eingesetzten mical Society 401, S. 791 – 851, 2010.
Vorab publiziert auf http://arxiv.org/
matisch nicht exakt darstellen. In einem be numerischen Methoden spielt eine Rolle. Zu abs/0901.4107
wegten Gitter kann die Zelle hingegen passend mindest dieses zweite Problem wird unser Vogelsberger, M. et al.: Moving Mesh
mitbewegt werden, so dass sich viele Advek neuer AREPO-Kode möglicherweise lösen Cosmology: Numerical Techniques
and Global Statistics. Eingereicht.
tionsfehler von vornherein vermeiden lassen können. Vorab publiziert auf http://arxiv.org/
und ein künstliches Mischen in hohem Maß Die vielleicht größte Aufgabe der Kosmo abs/1109.1281
verhindert wird. logen besteht in diesen Jahren aber darin, die
Ein Beispiel zeigen die Bilder links. Hier Rätsel um die Dunkle Seite des Kosmos auf Weblink
strömen unterschiedlich dichte Gase aneinan zuklären. Mit unseren Simulationen versu
der vorbei. Dabei wachsen kleine Störungen chen wir, sie dabei zu unterstützen – indem www.h-its.org/tap
Details zu Millennium-Simulationen und
an der Grenzfläche schnell zu wellenartigen wir physikalische Modelle überprüfen helfen, weiteren Simulationsprojekten der HITS-
Wirbeln heran, welche die beiden Phasen die eines Tages unser gesamtes Universum be Arbeitsgruppe Theoretische Astrophysik
schließlich turbulent miteinander vermischen. schreiben könnten. Ÿ
Datengetriebene Wissenschaft 13
Das biomolekulare
Erkennungspuzzle
Proteine sind die Funktionsträger des Lebens. Ihre Wechselwirkungen miteinander und mit
anderen Biomolekülen sorgen dafür, dass Zellen ihre Aufgabe im Organismus erfüllen. Um
diese Wechselwirkungen besser zu verstehen, setzen Forscher zunehmend rechnergestützte
Methoden ein. Computersimulationen von Proteininteraktionen leisten auch einen immer
wichtigeren Beitrag zum Design von Wirkstoffen gegen Krankheiten und in der Biotechnologie.
I
n einer Zelle wimmelt es geradezu von nen kurze lineare Sequenzmotive fest, an wel größere Distanzen hin finden. Manchmal
großen und kleinen Molekülen, die cher Stelle sich eine andere Substanz anlagern spielen sie dagegen kaum eine Rolle. In sol
ständig in Bewegung sind. Wie finden kann. In vielen Fällen jedoch ist weniger offen chen Fällen leisten zum Beispiel anziehende
und erkennen sie in diesem Gewirr ihre sichtlich, woran Moleküle einander erkennen. Kräfte zwischen hydrophoben (Wasser mei
jeweiligen Bindungspartner? Wie können sie Wie stark und selektiv sich zwei Substan denden) Gruppen, die nur eine geringe
mit mehreren anderen Molekülen zusammen zen aneinander binden, hängt von der freien Reichweite haben, den größten Beitrag zur
Komplexe bilden? Und wie kommt es, dass Energie der betreffenden Bindung ab. Diese Bindungsstärke. Das Problem der genauen
manche dieser Vorgänge schnell und andere wiederum setzt sich aus verschiedenen Kom Beschreibung der physikochemischen Wech
langsam ablaufen? Bei der Suche nach Lö ponenten zusammen. Das Problem ist, dass selwirkungen zwischen Molekülen – sei es mit
sungsstrategien für das Puzzle der biomoleku diese oft groß sind und teils entgegengesetzte einer auf physikalischen Gesetzmäßigkeiten
laren Erkennung helfen neben ausgeklügelten Wirkungen haben. Aus diesem Grund bedarf basierenden Energiefunktion oder einer rein
Experimenten und biochemischen Untersu es sehr genauer Berechnungen, um aus den empirisch aufgestellten Funktion – wird ge
chungen vermehrt Berechnungen und Simu Einzelkomponenten die (häufig sehr kleine) wöhnlich als Scoring-Problem bezeichnet.
lationen am Computer. Mit ihnen befassen Summe korrekt zu ermitteln. Eine weitere Herausforderung ist das so
wir uns in der Arbeitsgruppe »Molekulare Eine weitere Schwierigkeit liegt darin, dass genannte Sampling-Problem. Schon beim
und zelluläre Modellierung« am Heidelberger die relative Bedeutung der Komponenten von Puzzle gibt es unzählige denkbare Kombina-
Institut für Theoretische Studien. Fall zu Fall variiert, was es schwer macht, ein tionen der einzelnen Plättchen – und der
Betrachten Sie zum Beispiel ein Puzzle aus allgemein gültiges Computermodell für ein Spieler bemüht sich, die Möglichkeiten einzu
2000 Teilen, das ein Schloss in einer schönen solches Problem zu entwickeln. So dominie grenzen, um die Anzahl der vergeblichen Ver
Landschaft zeigt. Einige Plättchen lassen sich ren bei einer Bindung zwischen Proteinen suche beim Einpassen eines Teils zu verrin
ganz einfach platzieren: Flaggen, Turmspitzen manchmal weit reichende elektrostatische gern. Ein Puzzle ist jedoch nur ein zweidi
oder auch Mauerkanten. Bei anderen hilft nur Kräfte, dank deren sich Moleküle auch über mensionales Objekt. Das Durchprobieren
geduldiges Probieren. Das gilt etwa für grün
liche oder bräunliche Teile, die zu den Bäu
men im Wald gehören, oder für solche in den
Suche nach Enzymhemmern am Computermodell
verschiedenen Blautönen des Himmels.
Bei der Bindung zwischen Biomolekülen Auf dem Strukturbild eines Enzyms namens LmPTR1, das nur im Leishmania-Parasi-
spielt wie im Puzzle die Passform eine wesent ten vorkommt und sich deshalb als Angriffspunkt für Medikamente gegen die Leish-
liche Rolle. Dies erkannte vor über einem maniose eignet, ist die Oberfläche der vier identischen Untereinheiten in verschiede-
Jahrhundert bereits Emil Fischer, der die nen Farben dargestellt (links). An einem der aktiven Zentren haftet sein gewöhnliches
Wechselwirkungen zwischen Enzymen und Substrat, ein Molekül namens Pteridin (dunkelviolett), zusammen mit dem Kofaktor
Substraten mit dem Bild von Schlüssel und (NADPH, türkis). Die Ausschnittvergrößerung (rechts) zeigt die Bindungstasche des
Schloss beschrieb. Doch wie bei den Puzzle Enzyms (graue Moleküloberfläche) mit zwei daran angelagerten potenziellen Hemm-
teilen reicht die Gestalt nicht aus, um alle stoffen. Farbig hervorgehoben sind Proteinregionen, die laut Berechnung die Bindung
möglichen Wechselwirkungen eindeutig zu Wasser abweisender (gelb) oder Wasser liebender funktioneller Gruppen (blau) be-
beschreiben. Einige Moleküle tragen gut defi günstigen. Die Wirkstoffkandidaten (gelb, hellblau) lagern sich zwischen dem Kofaktor
nierte »Flaggen«, die ihre Position in der Zelle (grau) und den ringförmigen aromatischen Seitenketten zweier Aminosäuren des Pro-
oder ihre Beziehung zu anderen Stoffen be teins ein (alle drei als Stäbchenmodell dargestellt).
stimmen. So legen etwa bei manchen Protei
Datengetriebene Wissenschaft 15
namens LmPTR1 ausmachen. Sie gehört ge zu erzielen, war es wichtig, dass die Ringstruk Dieses Projekt macht deutlich, wie sich
meinsam mit der Dihydrofolatreduktase turen der Wirkstoffkandidaten zwischen de unsere rechnergestützten Proteinsimulationen
(DHFR) zum Folatstoffwechselweg und ist nen des Kofaktors und den aromatischen Sei und die von unseren Kollegen in Italien und
wichtig für die DNA-Synthese. Wird sie zu tenketten des Proteins zu liegen kommen (sie Belgien durchgeführten Laborexperimente
sammen mit DHFR gehemmt, kann der Pa he Kasten auf S. 14/15). erfolgreich ergänzen. Auch wenn solche com
rasit keine neue Erbsubstanz synthetisieren Wie Kollegen in Italien und Belgien an puterbasierten Ansätze in der pharmazeuti
und sich folglich auch nicht vermehren. hand von Laborexperimenten zeigen konn schen Industrie weit verbreitet sind, darf das
Beiden Enzymen ist gemeinsam, dass sie ten, hemmen einige der von uns identifizier nicht darüber hinwegtäuschen, dass Standard
sowohl den Kofaktor NADPH als auch das ten potenziellen Wirkstoffe tatsächlich die verfahren häufig Einschränkungen unterlie
Substrat Folsäure (oder Abwandlungen davon) Enzymaktivität von LmPTR1. Um diese Sub gen und an das zu untersuchende Zielpro-
bei ihrer enzymatischen Aktivität verwenden. stanzen zu optimieren, untersuchten wir in tein speziell angepasst werden müssen. Beim
Im Gegensatz zur Dihydrofolatreduktase, die weiteren Simulationen, wie sich durch Aus LmPTR1 war es etwa entscheidend, dass wir
bei den Parasiten wie auch beim Menschen tausch einzelner Atome oder Atomgruppen vier Wassermoleküle im aktiven Zentrum des
vorkommt, findet man die Pteridinreduktase die Bindung an das aktive Zentrum des En Proteins berücksichtigten. Dadurch gelang es,
jedoch nur beim Parasiten. Gelingt es nun, zyms verstärken lässt. die für die Wirkstoffentwicklung wichtige
Verbindungen zu finden, die nicht aus der Zwei rechnerbasierte Entwicklungsdurch korrekte Orientierung der Wirkstoffkandida
Stoffklasse der Folsäuren stammen, sich aber gänge und eine anschließende experimentel- ten zu ermitteln, auch wenn wir die Enzym
dennoch spezifisch an das parasitäre Enzym le Prüfung am isolierten Enzym lieferten so aktivität beziehungsweise Bindungsstärke
LmPTR1 heften, minimiert man das Risiko 18 spezifisch wirksame LmPTR1-Inhibitoren. nicht zuverlässig vorhersagen konnten.
von Nebenwirkungen beim Menschen. Sechs davon hemmten nicht nur die Aktivität
Die Kristallstruktur des Enzyms LmPTR1 des isolierten Enzyms, sondern auch das Raffinierte Packung der DNA
war schon bekannt. Wir konnten sie also be Wachstum der Parasiten in Zellkultur. Eine Der Kern einer eukaryotischen Zelle enthält
nutzen, um bei einem virtuellen Screening dieser Substanzen entspricht sogar dem Wirk fadenförmige DNA mit einem Durchmesser
eine große Substanzbibliothek nach geeigne stoff eines Medikaments, das bereits zur Be von etwa 10 bis 20 Mikrometern und einer
ten Verbindungen zu durchsuchen, die gut in handlung von Erkrankungen des Zentralner Gesamtlänge von zwei Metern. Damit die
das aktive Zentrum des Enzyms passen und vensystems zugelassen ist. Möglicherweise Erbsubstanz überhaupt in die Zelle passt,
keine Ähnlichkeiten zu Folsäurederivaten auf lässt sich dessen Anwendungsbereich auf die muss sie zu einer kompakten Struktur, dem so
weisen. Um die angestrebte Hemmwirkung Therapie parasitärer Erkrankungen ausweiten. genannten Chromatin, aufgewickelt werden.
Um dies zu bewerkstelligen, benutzt die Zelle
Histone: positiv geladene Proteine, die sich an
die negativ geladenen Nukleinsäuren binden,
Erbfaden am Wickel
aus denen die Erbsubstanz besteht.
Simulationen ergaben, wie sich das Linker-Histon (blau) an das Nukleosom (braun) Den Grundbaustein des Chromatins bil
bindet und so zur Packung der DNA beiträgt. Unter Berücksichtigung der Flexibilität den die Nukleosomen, um deren Proteinkern
der beiden Enden des DNA-Stücks gibt es eine Reihe möglicher Anordnungen, von sich die DNA spulenförmig wickelt. Zwi
denen 13 als Überlagerung dargestellt sind. Die an die DNA gebundenen Aminosäu- schen ihnen erstrecken sich zunächst noch
rereste sind in Orange (nukleosomale DNA) und Grün (Linker-DNA) gezeigt. freiliegende Abschnitte des DNA-Fadens, die
als Linker-DNA bezeichnet werden. An die
Nukleosomen heften sich die so genannten
Linker-Histone. Diese kleinen Proteine sor
gen dafür, dass sich die perlschnurartige Nuk
leosomenkette zickzackförmig zusammenla
gert oder wie eine Wendeltreppe windet und
so die kompakten Chromatinfasern bildet.
Ferner tragen sie dazu bei, das Abschreiben
und Vervielfältigen der DNA zu regulieren.
Anders als die Ladungsunterschiede zwi
schen den Histonen und der DNA vermuten
lassen, beruht die Bindung nicht nur auf elek
trostatischen Wechselwirkungen. Wir wollten
daher genauer wissen, wie sich die Linker-
Histone an die Nukleosomen anlagern. Zu
Rebecca C. Wade
Datengetriebene Wissenschaft 17
Zerren an Biomolekülen
im Computer
Mechanische Kräfte sind lebenswichtig – im großen wie im kleinen Maßstab.
Eine Forschungsgruppe am Heidelberger Institut für Theoretische Studien untersucht ihre
Wirkung auf der kleinsten Ebene: vom Protein bis hin zur einzelnen chemischen Bindung.
O
b Pflanze oder Säugetier, kein
Lebewesen kann ohne Ein
Kontrolle der Blutgerinnung
Datengetriebene Wissenschaft 19
Molekulare Brückensprengung
tert eine angelegte Zugspannung den Bindungsbruch vor allem
Das kleine Molekül DTT (Dithiothreitol) zerstört die Disulfid- dadurch, dass das Schwefelatom von DTT schon aus größerer
brücke d1 in einem Protein (Titin) unter Bildung einer neuen Di- Entfernung die neue Disulfidbindung eingehen und die alte
sulfidbrücke d2. Wie Computersimulationen ergaben, erleich- dabei lösen kann.
Kraft Kraft
d1
d2
in einer Wendeltreppe angeordnet: Das Rück mit dem anderen an der Spitze des Tastarms. stabiler wird die Bindung und desto schneller
grat bildet das Gerüst und die Wasserstoffbrü Dieser besteht aus einer Blattfeder, mit der löst sie sich. Dies ist ganz ähnlich wie bei ei
cken das Geländer. In einem Beta-Faltblatt sich eine mechanische Kraft auf das einge nem Gummiband: Je stärker man daran
verlaufen zwei Abschnitte des Proteinrück spannte Molekül ausüben lässt. So kann man zieht, desto eher reißt es.
grats parallel zueinander. Wasserstoffbrücken direkt verfolgen, wie leicht sich die Bindung Man könnte meinen, die Mechanochemie
verbinden diese Stränge durch elektrostati bei welcher Zugkraft öffnet. einer solchen Reaktion damit verstanden zu
sche Kräfte miteinander. Beta-Faltblätter ge Doch nackte Gewalt führt dabei nicht haben – gerade weil man sich den Effekt der
ben Proteinen zwar große Stabilität, lassen zum Ziel. Wie in der Natur geht es darum, Zugkraft intuitiv vorstellen kann. Aber wie so
sich aber bei genügend Zugkraft auftrennen. die Bindung so sanft wie möglich zu lösen. oft sind die Zusammenhänge komplexer, als
Kovalente Bindungen sind wesentlich fes Das gelingt durch Zugabe von kleinen Hilfs sie auf den ersten Blick erscheinen. So gibt es
ter. Dabei teilen sich zwei Atome ein Elektro molekülen, so genannten Reduktionsmitteln. Reaktionspartner, bei denen die mechanische
nenpaar. Ein biologisch wichtiges Beispiel Diese enthalten bei Disulfidbrücken ein Kraft das Öffnen der chemischen Bindung
sind Schwefel-Schwefel-Bindungen oder, wie Schwefelatom, das sich mit dem einen Teil erschwert! In einem anderen Fall, den eine
Chemiker sagen, Disulfidbrücken. Sie bilden der Disulfidbrücke verbindet und so den an Gruppe um Roman Boulatov von der Univer
sich etwa zwischen zwei Molekülen der Ami deren daraus verdrängt. sity of Illinois in Urbana-Champaign 2009
nosäure Cystein. Solche Bindungen haben Derartige Messungen im Labor ergaben, entdeckte, löst sich die Disulfidbrücke unab
meist die Aufgabe, die Struktur des Proteins dass sich Disulfidbindungen in Proteinen un hängig von der an ihr angreifenden Zugspan
zu stabilisieren – auch gegen von außen ein ter Mitwirkung eines Reduktionsmittels sehr nung immer gleich schnell. Für dieses Expe
wirkende Zugkräfte. leicht aufbrechen lassen. Zugspannungen riment bauten die Wissenschaftler die Schwe
Neuerdings lässt sich im Labor beobach von wenigen hundert Pikonewton reichen fel-Schwefel-Bindung in kleine ringförmige
ten, wie Disulfidbrücken oder andere kova bereits aus. Das entspricht in etwa der Kraft, Moleküle ein. Über die Größe des Rings
lente Bindungen unter Zugspannung aufbre die ein einzelner Mensch aufwenden müsste, konnten sie die darin herrschende Spannung
chen (Kasten auf S. 19). Dazu befestigt man um mit der gesamten Weltbevölkerung zu gezielt verändern (siehe Kasten auf S. 19).
ein einzelnes Molekül in einem Kraftmikros sammen ein 1-Euro-Stück hochzuhalten. Da Wie beeinflusst eine mechanische Kraft
kop mit einem Ende an der Unterlage und bei gilt: Je größer die Zugspannung, desto in also eine chemische Bindung? Warum er
Datengetriebene Wissenschaft 21
Hochleistungsrechner
und der Stammbaum des Lebens
Eine wahre Flut von DNA-Daten ermöglicht inzwischen immer präzisere Rekonstruktionen von
Stammbäumen – im Prinzip jedenfalls. In der Praxis überfordert die Suche nach der optimalen
Lösung auch die leistungsfähigsten Computer. Die Herausforderung heißt deshalb, die Effizienz
der Programme für Näherungslösungen zu steigern.
D
ie computergestützte Berech oder Hoffnung, dass der »optimale« Stamm Mensch AAACCCCGTTTTT
nung von Stammbäumen, wel baum auch der wahre ist. An seinen Blättern Gorilla AAACTTTAAGGGT
che die Verwandtschaftsver befinden sich die Organismen, für welche Schimpanse AAGATTCGTTTTT
hältnisse zwischen Organismen DNA-Daten vorliegen. Die inneren Knoten – Orang-Utan AGAATCCGTTTGT
wiedergeben, ist eine verhältnismäßig junge sprich: Verzweigungen – repräsentieren hypo
Disziplin. Doch reichen ihre Anfänge immer thetische gemeinsame Vorfahren. Dabei stehen die Buchstaben für die Basen
hin bis in die 1960er Jahre zurück. Für jeden Von diesen existieren in der Regel keine Adenin, Thymin, Cytosin und Guanin, die das
Organismus beziehungsweise jede Spezies, DNA-Daten, weil sich normalerweise nur genetische Alphabet ausmachen. Ein mögli
deren Position im Stammbaum ermittelt wer aus lebenden Organismen Erbsubstanz ge cher Stammbaum für diese Daten ist im Kas
den soll, liegen typischerweise DNA-Daten winnen lässt. Allerdings gab es in letzter Zeit ten unten gezeigt. Dabei bleibt offen, wo der
oder Angaben zu morphologischen Merk bedeutende Fortschritte bei der Sequenzie gemeinsame Vorfahr aller Menschenaffen, das
malen vor – etwa über die Knochenform. Bei rung alter DNA; dadurch ist es insbesondere heißt die Wurzel des Baums, liegt. Diese wird
Bakterien kann es sich auch um chemische der Gruppe um Svante Pääbo vom Max- zur Vereinfachung der mathematischen Mo
Eigenschaften handeln, die für die jeweilige Planck-Institut für evolutionäre Anthropo delle üblicherweise weggelassen.
Spezies charakteristisch sind. logie in Leipzig gelungen, das Neandertaler Grundlage für die Optimierung ist eine
Das Ziel besteht darin, anhand geeigneter genom zu entziffern. abstrakte Funktion f , eine Rechenvorschrift,
Modelle denjenigen Stammbaum zu rekon Betrachten wir ein klassisches Beispiel: die zu einem gegebenen Stammbaum und zu
struieren, der am besten zu den vorliegenden den Stammbaum von Mensch, Schimpanse, gegebenen DNA-Daten einen Zahlenwert lie
Daten passt. Mathematisch gesehen, handelt Gorilla und Orang-Utan. Der auf DNA-Se fert: die »Plausibilität« (likelihood). Je höher
es sich also um ein Optimierungsproblem. quenzen beruhende Eingabedatensatz könn dieser Wert, desto besser ist der Stammbaum
Dahinter steckt die stillschweigende Annahme te, grob vereinfacht, dann so aussehen: mit den Daten vereinbar. Wenn man also drei
tan
ns
pa
g-U
ch
im
a
ns
an
rill
Sch
Me
Or
Go
Millionen Jahre
hypothetischer
10 gemeinsamer Vorfahre
15
20
25 gemeinsamer Vorfahre
alle Abbildungen dieses Artikels: Alexandros Stamatakis
gemeinsamer Vorfahre
Wurzel des Baums
gemeinsamer Vorfahre
Wurzel des Baums
Mensch Orang-Utan
Stammbäume in Betracht zieht, muss man die Aufgabe vermutlich nicht innerhalb eines ver lutionsmodelle und Rekonstruktionsverfah
Funktion für alle drei berechnen. Der optima nünftigen Zeitraums zu schaffen. ren perfekt sind, heißt das nicht, dass sie auch
le Baum ist dann derjenige, für den der größte Optimierungsprobleme, für die der Be korrekt auf dem Computer umgesetzt wur
Wert herauskommt. darf an Rechenzeit derart schnell zunimmt, den. Durch die starke Zunahme rechnerba
In unserem Beispiel mit den Menschenaf kommen in vielen Bereichen der Informatik sierter Datenanalysen in der Biologie haben
fen lässt sich dieses Problem leicht lösen, weil vor und heißen NP-vollständig. Peter Gritz Fehler in Veröffentlichungen, die auf Pro
für vier Organismen nur drei unterschiedliche mann und René Brandenberg beschreiben grammierfehlern beruhen, in jüngster Zeit
wurzellose Bäume existieren (Kasten oben). sie in ihrem populärwissenschaftlichen Buch stark zugenommen. Zusammen mit meinem
Dabei erweist sich derjenige, bei dem der »Das Geheimnis des kürzesten Weges« auf Doktoranden Fernando Izquierdo-Carrasco
Mensch mit dem Schimpansen näher ver für Laien gut verständliche Art und Weise. habe ich die Probleme der Verifikation von
wandt ist als beide mit dem Gorilla und dem Stammbäumen und von Programmen zu de
Orang-Utan, als plausibelste Lösung. Doch Automatische Suchverfahren ren Berechnung kürzlich ausführlich darge
wie sieht die Funktion f aus? In der Praxis be Da das Problem nicht exakt lösbar ist, behilft legt (Briefings in Bioinformatics 12, S. 270).
nutzt man dafür statistische Modelle, die auf man sich mit so genannten heuristischen Trotz solcher Schwierigkeiten und Unsi
Schätzungen beruhen, wie wahrscheinlich Suchverfahren, die zwar nicht die beste, aber cherheiten kommen Verfahren zur Rekonst
Mutationen sind, bei denen eine der vier Ba zumindest eine ziemlich gute Lösung liefern. ruktion von Stammbäumen in der medizini
sen durch eine andere ersetzt wird. Leider gibt es bei der Berechnung von Stamm schen und biologischen Forschung heute rou
Das grundsätzliche Problem bei diesem bäumen keine Möglichkeit, mit Sicherheit zu tinemäßig zum Einsatz. So dienen sie etwa
Verfahren ist, dass die Anzahl der möglichen sagen, wie weit das Ergebnis einer solchen ap dazu, den Ursprung von Virusepidemien zu
Bäume extrem stark mit der Anzahl der ent proximativen Suche vom Optimum entfernt ermitteln oder die bakterielle Zusammen
haltenen Spezies zunimmt. So beläuft sie sich ist. Deshalb ist es unerlässlich, dass Biologen setzung der Darmflora zu analysieren. Um das
bei 50 Arten, was heutzutage noch eine relativ den gefundenen Baum anhand ihres Wissens berühmte Zitat des russischen Genetikers
kleine Zahl ist, bereits auf 2,84·10 76 Kandida auf Plausibilität prüfen. Theodosius Dobzhansky (1900 – 1975) zu be
ten. Für jeden von ihnen müsste der Wert der Man kann das Suchverfahren auch an sehr mühen: »In der Biologie macht nichts Sinn,
Funktion f berechnet werden, denn es gibt schnell evolvierenden Organismen wie etwa außer im Licht der Evolution.«
keinen Trick, einen Großteil davon von vorn Viren testen, deren Stammbaum über die letz Was sind die aktuellen Entwicklungen
herein auszuschließen. Unter der optimisti ten Jahre bis Jahrzehnte bekannt ist. Auch im und Herausforderungen auf dem Gebiet der
schen Annahme, dass diese Berechnung für Erfolgsfall bietet das jedoch keine Gewähr da Stammbaumberechnung? Zuallererst ist die
einen Baum mit 50 Organismen eine Sekun für, dass die Methode bei Lebewesen, die sich Revolution bei der DNA-Sequenzierung zu
de Rechenzeit benötigt, würde die Evaluie im Verlauf von Jahrmillionen entwickelt ha nennen. Die Analyse des Erbguts wurde durch
rung aller Bäume auf einem einzelnen Prozes ben, genauso gut funktioniert. bahnbrechende Fortschritte in den letzten
sor 9·10 68 Jahre dauern. Selbst mit der gesam Ein weiterer Unsicherheitsfaktor ist die fünf bis sechs Jahren wesentlich vereinfacht
ten Rechenkraft auf der Erde wäre diese Programmverifikation. Selbst wenn die Evo und beschleunigt, so dass zugleich die Kosten
Datengetriebene Wissenschaft 23
dramatisch gesunken sind. Dadurch lassen Diese Datenflut stellt die Informatiker vor Der Webserver http://phylobench.vital-it.ch/
sich inzwischen auch komplette Genome ei enorme Probleme. Das gilt insbesondere für raxml-bb/ bietet auch interessierten Laien die
ner Spezies sehr viel leichter entziffern. Wäh den Speicherplatzbedarf der Programme zur Möglichkeit, es auszuprobieren; ein kleiner
rend vor zehn Jahren die Sequenzierung des Stammbaumrekonstruktion, da zur Berech Testdatensatz findet sich unter www.exelixis-
menschlichen Erbguts noch Schlagzeilen nung der Bewertungsfunktion f zunehmend lab.org/dna.phy.
machte, nehmen heute selbst Biologen eher komplette Genome für 50 oder 100 Spezies Zur Beschleunigung der Rechnung verfol
gelangweilt zur Kenntnis, dass schon wieder im Arbeitsspeicher gehalten werden müssen. gen wir verschiedene Ansätze. So sind wir auf
irgendein Genom entschlüsselt wurde. der Suche nach Tricks, um redundante Be
Die Herausforderung verlagert sich daher Ziel: Effiziente Bewertung rechnungen zu vermeiden und Speicherplatz
zunehmend vom Labor zur Datenverarbei der Güte eines Stammbaums zu sparen. Ausgangspunkt hierfür ist die ma
tung. Das Hauptproblem besteht darin, dass Solche Programme verbringen bis zu 99 Pro thematische Beschreibung der Wahrschein
die Menge der DNA-Daten wesentlich schnel zent ihrer Gesamtlaufzeit damit, die Funktion lichkeitsberechnungen: Wir bemühen uns,
ler zunimmt als die Rechengeschwindigkeit f für verschiedene denkbare Bäume auszuwer die Funktion f so zu transformieren, dass sie
der Computer oder Prozessoren zu ihrer Ana ten (Kasten unten). Deshalb besteht eines der bei geringerem Speicherbedarf und weniger
lyse. Das betrifft sowohl die Bioinformatik als Hauptziele der von mir geleiteten Scientific Rechenoperationen genau das gleiche Ergeb
auch ihre Teildisziplin, die rechnergestützte Computing Group am Heidelberger Institut nis liefert. Von großer Bedeutung ist auch, das
Ermittlung von Stammbäumen. Die Compu für Theoretische Studien darin, die Zeit und Programm an moderne Rechnerarchitekturen
terwissenschaftler stehen deshalb vor der den Speicherplatzbedarf für diese Aufgabe so anzupassen. Dadurch lassen sich die Ressour
schwierigen Aufgabe, immer effizientere Pro weit wie möglich zu reduzieren. cen der eingesetzten Prozessoren besser nut
gramme und Methoden zur Datenspeiche Über die vergangenen zehn Jahre haben zen. Das ermöglicht einen höheren Daten
rung und -analyse bereitzustellen. wir das frei verfügbare Programm RAxML durchsatz und steigert so die Anzahl der eva
Ohne Hoch- und Höchstleistungsrechner, (Randomized Accelerated Maximum Likelihood) luierten Bäume pro Sekunde.
in denen mehrere Einzelrechner (Prozessoren) entwickelt. Statt die Menge aller Stammbäu Wir gehen allerdings auch den umgekehr
gleichzeitig an einem Problem arbeiten, lässt me erschöpfend abzuarbeiten – was aussichts ten Weg und fragen uns, wie die ideale Rech
sich die Datenflut vielfach nicht mehr be los wäre –, konstruiert das Programm zu Be nerarchitektur für unser Programm aussehen
wältigen. Zur Rekonstruktion von Stamm ginn eine Anzahl von Bäumen, indem es Blatt würde. In diesem Teilprojekt entwerfen wir
bäumen standen noch vor zehn Jahren ledig für Blatt in zufälliger Reihenfolge an jeweils optimale Schaltkreise zur Berechnung der
lich die Sequenzen von ein oder zwei Genen optimaler Stelle einfügt. Es versucht diese Wahrscheinlichkeitsfunktion f. Zum Testen
zur Verfügung, die jeweils etwa 1000 Basen Bäume zu verbessern, indem es ganze Äste ab und Verifizieren unserer Architekturen be
paare umfassten. Inzwischen liegen immer öf schneidet und an anderer Stelle wieder ein nutzen wir so genannte Field Programmable
ter die weitaus umfangreicheren kompletten setzt, das Ganze im Rahmen eines kombi Gate Arrays, bei denen es sich um eine Art
Genome vor. So besteht das Erbgut des Men natorischen Optimierungsverfahrens namens programmierbare Hardware handelt. Sie be
schen aus etwa 20 000 bis 25 000 Genen; nach simulated annealing. RAxML gehört zu den stehen aus vielen elektronischen Grundbau
einigen Schätzungen sind es sogar bis zu fünf bis sechs weltweit am meisten benutzten steinen (»Gattern«), die sich mittels einer
75 000. Programmen zur Stammbaumrekonstruktion. Hardware-Beschreibungssprache dynamisch
miteinander verbinden lassen, um die vorge
gebene Schaltung nachzubilden.
Bei all diesen Versuchen achten wir darauf,
Berechnung des Verwandtschaftsgrads
dass unsere Ergebnisse nicht nur auf RAxML
Für vier Spezies existieren nur drei unterschiedliche wurzellose Stammbäume. Die anwendbar sind, sondern auch auf alle an
Funktion f berechnet die Wahrscheinlichkeit, dass der betreffende Baum zu den deren likelihood-basierten Programme zur
DNA-Daten passt. Ihre Werte zeigen, dass Mensch und Schimpanse enger miteinan- Stammbaumberechnung. Deren Geschwin
der verwandt sind als mit Gorilla und Orang-Utan. digkeit hängt ja gleichfalls entscheidend da
) = 0,1
von ab, wie effizient die Funktion f auf dem
f(
Mensch AAACCCCGTTTTT
Schimpanse Mensch
,
Gorilla AAACTTTAAGGGT
SchimpanseAAGATTCGTTTTT
Rechner umgesetzt ist.
Orang-Utan AGAATCCGTTTGT
Wie erwähnt, lassen sich sehr umfangrei
Gorilla Orang-Utan
che, speicherintensive Datensätze inzwischen
Schimpanse Gorilla nur noch mit Hochleistungsrechnern verar
f( ) = 0,3
Mensch AAACCCCGTTTTT
,
Gorilla AAACTTTAAGGGT beiten. Am HITS steht uns solch ein großer
SchimpanseAAGATTCGTTTTT
Orang-Utan
Orang-Utan AGAATCCGTTTGT Parallelrechner zur Verfügung. Das System
Mensch
besteht aus 42 Rechenknoten mit je 48 Pro
Orang-Utan Gorilla zessoren, die durch ein leistungsfähiges Netz
f( , ) = 0,2
Mensch AAACCCCGTTTTT
Gorilla AAACTTTAAGGGT
SchimpanseAAGATTCGTTTTT werk miteinander verbunden sind.
Orang-Utan AGAATCCGTTTGT
Mensch Schimpanse Idealerweise gilt es, diese insgesamt 2016
Prozessoren alle gleichzeitig zu beschäftigen.
der autor
Alexandros Stamatakis
leitet am Heidelberger
Institut für Theoretische
Studien die Scientific
Computing Group. Er hat
an der Technischen
Universität München
Informatik studiert und
dort im Jahr 2004 in der Informatik
promoviert. Nach Postdoc-Stationen auf
Kreta und an der ETH Lausanne (Schweiz)
war er von 2008 bis 2010 als Nachwuchs-
Am besten wäre es, wenn jeder von ihnen ei Stammbaum eingesetzt, wobei diese Zahl gruppenleiter an der Ludwig-Maximili-
ans-Universität und später an der TU
nen anderen Stammbaum evaluieren würde. kein Limit darstellt. Das Programm nutzt München (Emmy-Noether-Programm der
Dazu müsste der einzelne Prozessor jedoch auch die Fähigkeit zur Parallelverarbeitung bei DFG) tätig, bevor er im Oktober 2010 ans
das komplette Datenmaterial im eigenen Ar Mehrkernprozessoren, wie sie in allen neueren HITS kam.
beitsspeicher verfügbar haben – wozu dieser Laptops und Desktops zu finden sind.
quellen
möglicherweise nicht ausreicht. Da liegt es Abgesehen von unseren Bemühungen, die
nahe, die Aufgabe in Teilaufgaben zu zerlegen, Effizienz der Programme zur Stammbaumbe Alachiotis, N. et al.: A Reconfigurable
Architecture for the Phylogenetic Like
die jede für sich nur eine relativ kleine Teil rechnung zu steigern, beschäftigen wir uns lihood Function. Konferenzbeitrag, FPL
menge aller Daten erfordern, und diese ent aber auch mit der Analyse sehr großer biolo Prag 2009. Online unter: http://sco.h-its.
sprechend auf die Prozessoren zu verteilen. gischer Datensätze. Diese interdisziplinären org/exelixis/nikos/publications.html
Gritzmann, P., Brandenberg, R.: Das Ge-
Allerdings darf die einzelne Teilaufgabe auch Projekte verbessern unser Verständnis der Bio heimnis des kürzesten Weges: ein
nicht zu klein sein; sonst nimmt der Aus logie und helfen uns, aktuelle rechnerische mathematisches Abenteuer. Springer,
tausch von Daten, der vor und nach der Er oder methodische Herausforderungen zu er Berlin/Heidelberg 2004
Ott, M. et al.: Large-Scale Maximum
ledigung jeder Teilaufgabe erforderlich ist, kennen. Beispielhaft sei hier das »plant tree of Likelihood-Based Phylogenetic Analysis
einen zu großen Teil der Rechenzeit in An life grand challenge project« genannt, das on the IBM BlueGene/L. In: Proceedings of
spruch. Die Analyse und Identifizierung von der Deutschen Forschungsgemeinschaft IEEE/ACM Supercomputing (SC2007)
Conference, Reno, Nevada, November
solcher Teilaufgaben ist nicht einfach und bil (DFG) und der National Science Founda-
2007
det einen der Schwerpunkte im Teilgebiet der tion in den USA gefördert wird. Sein Haupt Stamatakis, A., Izquierdo-Carrasco, F.:
Informatik, das sich mit der parallelen Pro ziel besteht darin, einen umfassenden Stamm Result Verification, Code Verification and
Computation of Support Values in Phylo-
grammierung beschäftigt. baum der Pflanzen mit etwa 500 000 Spezies
genetics. In: Briefings in Bioinformatics 12,
Auch hier gilt, dass die angewandten Pa- zu berechnen und online zur Verfügung zu S. 270 – 279, 2011
rallelisierungsstrategien auf alle likelihood- stellen, so dass Biologen ihn für weiterfüh Stamatakis, A., Alachiotis, N.: Time and
Memory Efficient Likelihood-Based Tree
basierten Programme übertragbar sein sollten rende Analysen nutzen können. Das ist eine
Searches on Gappy Phylogenomic Align-
und es auch sind. Mit RAxML wurden schon Herkulesaufgabe, zumal die benötigten Daten ments. In: Bioinformatics 26, S. i132– i139,
bis zu 1024 Prozessoren simultan zur Be keineswegs komplett vorliegen. Noch nie 2010
rechnung der Funktion f für einen einzigen konnte ein Stammbaum dieser Größenord
Datengetriebene Wissenschaft 25
Pfade im Informationsdschungel
Wer die verschlungenen Wege des Stoffwechsels erforscht, benötigt Orientierungshilfe. Die Datenbank
SABIO-RK hilft mit allerlei Finessen der Informatik, benötigte Daten in der Flut an Publikationen zu finden.
A
llein vor dem Rechner sitzend, scher disziplinübergreifend zusammen. Wäh- die als Energieträger im Körper fungieren).
versunken in einer abstrakten rend Experimentatoren sich zum Beispiel in- Über Koeffizienten lassen sich diese Glei-
Welt aus Bits und Bytes – das ist tensiv mit der Messung von Vorgängen inner- chungen an die Temperatur, den pH-Wert
das Bild, das sich viele von der halb der Zelle befassen, haben Theoretiker und andere Parameter anpassen.
Arbeit des Informatikers machen. Tatsächlich etwa Stoffwechselketten und deren Kombina- Wie überall in der Wissenschaft folgt der
sieht die Realität oft anders aus. So unterstützt tionen im Blick. Sie versuchen die zu Grunde Erkenntnisgewinn dem immer gleichen Sche-
die HITS-Gruppe »Scientific Databases and liegenden biochemischen Prozesse in mathe- ma: Auf der Basis bereits publizierter For-
Visualization« (SDBV) Systembiologen durch matischen Modellen zu formulieren, um nicht schungsergebnisse entsteht eine Hypothese,
die Einrichtung und Pflege spezieller Daten- allein das »Wer reagiert mit wem?« zu beant- die experimentell überprüft wird; die Analyse
banken. Das erfordert interdisziplinäre Zu- worten, sondern auch Fragen wie »Wie schnell der Messergebnisse begründet dann ein Mo-
sammenarbeit und regen Austausch mit den läuft die Reaktionskette bei den gegebenen dell dessen, was im Experiment passiert ist.
Nutzern. äußeren Bedingungen ab?«. Solche kineti- Alle gewonnenen Informationen werden
Systembiologen betrachten Vorgänge in schen Modelle sind Differenzialgleichungen, schließlich publiziert und speisen wiederum
lebenden Organismen nicht isoliert, sondern die beispielsweise die zeitliche Veränderung neue Theorien und Experimente.
in größeren Zusammenhängen. Da sich hier- der Glukosekonzentration und der durch den Und gerade an dieser Stelle helfen Daten-
bei schnell zu viele Informationen für einen Abbau des Moleküls entstehenden Produkte banken. Denn der Austausch über gedruckte
einzigen Kopf anhäufen, arbeiten diese For- widerspiegeln (unter anderem ATP und ADP, Journale ist nicht nur langsam, es fällt Wissen-
Phosphoglucose- Phosphofructo-
Hexo-Kinase Aldolase
+
Isomerase Kinase
H2O Glycerinaldehyd-
Pyruvat- Phosphoglycerat- Phosphoglycerat- 3-phosphat- Triosephosphat-
Kinase Enolase Mutase Kinase Dehydrogenase Isomerase
schaftlern auch zunehmend schwerer, aus der mationen als auch die Detailtiefe eventueller zen. Zudem ist SABIO-RK zwar einerseits
gesamten Flut an Informationen nur die das zusätzlicher Kommentare. Zum anderen soll- eine Webanwendung, die wie ein Ingenieurs-
jeweilige Thema betreffenden herauszufiltern. te Gleiches auch gleich bezeichnet sein. erzeugnis geplant und gebaut werden muss.
Aktuell verzeichnet PubMed, eine der wich- Über eine Suchmaske mit geeigneten Fil- Darum herum ranken sich aber andererseits
tigsten Publikationsverzeichnisse für die Me- tern kann ein Nutzer auf die Datenbank zu- auch interessante Forschungsthemen.
dizin, allein zur Leber – dem zentralen Organ greifen – etwa nach Reaktionen suchen, an So sind die Namen der reagierenden Stoffe
des Stoffwechsels – mehr als 700 000 Veröf- denen bestimmte Moleküle beteiligt sind. Die oft nicht eindeutig, was die Forderung, Glei-
fentlichungen. Um die jeweils relevanten zu Informationen werden zudem auf Wunsch als ches gleich zu benennen, zu einer anspruchs-
ermitteln und daraus die für eine bestimmte SBML-Dateien ausgegeben, also in der Sys- vollen Aufgabe macht. Beispielsweise bezeich-
Fragestellung wichtigen Daten zu entneh- tems Biology Markup Language, einem inter- nen das deutsche »Wasser« und die chemische
men, benötigt ein Forscher die Unterstützung national standardisierten Dateiformat der sys- Formel H2O die gleiche Substanz. Für das
der elektronischen Medien. tembiologischen Modellierung. Ferner gibt es englische water listet die Datenbank ChEBI
Hierzu hat unsere Gruppe die Datenbank Verknüpfungen zu anderen Datensammlun- nicht weniger als 14 Synonyme auf.
SABIO-RK (System for the Analysis of Bioche- gen: So kann man sich mit einem Klick bei Auch die IUPAC, eine internationale Or-
mical Pathways – Reaction Kinetics) entwi- ChEBI (Chemical Entities of Biological Inte- ganisation, die regelt, wie chemische Verbin-
ckelt. Wie es der Name andeutet, enthält sie rest), einer Datenbank, die am European Bio- dungen zu bezeichnen sind, lässt hier viel
von uns aufbereitete Angaben zu Stoffwech- informatics Institute in Hinxton (England) Spielraum. Ein Beispiel aus dem Glukose-
selwegen. So genannte Biokuratoren wählen entwickelt und gepflegt wird, weitere Infor- stoffwechsel: Glyceraldehyd-3-Phosphat, das
zunächst potenziell nützliche Artikel anhand mationen zu einem Reaktionspartner holen. korrekt auch als 3-Phosphoglyceraldehyd ge-
der Zusammenfassungen in PubMed aus. schrieben werden kann, denn die standardi-
Hilfskräfte lesen diese Publikationen und ge- Problematische Vielfalt der Namen sierte Nomenklatur erlaubt die Umstellung
ben die daraus entnommenen Daten zunächst Für diese Arbeit benötigen wir mehr als die von Namensteilen.
in eine nichtöffentliche Version der Daten- Expertise in der Informatik. Es genügt nicht Eine Vereinheitlichung ist bereits Teil der
bank ein. Nun kommen wieder die Biokura- zu wissen, wie Nutzer in einer Datenbank su- Kuratierung. So darf es schon bei der Eingabe
toren zum Zuge, die zum einen darauf achten, chen und wie man sie dabei optimal unter- nur entweder Glucose oder Glukose geben.
dass Gleiches gleich gespeichert wird. Dies be- stützen kann. Wir müssen auch verstehen, wie Genauer gesagt, speichern wir nicht einen
trifft sowohl die formale Struktur der Infor- Systembiologen Daten gewinnen und einset- Textnamen, sondern die standardisierten Be-
Datengetriebene Wissenschaft 27
zeichner der ChEBI: Der Glukose entspricht men in Wortbestandteile zerlegen. Diese wer- Problem, korrekte Wort-Transformationsre-
dort der Identifikator ChEBI:17234, der ein- den sortiert, manche durch andere ersetzt. geln zu suchen, nun die Aufgabe, Molekülna-
deutig und sprachunabhängig ist. Um eine Die einzelnen Schritte sind jeweils so gewählt, men korrekt in Strukturen umzusetzen. Doch
derartige Umsetzung in einen standardisier- dass Wörter gleichen Sinns auf gleiche künst- kann der semantische Ansatz viel mehr, ver-
ten Bezeichner schon bei der Eingabe von liche Wörter abgebildet werden. Beispielswei- mag sogar mit Überbegriffen umzugehen:
Suchbegriffen durch die Nutzer zu unterstüt- se entfernt dieses Verfahren in den IUPAC- Sucht man etwa nach einer Reaktion eines Al-
zen, lassen sich gängige Verfahren der Sprach- konformen englischen Bezeichnungen 1-bu- kohols mit einem anderen Molekül, wäre der
verarbeitung wie Stemming-Algorithmen lei- tanol und butan-1-ol die Bindestriche, sortiert semantische Ansatz der Namen-Normalisie-
der nicht einsetzen. Diese bilden Worte auf ei- die Wortbestandteile und kommt in beiden rung im Vorteil, einerlei um welchen Alkohol
nen gemeinsamen Wortstamm ab, könnten Fällen zu dem identischen Ergebnis 1butanol. es sich handelt; ein morphologischer Ansatz
beispielsweise für »gehst« und »geht« die Basis Der zweite Ansatz hingegen beschäftigt müsste hierzu stark erweitert werden.
»geh« finden. sich mit dem Sinn der Wörter, ist also seman- Wir verfolgen deshalb beide Verfahren pa-
In langjähriger Zusammenarbeit mit der tischer Natur. Dieser Algorithmus übersetzt rallel. Die morphologische Methode steht
Gruppe von Uwe Reyle an der Universität Molekülbezeichnungen in chemische Struk- kurz vor dem Einsatz, die semantische ist da-
Stuttgart entstanden zwei neue Verfahren zur turformeln und käme damit im Beispielfall von noch weiter entfernt. In der aktuellen Im-
Namen-Normalisierung. Das eine folgt einem ebenfalls zu dem Ergebnis, dass die zwei ver- plementierung arbeitet sie auch deutlich lang-
morphologischen Ansatz, untersucht also die schiedenen Wörter identische chemische samer. Als Anbieter einer Dienstleistung müs-
Form des Wortes. Dazu müssen wir jeden Na- Strukturen bezeichnen. Zwar wird aus dem sen wir uns fragen, mit welchem Aufwand wir
Datengetriebene Wissenschaft 29
Kreativ durch Analogien
Gleiche Strukturen erkennen bei Dingen, die auf den ersten Blick nichts miteinander gemein haben:
Das ist das Arbeitsprinzip, mit dem die interdisziplinäre Computerlinguistik ihre Erfolge erzielt.
D
ie Computerlinguistik vereinigt Struktur. Im Prinzip dasselbe tut ein Mensch, und in akzeptabler Zeit zumindest seine gram
Elemente von Informatik und der einen gesprochenen Satz hört und ver matische Struktur erkennen.
Linguistik; sie verwendet darü steht. Mehr noch: Ein solches Programm soll vor
ber hinaus Methoden aus wei Diese Analogie ist noch nicht besonders dem eigentlichen Parsing kontinuierliche
teren Gebieten wie Mathematik, Psychologie, bemerkenswert, weil die Entwickler der Pro Sprache erkennen, das heißt im pausenlosen
Statistik und künstliche Intelligenz. Der Reiz grammiersprachen und der zugehörigen Par Strom der gesprochenen Laute einzelne Wör
und die Herausforderung einer solchen inter serprogramme von Anfang an stark von der ter und damit auch die Grenzen zwischen den
disziplinären Wissenschaft liegen darin, Ana Linguistik beeinflusst waren; da verwundert Wörtern ausfindig machen, und das unab
logien zwischen Konzepten aus weit entfern es nicht, dass sie deren Denkstrukturen über hängig von der Person des Sprechers und mit
ten Teilgebieten zu erkennen und zu nutzen. nommen haben. Aber die Analogie funktio großem Wortschatz. Diese Aufgabe in ausrei
Paradebeispiel dafür ist einer der entschei niert auch in Gegenrichtung. Erst als die In chender Qualität zu lösen, gelang erst mit
denden Durchbrüche, welche die Computer formatiker Methoden aus dem Kompilieren Hilfe einer weiteren Analogie. Man interpre
linguistik prägten. Es geht um das »Parsing«: formaler Sprachen – insbesondere Program tiert das Sprachsignal als verrauschte, das
Ein Computerprogramm, genauer gesagt ein miersprachen – auf natürliche Sprache über heißt durch zufällige Störungen verunreinigte
Compiler, nimmt Zeichen für Zeichen den trugen, wurde das Parsing von gewöhnlichen Version einer Zeichenkette, die dekodiert
Input des Benutzers entgegen, der in diesem Sätzen überhaupt effektiv berechenbar. Erst werden muss. Dank der neuen Betrachtungs
Fall seinerseits aus dem Text eines Computer dann konnten sie also Programme schreiben, weise lassen sich nun statistische Methoden
programms besteht, und ermittelt dessen die einen normalen, gesprochenen Satz hören aus der Informationstheorie anwenden.
rauf, dass mit »the Russian president« »Putin« gemeint ist. Letz Yeltsin the Russian president
Japan the Russian president
teres erfordert sogar Weltwissen, nämlich dass zu der Zeit, als this visit to Japan the Russian president
Putin the Russian president
dieser Text geäußert wurde, nicht mehr Boris Jelzin, sondern ... ...
Wladimir Putin russischer Präsident war.
ch
g Ze
t e i l w e ches
he
t
ic
hl
g le
es
ec
is e
i
Putin
ich
gl e
ht
gle
Yeltsin this visit to Japan
g l e ic
he W
his orta Japan
rt (Pro
Koreferenzresolution mit Hypergraphen e Z e i c h e n fo no men Japan
ch l )
ge
the Russian
gle
Das Programm definiert zunächst mit Hilfe einzelner Merkmale fürKoreferenzketten.
president Die Teilmengen sinditim linken Bild durch
Teilmengen aller Erwähnungen (Hypergraphen) als Kandidaten farbige Umrandungen
the Russian
president
dargestellt. Sie werden
Japan dann mit Hilfe
von Algorithmen der linearen Algebra verrechnet; das Ergebnis
tis c h e s G es ist die korrekte Zerlegung (rechts).
sch m ma ch
m m a ti e s G es ra le
ra c ic h e n f o lge
ch
g Ze
t e i l w e ches
he
t
ic
hl
g le
es
ec
Putin is e
i
ich
gl e
ht
Putin
ge
the Russian
gle
the Russian
president it president it
the Russian the Russian
president Japan Japan
president
Putin
Von den so entwickelten
Yeltsin Methoden this
pro visit
und to
»it«.Japan
Formal gesprochen kommt es darauf benen korrekten Lösungen, die als Trainings-
fitierte schließlichhisimmens die maschinelle Japanan, alle Erwähnungen in Teilmengen aufzutei und Testdaten dienen (»Annotationen«), Re
Übersetzung. Hier trägt dieselbe Analogie:Japan len, deren Elemente zueinander koreferent geln oder statistische Zusammenhänge ab.
Die Ausgangssprache
the Russianwird als verrauschte Ver sind; und natürlich darf eine Erwähnung Damit die Standardverfahren des maschi
president it
sion der Zielsprache angesehen. Obwohl die nicht zwei verschiedenen Teilmengen angehö nellen Lernens angewendet werden können,
the Russian
automatische Übersetzung auf den erstenJapan
president ren. Diese Mengen heißen auch »Koreferenz arbeitet man mit Paaren von Erwähnungen.
Blick nichts mit der Spracherkennung gemein ketten«, weil sie häufig, wie im Kasten, durch Eine Annotation besteht aus einer Liste sol
hat, erkannten Computerlinguisten eine verbindende Striche dargestellt werden. cher Paare mitsamt der Angabe, ob die bei
Strukturähnlichkeit und übertrugen den Lö Frühe Arbeiten in der Computerlinguistik den Erwähnungen eines Paars koreferent
sungsansatz von der Spracherkennung auf die griffen Erkenntnisse aus der Linguistik auf sind oder nicht (Kasten links, rechte Grafik).
automatische Übersetzung. und stellten komplexe Regeln für die Korefe Das Programm lernt nicht nur danach, es
renzresolution auf, die eine vollständige syn gibt zu einem neu vorgelegten Text Listen
Ist »er« Putin oder Jelzin? taktische und häufig auch semantische Analy von Paaren aus. Diese »paarweise Klassifika
Hier wird ein Muster deutlich: Man löst ein se des Textes voraussetzten. Da dieser Ansatz tion« hat den Vorteil, dass sie bekannten und
computerlinguistisches Problem, indem man nicht robust genug für eine Anwendung im gut verstandenen Methoden des maschinel
eine Analogie zu einem scheinbar entfernten größeren Stil war, wurden seit den späten len Lernens zugänglich ist. Nachteil ist, dass
Gebiet erkennt – natürliche Sprachen und 1990er Jahren zunehmend Verfahren des ma Wissen um den Kontext verloren geht. So
Programmiersprachen, Spracherkennung und schinellen Lernens eingesetzt: Ein Programm kann es einem solchen Programm durchaus
Informationstheorie, maschinelle Überset leitet automatisch aus von Menschen vorgege passieren, dass es »Putin« und »Yeltsin« durch
zung und Spracherkennung. Zwei Studien
aus meiner Arbeitsgruppe zeigen im Folgen
den, wie eine solche Übertragung im Einzel Glossar
fall geleistet werden kann.
Eine wichtige Aufgabe beim automati ➤ Syntax ist die grammatische Struktur eines Textes, Semantik seine Bedeutung.
schen Verstehen von Texten ist die so genann ➤ P arsing: Einen Eingabetext Zeichen für Zeichen entgegennehmen, dabei Gren
te Koreferenzresolution: zu erkennen, dass zen zwischen bedeutungstragenden Elementen (»Wörtern«) und in gewissen
sich mehrere Ausdrücke im Text (»Erwähnun Grenzen die Struktur des Texts erkennen.
gen«) auf denselben Gegenstand beziehen ➤ Z wei Ausdrücke im Text (»Erwähnungen«) koreferieren, wenn sie denselben Ge
(»koreferieren«). Eine Erwähnung kann zum genstand bezeichnen.
Beispiel ein Eigenname in unterschiedlichen ➤ Koreferenzresolution ist die Identifizierung koreferenter Erwähnungen.
Varianten, ein Pronomen oder auch eine zu ➤ A nnotation ist ein von einem menschlichen Bearbeiter mit Zusatzinformatio
sammengesetzte Nominalphrase sein. In dem nen versehenes Textbeispiel für das maschinelle Lernen.
Text im Kasten links sind die Erwähnungen ➤ Ein Synset ist eine Menge annähernd synonymer Ausdrücke in der Datenbank
»Putin« und »the Russian president« korefe WordNet.
rent, ebenso »Yeltsin« und »his« sowie »Japan«
Datengetriebene Wissenschaft 31
Europa
Zeitalter
wenn sie koreferent sind; aber das ist ja erst
Kunst
Person
das Ergebnis der Analyse und nicht der Aus
Staat in Europa
(Kunst)
gangspunkt. Diese Kanten wiederum drücken
Moderne
Deutschland nichts weiter aus als eine paarweise Klassifika
tion und bieten daher keinen Fortschritt.
Person Kultur
Russland
Weiter kommt man mit einem neuen
(Bildende Kunst) (Europa)
Deutscher
Neuzeit Konzept. Ein Hypergraph ist ein verallgemei
Künstler Russe
nerter Graph, bei dem eine Kante mehr als
Kunstwerk zwei Knoten miteinander verbinden kann.
Person
Kultur
(Deutschland)
Kultur der Neuzeit Damit ist er die graphentheoretische Entspre
(Russland)
chung einer Menge, und wir haben eine ange
Person
(Musik) Künstler der
Bildenden Kunst
messene Darstellung des Koreferenzproblems
Kunst Kunst
Neue Musik (Deutschland) (Russland) gefunden: Erwähnungen sind Knoten im Hy
Komponist
Deutscher
pergraphen, und jeder Gegenstand ist eine
Russischer
Künstler Künstler
Komponist Künstler
der Neuzeit Hyperkante, die alle seine koreferenten Er
(Klassische Musik)
Komponist
Russische
Musik
wähnungen umfasst. Das Problem der Kore
(Kirchenmusik)
Komponist (Oper)
Grafiker
ferenzresolution kann dann als Clusteranalyse
Deutscher
Musiker Russischer
Künstler
der Moderne
für Hypergraphen aufgefasst werden.
Musiker Radierer
Komponist
Deutscher
Mit diesem neuen theoretischen Rahmen
(20. Jahrhundert) Russischer Grafikdesigner
Komponist
Komponist
Kunst
ist unser Programm zur Koreferenzresolution
Dirigent Russischer
der Moderne
nicht mehr ausschließlich auf die Beispielpaa
Maler
Max Reger
Expressionismus
re der paarweisen Klassifikation angewiesen.
Maler des
Paul Hindemith Igor Strawinski Expressionismus Vielmehr zieht es eine Vielzahl von »Merkma
Werk Konstruktivismus
(Neue Musik)
Künstler
len« (features) heran. Ein Merkmal ist ein In
Deutscher
Maler
des Konstruktivismus
diz dafür, dass zwei Erwähnungen im Prinzip
Werk der Suprematismus
Darstellenden Kunst
Werk von
Paul Hindemith El Lissitzky koreferent sein können. Eines von ihnen zeigt
Mann
an, ob Erwähnungen der gleichen semanti
Künstler
Musikalisches
Ludus Tonalis Ernst Ludwig
Kirchner
Paula
Modersohn-Becker
des Suprematismus
schen Klasse angehören, also zum Beispiel
Werk
Spektrum der Wissenschaft
Ponzetto und mir die Frage, wie wir unserem weisen eine Gemeinsamkeit auf. Beim Prob
Koreferenzresolutionssystem dieses Wissen lem der Koreferenzresolution kam es darauf quellen
zur Verfügung stellen können. an, auf einer abstrakten Ebene die Struktur
Cai, J., Strube, M.: End-to-End Coreference
Die in der Computerlinguistik populärste gleichheit zwischen dem linguistischen Phä Resolution via Hypergraph Partitioning. In:
Ressource für derartiges Wissen ist »Word nomen der Koreferenz, dem mathematischen Proceedings of the 23rd International
Conference on Computational Linguistics,
Net«, eine lexikalische Datenbank, die Wörter Konzept der Menge und dem graphentheo
Peking, 23. – 27. August 2010, S. 143 – 151.
so genannten »Synsets« zuordnet, die jeweils retischen Konstrukt des Hypergraphen zu se Download über www.aclweb.org/
eine Menge (annähernd) synonymer Ausdrü hen. Bei der Wissensextraktion aus Wikipedia anthology/C/C10/
Ponzetto, S. P., Strube, M.: Taxonomy
cke enthalten. Die Synsets sind in einer Taxo ging es darum, das Kategoriensystem in Wi
Induction Based on a Collaboratively Built
nomie angeordnet und durch viele weitere se kipedia als Netzwerk zu erkennen, dessen Knowledge Repository. In: Artificial Intelli-
mantische Relationen miteinander verknüpft, Kanten semantische Nähe ausdrücken und gence 175, S. 1737 – 1756, 2011
so dass sich ein reichhaltiges semantisches dessen Knoten – Wikipedia-Artikel und -Ka
Datengetriebene Wissenschaft 33
Virtuelle Forschungsumgebungen
für morgen
Um Wissenschaftlern die Infrastruktur bieten zu können, die sie für ihre Arbeit in der Zukunft brauchen,
müssen Hochschulen und außeruniversitäre Institutionen ihre Kräfte bündeln und neue Wege beschreiten.
N
ur dort, wo der Boden und das attraktiv zu machen und so in der Antike xperiment und Beobachtung ihre Alleinstel
E
Angebot an Wasser und Licht den Wettbewerb um die klügsten Köpfe zu lung im Erkenntnisprozess. Dieser Trend setzt
ihren Bedürfnissen genügen, gewinnen. sich bis in die Gegenwart fort, in der neben
werden Pflanzen gedeihen und Während es damals nur wenige solcher den Bibliotheken als weitere Querschnitts
Frucht tragen. Genauso verhält es sich auch Stätten der Gelehrsamkeit gab, änderte sich funktion die Rechenzentren zur Verarbeitung
mit der Wissenschaft: Ein Forscher benötigt die Situation im Spätmittelalter deutlich. Mit von Forschungsdaten aufkamen. Inzwischen
eine seinem Thema angemessene Umgebung, dem Untergang des Römischen Reichs im wendet eine typische technische Universität
um herausragende Ergebnisse zu erzielen. Das 5. Jahrhundert war eine Phase weit gehender durchschnittlich weniger als zwei Prozent ih
war schon in der Antike so, wobei sich die er wissenschaftlicher Stagnation angebrochen. res jährlichen Etats für die Ausstattung ihrer
forderliche Infrastruktur im Lauf der Jahr Nun aber wurden die antiken naturphiloso Bibliothek auf, hingegen über fünf Prozent
hunderte freilich beträchtlich erweitert hat. phischen Erkenntnisse wiederentdeckt, und für Laborräume und technische Einrichtun
Doch auch wenn wir heute von »virtuellen die Mächtigen ihrer Zeit gründeten Universi gen. Dies war und ist die Konsequenz einer
Forschungsumgebungen« sprechen, sind die täten als neue Form, Studium und Forschung veränderten Forschungslandschaft, in der sich
Grundbedürfnisse doch erstaunlich gleich ge eine Heimat zu geben. Das Modell erwies sich die Natur- von den reinen Geisteswissenschaf
blieben. Gelehrte brauchen vor allen Dingen als erfolgreich. Um 1230 gab es bereits etwa ten lösten und größeren Raum einnahmen.
eines: die Möglichkeit, sich mit anderen Ex 20 solcher Einrichtungen in Europa, 1789 Da Experimente disziplinspezifisch sind,
perten ihres Fachs auszutauschen. waren es schon 142. Im deutschen Sprach erfordern sie unterschiedliche Forschungsum
Weil diese beiden Grundpfeiler jeder For raum vollzog sich diese Entwicklung etwas gebungen. Angesichts einer wachsenden Zahl
schung Ende des 4. Jahrhunderts v. Chr. am langsamer. Bis 1400 gab es erst drei Universi von Teildisziplinen wird es für eine Universi
Museion Alexandrias gegeben waren, wurde täten, bis 1500 wuchs ihre Zahl aber auf zehn. tät immer aufwändiger, das ganze Spektrum
es zur zentralen Stätte antiker Gelehrsamkeit. Heute sind es in Deutschland allein ungefähr der Wissenschaften abzubilden, auch wenn
Nirgends sonst beherbergte eine Bibliothek 100. Hinzu kommen noch andere Arten sich Forschungsumgebungen bei vergleichba
eine solche Vielzahl an Schriften – hundert von Hochschulen und außeruniversitäre For ren Fragestellungen durchaus ähneln.
tausende sollen es gewesen sein. Nicht anders schungseinrichtungen. Mitunter benötigen wissenschaftliche Ins
als heute ermöglichten diese frühen Publika trumente spezifische Einsatzorte. Dazu gehö
tionen eine indirekte Kommunikation zwi Niedergang der Bibliotheken ren astronomische Teleskope, die einen dunst
schen Forschern über Generationen hinweg. Auch in den mittelalterlichen Universitäten freien Himmel erfordern (siehe Foto rechts),
Auf Grund seiner Bedeutung wurde das spielten die Bibliotheken eine tragende Rolle, oder die polaren Beobachtungsstationen und
Museion oft von den Großen der Zeit geleitet, und daran hat sich bis in die Gegenwart nichts Forschungsschiffe der Klimaforscher. Die ef
etwa von Eratosthenes, der den Erdumfang geändert. Nach wie vor ist die Publikation das fiziente Nutzung dieser weit entfernten Be
und die Schiefe der Ekliptik vermaß, oder von primäre Mittel, Forschungsergebnisse in der obachtungsstandorte verlangt, große Daten
dem frühen Sprachwissenschaftler Aristo Fachwelt zu verbreiten. Seit der Erfindung des volumina von dort schnell zu den jeweiligen
phanes. Selbst längere Reisen und die damit Buchdrucks durch Johannes Gutenberg Mitte Wissenschaftlern an ihren Heimatuniversitä
verbundenen Gefahren schreckten Wissen des 15. Jahrhunderts lassen sie sich leicht ver ten zu übermitteln.
Suchende nicht ab. Seine einzigartige Ausstat vielfältigen – und dank des Aufkommens der Während Gelehrte noch Anfang des 20.
tung verdankte das Museion dem Engagement Zeitungen und schließlich des Wissenschafts Jahrhunderts in Briefwechseln Informationen
des ptolemäischen Herrschergeschlechts. Ob journalismus auch einer breiten Öffentlich austauschten und Theorien diskutierten, wol
wohl die Wirtschaftsmacht ihres Landes noch keit vermitteln. len Forscher heute mit anderen ohne Verzöge
nicht davon abhing, wissenschaftliche Er Dennoch gab es seit den Zeiten Galileo rung und unabhängig vom Aufenthaltsort in
kenntnisse in technische Innovationen um Galileis (1564 – 1642) eine strukturelle Ver Verbindung treten können. Das leisten die
zumünzen, legten diese Könige großen Wert änderung: Schriften – und damit die Biblio modernen, globalen Kommunikationssyste
darauf, den »Forschungsstandort« Alexandria theken – verloren mit der Einführung von me, darunter vor allem das Internet. Hierfür
Datengetriebene Wissenschaft 35
die technische Infrastruktur bereitzustellen,
ternommen.
Im Extremfall könnte ein Rechenzentrum
die gesamte Infrastruktur stellen – bezie
hungsweise als eigenständiges Unternehmen
ausgegliedert werden; man spricht von Infra
structure-as-a-Service. Dieser Ansatz ist vor
allem in solchen Fächern sinnvoll, die die ver
fügbare Technologie möglichst optimal aus
nutzen wollen. Geht es dagegen nur um die
Ausführung von bestimmten Programmen,
etwa zur statistischen Auswertung, ist das
Konzept Software-as-a-Service interessanter.
Ein Forscher könnte dann eine speziell für
seine Aufgabenstellung entwickelte Software
verwenden, ohne sich um deren Implemen
tierung kümmern oder selbst über die not
wendige Hardware verfügen zu müssen.
Das würde auch die lokalen Rechenzent
erfordern die Konzentration von Experimentiereinrichtungen an einem Ort (im Bild ren entlasten, da sie in Zukunft kaum in der
oben der LHC am CERN). Von dort müssen die Ergebnisse über Kommunikationsnetzwerke Lage sein werden, die Vielzahl unterschiedli
zu den über die ganze Welt verteilten Wissenschaftlern weitergeleitet werden. cher Anwendungssoftware für die jeweils we
nigen Nutzer bereitzustellen und zu pflegen.
Zudem sinkt das Risiko, dass ein in einem
nerer Studien mit aufwändigen Bilddaten wie den LHC-Experimenten ist das durch das so Projekt entwickeltes Verfahren vergessen und
in der Medizin. Diese Informationen werden genannte Worldwide LHC Computing Grid in einem anderen neu entwickelt wird.
in der Regel in großen Archiven gesammelt (WLCG) – ein aus miteinander kommuni Die entstehende Forschungsinfrastruktur
und wiederum anderen Forschern zur Verfü zierenden Rechnern auf der ganzen Welt be besitzt dann zwei Komponenten, deren Zu
gung gestellt. stehendes Netzwerk – bereits in Ansätzen ge sammenspiel noch nicht geklärt ist: Auf der
Sowohl aus dem Interesse der Beteiligten schehen. einen Seite übernimmt die Universität diszi
als auch aus Effizienzgründen sollten all diese Das erfordert eine dienstleistungsorien plinübergreifend die Strukturierung der For
Daten möglichst vielen Gruppen zugänglich tierte Softwaretechnologie. Ein Beispiel dafür schungsumgebung vor Ort, auf der anderen
sein. Damit entsteht ein Bedarf an virtuel- ist das so genannte Cloud Computing. Eine arbeitet der Träger einer virtuellen disziplin
len Forschungsumgebungen, die institutions solche »Rechnerwolke« besteht aus einem spezifischen Forschungsumgebung über die
übergreifend aufgebaut sind. Im Gegensatz Netzwerk von Computern, aus dem ein An Grenzen der Institutionen hinweg. Offen sind
zum erwähnten Bibliotheksverbund oder zum bieter die nachgefragten Ressourcen dyna bis jetzt die Mechanismen der Zusammenar
Rechenzentrum wären diese zwar disziplin misch zuweist. Letzterer weiß also nicht mehr, beit und die Finanzierung solcher Infrastruk
spezifisch, durch Synergieeffekte würden aber wo konkret jene Maschinen stehen, die seine turen. Um den Forschungsstandort Deutsch
die Kosten reduziert. Daten oder eine bestimmte Software vorhal land auch für die Zukunft gut zu positionie
ten – all das bleibt ihm wie hinter einer Wolke ren, sollten diese Fragen so schnell wie möglich
Rechnen in der Wolke verborgen. gelöst werden. Ÿ
Virtuelle Forschungsumgebungen sollen vor Hier bietet sich eine weitere Chance für
allem notwendige Dienste für die beteiligten die Hochschulen, Kosten zu sparen und
der autor
Wissenschaftler anbieten, angefangen von gleichzeitig ein Mehr an Infrastruktur zu bie
der Verbindung zu anderen Forschern, wis ten. Gegenwärtig versorgen ihre Rechenzent Uwe Schwiegelshohn
leitet das Institut für
senschaftlichen Geräten oder Datenspeichern ren noch die vor Ort arbeitenden Forscher.
Roboterforschung der
an weit entfernten Orten bis hin zur Bereit Angesichts der Fragmentierung der Hoch Technischen Universität
stellung und Pflege benötigter Software für schullandschaft in viele Disziplinen mit je Dortmund, wo er sich
vor allem auf die Gebiete
die Auswertung von Messergebnissen. Es wä- weils nur einer kleinen Zahl von Wissen
Grid Computing und au-
re ineffizient, wenn solche Software von je schaftlern pro Universität lässt sich auf diese tonome mobile Roboter
dem Wissenschaftler selbst erstellt werden Weise kaum die nötige hohe Auslastung errei konzentriert. Er ist zudem Prorektor für
müsste, wie dies in der Vergangenheit oft der chen. Vernünftiger wären Rechenzentrums den Geschäftsbereich Finanzen der Hoch-
schule. In diesem Rahmen befasst er
Fall war. Nachdem aber jetzt die Institutions verbünde analog den Bibliotheksverbünden; sich auch mit fakultätsübergreifenden
grenzen einmal aufgebrochen sind, bietet es erste Schritte in diese Richtung wurden so Fragen der Strukturentwicklung.
sich an, sie auch hier zu überschreiten. Bei wohl innerhalb von Bundesländern als auch
Datengetriebene Wissenschaft 37
Wissenschaft braucht Vernetzung
Forscher können der rapide anwachsenden Datenmengen nur Herr werden und
sie zum rascheren Erkenntnisgewinn nutzen, wenn sie ihre Rolle als Mitglieder eines
großen Netzwerks verstehen und akzeptieren. Dies erfordert neue Formen des
Umgangs mit urheberrechtlichen Fragen und neue Modalitäten der Zusammenarbeit.
D
ie Gewinnung neuer Erkennt- die alten Erklärungsmuster den neuen Reali-
nisse durch die Analyse großer täten nicht mehr gewachsen sind.
Datensammlungen wird oft als Dies scheint mir die Idee hinter Jim Grays
»viertes Paradigma« wissen- Begründung eines vierten Paradigmas und
schaftlichen Arbeitens bezeichnet. Unabhän- dem Bild von der »Datenflut« zu sein: dass
gig davon, ob man dem zustimmt, ist es sinn- unsere Fähigkeit, Daten zu messen, zu spei-
voll, die ursprüngliche Bedeutung des Begriffs chern, zu analysieren und zu visualisieren, die
Paradigmenwechsel in Thomas Kuhns »Struc- neue Realität ist, der sich die Wissenschaft
ture of Scientific Revolutions« noch einmal zu stellen muss. Daten sind der Kern dieses neu-
reflektieren. en Paradigmas, und es steht auf einer Stufe
Kuhns Modell beschreibt eine Welt der mit dem, was wir für den wissenschaftlichen
Wissenschaft, in der ein System von Ideen die Methodenvorrat halten: der experimentellen
Vorherrschaft erringt, sich etabliert und so Beobachtung, der Theoriebildung und der Si-
eine Sicht der Welt hervorbringt (das »Para- mulation.
digma«), die für sich selbst Macht und Ein- Müssen wir die ersten drei Paradigmen
fluss gewinnt. Dieses System von Ideen be- also begraben? Keineswegs, vielmehr will ich
zieht seine Geltung daraus, dass es eine plausi- Das Onlinelexikon Wikipedia ist das sie feiern. Mit der experimentellen Beobach-
ble Erklärung für beobachtbare Phänomene bekannteste Beispiel einer für alle frei tung und Theoriebildung sind wir weit ge-
liefert. Auf diese Weise haben wir zum Bei- zugänglichen Website, welche die kommen – von einem Weltbild, in dem die
spiel den Äther als Träger des Lichts bekom- Gemeinschaft der Internetnutzer welt- Sonne um die Erde kreist, bis zur Quanten-
men sowie die Miasmen-Theorie für Infekti- weit unentgeltlich aufgebaut hat, physik. Simulation ist das Herzstück vieler ak-
onskrankheiten und die Vorstellung, dass die stetig erweitert, pflegt und aktualisiert. tueller Forschungsaktivitäten, von der Rekon-
Sonne um die Erde kreist. Das System von struktion des antiken Rom bis hin zur Wetter-
Ideen, die Sicht der Welt, das Paradigma ver- vorhersage. Die Genauigkeit von Simulationen
festigt sich durch schrittweise Erweiterung. seits gedrängt. Neue Ideen fallen nicht auf und Prognosen steht im Zentrum heißer poli-
Jeder einzelne Wissenschaftler arbeitet in der fruchtbaren Boden, bekommen kein Geld tischer Debatten um die Wirtschaftsentwick-
Regel so, dass er das Paradigma Stück für und kein Personal. Furcht, Unsicherheit und lung und den Klimawandel. Und natürlich
Stück ergänzt. Wem es gelingt, ein großes Skepsis bestimmen die Reaktion auf originelle gilt, dass Beobachtung und Theorie unabding
Stück hinzuzufügen, der erlangt Autorität, Vorstellungen, Methoden, Modelle und An- bar sind für gute Simulationen. Ich kann auf
Forschungsaufträge, Preise und Auszeichnun- sätze, die dem herrschenden Paradigma zuwi- meinem Bildschirm sehr schön etwas simulie-
gen – und Direktorenposten. derlaufen. ren, in dem die Gravitation nicht vorkommt,
Alle Beteiligten profitieren von ihren In- Doch Weltanschauungen gehen unter und aber wenn ich mit meinem Auto über einen
vestitionen in ein System von Ideen, das über Paradigmen stürzen, wenn sie die Beobach- Klippenrand fahre, wird mich die Schwerkraft
die Ideen selbst hinausreicht. Firmen und Re- tungen nicht mehr erklären können oder gnadenlos wieder einholen.
gierungen (und die Leute, die für sie arbeiten) wenn ein Experiment zweifelsfrei nachweist, So gesehen handelt es sich also nicht um
gründen Geschäftspläne und politische Vor- dass sie falsch sind. Der Äther hat sich nach einen Paradigmenwechsel im kuhnschen Sin-
gaben auf eine solche Sicht der Welt. Das Hunderten von Jahren stetiger Verfeinerung ne. Daten werden nicht die gute alte Realität
führt zum Aufbau eines Schutzwalls – einer als Schimäre erwiesen, und so erging es dem beiseiteschieben. Stattdessen stellen sie eine
Art Immunsystem –, der das Weltbild gegen Miasma und dem Geozentrismus. Die Zeit Reihe von Anforderungen an die Methoden
Angriffe abschirmt. Zweifler werden ins Ab- für einen Wechsel ist dann gekommen, wenn und Konventionen, mit denen wir über Beob-
http://www2.jusch.ch/dokus/debiananwenderhandbuch.de/bilder/webmin/server-apache.png
Datengetriebene Wissenschaft 39
mit den anderen Schichten kompatibel ist
Freie Inhalte im Internet und zusammenwirkt oder »interoperiert«, wie
Computerwissenschaftler sagen. Ich glaube,
Das Open Directory Project (ODP) gilt als größtes von Menschen gepflegtes Webver- diese Sichtweise wird dem Wesen wissen-
zeichnis des World Wide Web. Seine Inhalte sind für jeden kostenlos zugänglich und schaftlicher Methodik eher gerecht als das
werden von freiwilligen Redakteuren unentgeltlich bearbeitet und aktualisiert. Die Konzept eines Paradigmenwechsels mit sei-
Grafik zeigt die Entwicklung der Einträge im deutschsprachigen Zweig des ODP. nem destruktiven Ansatz. Daten sind das Er-
Quelle: http://de.wikipedia.org/w/index.php?title=Datei:Odp_sitecount_world_deutsch.png&filetimestamp=20100211081729
gebnis allmählicher Fortschritte bei den Mess-
und Beobachtungsverfahren. Sie untermau-
500 000
ern die Theorie, sie treiben und validieren die
450 000 Simulation, und sie werden am besten in stan-
400 000
dardisierter wechselseitiger Kommunikation
Windharp / CC-by-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0/deed.de)
Eine Publikation von Spektrum der Wissenschaft und dem Heidelberger Institut für Theroretische Studien
Chefredakteur: Dr. Carsten Könneker Geschäftsführer: Dr. Klaus Tschira, Prof. Dr. Andreas Reuter Leitung: Dr. Joachim Schüring
Editor-at-Large: Dr. Reinhard Breuer (v.i.S.d.P.) Presse- und Öffentlichkeitsarbeit: Dr. Peter Saueressig Anschrift: Spektrum der Wissenschaft – Custom Publishing,
Redaktionsleiter: Dr. Hartwig Hanser (Monatshefte), Dr. Gerhard Anschrift: HITS gGmbH, Schloss-Wolfsbrunnenweg 35, Postfach 10 48 40, 69038 Heidelberg;
Trageser (Sonderhefte) 69118 Heidelberg, Hausanschrift: Slevogtstraße 3–5, 69126 Heidelberg,
Redaktion: Thilo Körkel (Online-Koordinator), Dr. Klaus-Dieter Tel.: 06221 533-245, Fax: 06221 533-198 Tel.: 06221 9126-612, Fax: 06221 9126-5612
Linsmeier, Dr. Christoph Pöppe
Art Direction: Karsten Kramarczik www.h-its.org www.spektrum.com/cp
Layout: Sibylle Franz, Claus Schäfer
Schlussredaktion: Christina Meyberg (Ltg.), Sigrid Spies,
Katharina Werle Gesamtherstellung: L. N. Schaffrath Druckmedien GmbH & Co. KG, Marktweg 42–50, 47608 Geldern
Bildredaktion: Alice Krüßmann (Ltg.), Anke Lingg,
Gabriela Rabe Sämtliche Nutzungsrechte an dem vorliegenden Werk liegen bei der Spektrum der Wissenschaft Verlagsgesellschaft mbH.
Redaktionsassistenz: Anja Albat-Nollau, Britta Feuerstein Jegliche Nutzung des Werks, insbesondere die Vervielfältigung, Verbreitung, öffentliche Wiedergabe oder öffentliche Zugänglich
Verlag: Spektrum der Wissenschaft Verlagsgesellschaft mbH, machung, ist ohne die vorherige schriftliche Einwilligung des Verlags unzulässig. Jegliche unautorisierte Nutzung des Werks
Postfach 10 48 40, 69038 Heidelberg, berechtigt den Verlag zum Schadensersatz gegen den oder die jeweiligen Nutzer. Bei jeder autorisierten (oder gesetzlich gestatteten)
Tel.: 06221 9126-600, Fax: 06221 9126-751 Nutzung des Werks ist die folgende Quellenangabe an branchenüblicher Stelle vorzunehmen: © 2011 (Autor), Spektrum der
Amtsgericht Mannheim, HRB 338114 Wissenschaft Verlagsgesellschaft mbH, Heidelberg. Jegliche Nutzung ohne die Quellenangabe in der vorstehenden Form berechtigt
Verlagsleiter: Richard Zinken die Spektrum der Wissenschaft Verlagsgesellschaft mbH zum Schadensersatz gegen den oder die jeweiligen Nutzer. Wir haben
Geschäftsleitung: Markus Bossle, Thomas Bleck uns bemüht, sämtliche Rechteinhaber von Abbildungen zu ermitteln. Sollte dem Verlag gegenüber der Nachweis der Rechtsinhaber-
schaft geführt werden, wird das branchenübliche Honorar nachträglich gezahlt.
http://education-copyright.org/wp-content/uploads/2011/06/Creative-Commons-Infographic.png
existiert und noch dazu der Encyclopedia Bri-
tannica den Rang streitig macht.
Aber, mit Galilei gesprochen: »Sie bewegt
sich doch.« Wikipedia existiert, und das Netz –
eine einvernehmliche Halluzination, die auf
einer Sammlung technischer Standards be-
ruht – transportiert Skype-Video-Anrufe zwi-
schen mir und meiner Familie in Brasilien –
und zwar umsonst. Es ist eine Innovations
maschine wie keine je zuvor. Das Netz lehrt
uns, dass neue Netzwerkschichten für den
Umgang mit Daten die Idee der Offenheit be-
herzigen sollten – der Nutzung von Stan-
dards, die uns allen erlauben, frei zusammen-
zuarbeiten und die Segnungen des Netzes, die
wir von der riesigen Dokumentensammlung
des World Wide Web kennen, für die giganti-
schen Datensammlungen nutzbar zu machen,
die wir so leicht zusammentragen können. In diesem Lokal in Spanien ist nur Musik mit Creative-Commons-Lizenz aus dem Internet
Die zweite Lektion kommt aus einer an zu hören.
deren offenen Welt, derjenigen der Open-
Klaus Graf / CC-by-SA-2.5 (http://creativecommons.org/licenses/by-sa/2.5/deed.de)
Source-Software. Die Erstellung von Software
nach dem Modell verteilter kleiner Einzelbei-
träge, zusammengeführt durch technische
und rechtliche Standardisierung, war auch so
eine theoretische Unmöglichkeit, die durch
die Realität des Internets einen wahrhaft
kuhnschen Paradigmenwechsel erfuhr. Die
Möglichkeit der jederzeitigen Kommunika
tion, verbunden mit günstigem Zugang zu
Programmierwerkzeugen, und die weitsich
tige Anwendung öffentlicher Urheberrechts
lizenzen hatten einen seltsamen Effekt: Sie
brachten Software hervor, die funktionierte
und mit der Zeit immer umfangreicher und
leistungsfähiger wurde. Die wichtige Erkennt-
nis ist, dass wir Millionen von Gehirnen an-
zapfen können, wenn wir standardisieren,
Datengetriebene Wissenschaft 41
bilden, weil die Werkzeuge billig und über-
all zugänglich sind – das trifft auf die Teil-
chenphysik oder Molekularbiologie nicht zu.
Einige der großartigen Dinge im Web eignen
sich nicht so gut für Wissenschaft und For-
schung, weil das Prinzip der auf Konsens
basierenden Einschätzungen nur die lang
weiligen Dinge zu Tage fördert, denen jeder
zustimmt, aber nicht das Abgelegene, das oft
viel interessanter ist.
Dennoch gibt es herzlich wenige Alterna-
tiven zum Netzwerkansatz. Die Datenflut ist
da, und sie ebbt nicht ab. Wir können mehr
und schneller messen als jemals zuvor. Und
Ich dachte, wir können Messungen in enormer Zahl
ich spüre einen Paradigmenwechsel, gleichzeitig nebeneinander durchführen. Un-
aber mir war nur die Unterhose hochgerutscht. sere Gehirnkapazität bleibt dagegen für alle
Zeit auf ein Gehirn pro Person beschränkt.
Wir müssen also zusammenarbeiten, wenn
wir Schritt halten wollen, und Netzwerke sind
Scheinbar fehlende Anreize sind bei all- Um ihn zu überwinden, müssen wir in die besten Kooperationswerkzeuge, die unsere
dem der Punkt, der klassischen ökonomi- Annotation und Qualitätssicherung investie- Kultur hervorgebracht hat. Das aber bedeu-
schen Theorien zuwiderläuft. Das ist ein an- ren, in Hardware zur Speicherung und Wie- tet, dass wir unseren Umgang mit Daten ge-
deres Beispiel für einen wahrhaft kuhnschen dergabe von Daten sowie in die Grundlagen nauso offen gestalten müssen wie die Proto-
Paradigmenwechsel – die alte Theorie konnte zu ihrer gemeinsamen Visualisierung und kolle, die Rechner und Dokumente miteinan-
keine Welt beschreiben, in der Menschen um- Analyse. Wir brauchen offene Standards, die der verbinden. Es ist der einzige Weg, auf dem
sonst arbeiten, doch die neue Realität zeigt, es erlauben, Daten allen zugänglich zu ma- wir die erforderliche Leistungsstufe erreichen
dass genau dies passiert. chen und im Verbund zu nutzen. Wir brau- können. Ÿ
chen eine verbindliche Definition für die
Forscher als Knoten im Netzwerk Datenschicht. Und vor allem müssen wir der autor
Es gibt im Netz durchaus Widerstand gegen Wissenschaftler aus allen Gebieten darin un-
John Wilbanks ist
Science Commons / CC-by-3.0
eine datenintensive Schicht. Doch der beruht terweisen, auf dieser neuen Datenschicht zu Executive Director of
längst nicht im gleichen Maß auf Urheber- arbeiten. Solange unsere Ausbildungskultur Science Commons bei
der Organisation
rechtsbedenken, wie das bei Software der Fall von den Prinzipien der gildenartigen Mikro-
Creative Commons. Er
war (gleichwohl ist das Beharrungsvermögen spezialisierung geprägt ist, wird der Wissen- hat die Bioinformatik
des Urheberrechts groß, wenn es um die An- schaftsbetrieb der Datenschicht weiter erheb- firma Intellico gegrün-
det, die semantische
passung der Fachgutachter-Kultur bei wissen- lichen Widerstand entgegensetzen.
Graphennetzwerke für die pharmazeu-
schaftlichen Veröffentlichungen geht, was die Wir sollten uns selbst als vernetzte Kno- tische Forschung entwickelt, und gehört
»Webrevolution« in der wissenschaftlichen ten sehen, die Daten weitergeben, Theorien dem Beirat der U. S. National Library of
Literatur de facto verhindert). Zwar existieren testen und die Simulationen anderer Wissen- Medicine’s PubMed Central an.