Sie sind auf Seite 1von 44

2/11

KOSMOLO GIE BIOMECHANIK COMPUTERLINGUISTIK


Das simulierte Biomoleküle auf der Wissen für die künstliche
Universum virtuellen Streckbank Intelligenz

Datengetriebene
6/11

Wissenschaft

un
d Ein
He eP
ide ub
Th lber l
eo ge ikatio
ret r In nv
isc st
he itut on
Stu für
die
n
Das Unmögliche demnächst –
nur Wunder dauern etwas länger

A ls ich in die Wissenschaft einstieg, war man schon froh, wenn man mit dem Rechner eine
Kurve »plotten« konnte – gerne auch mal in Abhängigkeit von zwei Variablen, also echt
­dreidimensional! Später gelang es vereinzelt sogar, dynamische Probleme mit Hilfe von Differenzial­
gleichungen für einige Zeitschritte zu verfolgen. Und das vom »Terminal« aus, ganz ohne Loch­
streifen oder -karten – ein absolutes Highlight in der Computersteinzeit.
Der Rückblick sei gestattet, um die Dimensionen des Fortschritts zu begreifen: Welche Probleme
sich heute mit Superrechnern behandeln lassen und welch riesige Datenmengen dabei produziert
und gezielt ausgewertet werden, überstieg noch vor wenigen Jahren fast die Vorstellungskraft oder
galt schlicht als unmöglich. Darum erstaunt es mich immer wieder, was in der Wissenschaft inzwi­
schen alles machbar ist – und was insbesondere auch an dem vom Wissenschaftsmäzen Klaus
Reinhard Breuer Tschira gegründeten Heidelberger Institut für Theoretische Studien passiert, mit dem sich dieser
Sonderteil beschäftigt.
Die dort tätigen Forscher stellen ausgewählte Projekte ihrer Arbeit auf den folgenden Seiten
selbst vor, betreut und unterstützt von der Redaktion von »Spektrum der Wissenschaft«. Einige
haben vorher schon in unserem Magazin geschrieben oder wurden darin porträtiert: so der Computer­
linguist Michael Strube (»Wikipedia: Wissen für die Künstliche Intelligenz«, 12/2010, S. 94) und der
Astrophysiker Volker Springel (»Vielleicht laufen wir einem Phantom nach«, 11/2010, S. 34).

W er hätte sich träumen lassen, was Forscher heutzutage mit Hilfe von Simulationen – so nennt
man die Berechnungen inzwischen – alles ergründen können: neben der Entstehung von
Galaxien (S. 10) und der automatischen Erkennung natürlicher Sprachen (S. 30) auch die Stammes­
geschichte von Organismen (S. 22) oder die Wechselwirkung von Proteinen (S. 14). Man möchte an
numerische Zauberei glauben, so schnell gerät das (einst) Unmögliche in Reichweite – nur Wunder
dauern immer noch etwas länger.
Mit den exponentiell anwachsenden Datenmengen und Publikationen wächst aber zugleich
das Problem, sich darin noch zurechtzufinden. Entsprechend arbeiten auch Gruppen am HITS über
Datenbankmanagement, beispielsweise um für Forscher Informationen über Stoffwechselprozesse
bereitzustellen (S. 26). Denn die Simulation von Problemen mit niemals völlig zutreffenden, aber
oft nützlichen Modellen (wie Klaus Tschira in seinem Editorial auf der nächsten Seite vermerkt) ist
nur ein Aspekt jener »datengetriebenen Wissenschaft«, die mit dem Siegeszug der Höchstleistungs­
rechner immer mehr an Bedeutung gewinnt. Auf die immensen Herausforderungen, vor die sie
alle Forschungsgebiete stellt, weist HITS-Chef Andreas Reuter in seinem Beitrag ab S. 6 hin.
Ob diese Herausforderungen schon überall verstanden sind, lässt sich bezweifeln. Wohin jedoch die
abenteuer­liche Reise vermutlich geht, können Sie bei der Lektüre der folgenden Artikel erahnen.

Reinhard Breuer
Editor-at-Large
Spektrum der Wissenschaft

2 SPEKTRUM DER WISSENSCHAFT · EXTRA


Alle Modelle sind falsch,
aber einige immerhin nützlich

W as tun Wissenschaftler, die in der Grundlagenforschung arbeiten, die also versuchen, be­
stimmte Teilaspekte der uns umgebenden Welt zu verstehen? Manche von ihnen machen
das, was die meisten Menschen von Wissenschaftlern erwarten: Sie beobachten, zählen, messen,
registrieren, katalogisieren. Das sind die Empiriker. Sie streben danach, möglichst genaue Informa­
Tim Wegner, © klaus tschira stiftung

tionen darüber zu erhalten, wie Vorgänge in der Natur ablaufen.


Aber das ist nur der eine Teil des wissenschaftlichen Geschäfts. Für den anderen Teil sind die
Theoretiker zuständig, die versuchen, in den Beobachtungen der Experimentatoren Gesetzmäßig­
keiten zu erkennen und diese so zu formulieren, dass sie nicht nur mit den vorhandenen Beob­
achtungen übereinstimmen, sondern auch das Ergebnis von Experimenten voraussagen können, die
noch gar nicht durchgeführt worden sind. Solche Gesetzmäßigkeiten können unterschiedliche
Klaus Tschira Gestalt annehmen: Formeln, Diagramme, Computerprogramme und so weiter.
Jede Theorie verkörpert ein Modell des betrachteten Ausschnitts der Wirklichkeit und ist inso­
fern stets eine Abstraktion oder Idealisierung: Sie beschreibt die Realität niemals absolut genau,
sondern erfasst bestimmte relevante Aspekte »hinreichend gut« – unter Vernachlässigung anderer,
für die Fragestellung irrelevanter Details. So gesehen sind alle Modelle falsch, wie der Statistiker
George Box von der University of Wisconsin in Madison provokant formulierte. Sie können gleich­
wohl nützlich sein, sofern sie die – zumindest näherungsweise – Berechnung von Effekten erlauben,
über die noch keine Messungen vorliegen. Die Wettervorhersage etwa beruht auf vielen Vereinfa­
chungen und trifft nicht immer zu – aber sie ist, zumindest gelegentlich, sehr nützlich.

D ie zwei genannten Arbeitsweisen ergänzen sich auf fruchtbare Weise. So nutzte Johannes
Kepler das umfangreiche Beobachtungsmaterial Tycho Brahes zur Formulierung seiner Plane­
tengesetze – ein klassisches Beispiel dafür, wie Messergebnisse durch Theoriebildung zu neuen
Erkenntnissen führen. Manchmal ist das theoretische Modell auch zuerst da. Dann dienen Messun­
gen dazu, es durch Vergleich mit seinen Voraussagen nachträglich zu bestätigen oder zu widerlegen.
In diese Kategorie fällt Einsteins allgemeine Relativitätstheorie, die erst Jahre später experimentell
untermauert wurde.
Natürlich befruchten Theorien auch die empirische Seite der Wissenschaft. So ermöglichen sie
neue experimentelle Fragestellungen oder innovative Messverfahren. Weder Experimente noch
Theorien allein verhelfen also zu grundlegenden neuen Einsichten. Nur ihr Wechselspiel bringt die
Wissenschaft voran.
Seit etwa 20 Jahren verschiebt sich jedoch die Balance zwischen Experiment und Theorie in
einem Maß, das teils schon eine Entkopplung befürchten lässt. Der Hauptgrund dafür ist, dass
erheblich mehr Fördermittel in Experimentiereinrichtungen wie Beschleuniger, Teleskope, Sequen­
zierer oder Computer geflossen sind als in die Theoriebildung. In Verbindung mit dem rasanten
Leistungszuwachs in der Halbleitertechnik kam es so zur Ansammlung gigantischer Datenmengen,
die kein Mensch mehr allein durch Sichten und Nachdenken verarbeiten kann. Die Frage, wie solche
Datenfluten jemals zu Theorien verdichtet, zu Erkenntnis veredelt werden können, geriet völlig in
den Hintergrund. Das war für mich der Impuls zur Gründung des gemeinnützigen Heidelberger
Instituts für Theoretische Studien (HITS).
Daten gibt es, wie gesagt, in Hülle und Fülle, und zwar auf allen Gebieten der Naturwissen­
schaften und darüber hinaus. Die Forschungsgruppen des HITS sollen technisch und organisatorisch
die Möglichkeit bekommen, Methoden zu entwickeln und zusammen mit experimentell arbeitenden
Forschern zu erproben, die es erlauben, diese Datenmengen effektiv zu verwalten und zur Gewin­
nung neuer Einsichten nutzbar zu machen. Wenn dabei gelegentlich regelrechte Forschungs-Hits
entstehen, ist das ganz im Sinne des Erfinders.

Klaus Tschira
Geschäftsführer HITS gGmbH

Datengetriebene Wissenschaft 3
inhalt

6 D
 atengetriebene Forschung –
Herausforderung für die Informatik
Von Andreas Reuter
Auf allen Gebieten der Natur- und In­ge­
nieurwissenschaften gewinnt eine Arbeits-
methode an Bedeutung, bei der die Ana­-
lyse sehr großer Mengen von Daten zu
neuen Erkenntnissen führt. Mit welchen
technischen und organisatorischen Maß-
nahmen kann die Informatik eine ­solche
datengetriebene Forschung unterstützen­?


10 Der Kosmos im Computer
Von Volker Springel
In den fortgeschrittensten Supercomputer-
simulationen versuchen Forscher, eine
Brücke vom Universum kurz nach dem
Urknall bis zur Gegenwart zu schlagen. Sie
untersuchen, wie sich aus der einst homo-
gen verteilten Materie die heutige Vielfalt
von Galaxien entwickeln konnte

14 D
 as biomolekulare Erkennungspuzzle
Von Rebecca C. Wade
Proteine sind die Funktionsträger des
Lebens. Ihre Wechselwirkungen miteinan-
der und mit anderen Biomolekülen sorgen
dafür, dass Zellen ihre Aufgabe im Organis-
mus erfüllen. Um diese Wechselwirkungen
besser zu ver­stehen, setzen Forscher zuneh-
mend rechner­gestützte Methoden ein. Com-
putersimula­tionen von Proteininteraktio-
nen leisten auch einen immer wichtigeren
Beitrag zum Design von Wirkstoffen gegen
Krankheiten und in der Biotechnologie

18 Zerren an Biomolekülen im Computer


Von Ilona Baldus und Frauke Gräter
Mechanische Kräfte sind lebenswichtig – im
großen wie im kleinen Maßstab. Eine
Forschungs­gruppe am Heidelberger Institut
für Theoretische Studien untersucht ihre
Wirkung auf der kleinsten Ebene: vom
Protein bis hin zur einzelnen chemischen
Bindung

Titelmotiv: Brett Ryder

4 SPEKTRUM DER WISSENSCHAFT · EXTRA


22 Hochleistungsrechner

mit frdl. gen. von Anne Ashley und Gerard manning, salk institute
und der Stammbaum des Lebens
Von Alexandros Stamatakis
Eine wahre Flut von DNA-Daten ermöglicht
inzwischen immer präzisere Rekonstruk­
tionen von Stammbäumen – im Prinzip
jedenfalls. In der Praxis über­fordern exakte
Lösungen auch die leistungsfähigsten
Computer. Die Herausforderung heißt
Europa
Zeitalter
des­halb­, die Effizienz der Programme für Kunst

Näherungslösungen zu steigern Person


(Kunst)
Staat in Europa

Moderne
Deutschland

Russland

26 Pfade im Informationsdschungel
Phosphoglucose- Person Phosphofructo- Kultur
Hexo-Kinase (Europa) Aldolase
+
Isomerase (Bildende Kunst) Kinase
Neuzeit
Deutscher

Von Wolfgang Müller ATP ADP


Künstler ATP ADP Russe
Kunstwerk
Wer die verschlungenen Wege des Stoff-
Glucose Glucose-6-Phosphat Fructose-6-Phosphat Fructose-1,6-Bisphosphat
Kultur
Glycerinaldehyd-
Person
3-phosphat
der Neuzeit
Dihydroxyaceton-
Phosphat
Kultur
(Deutschland)
wechsels erforscht, benötigt Orientierungs-
Kohlenstoff ATP Adenosintriphosphat irreversible Reaktion
(Russland)

Sauerstoff Person reversible Reaktion


ADP Adenosindiphosphat
hilfe. Die Datenbank SABIO-RK hilft mitWasserstoff
Phosphatgruppe NAD+ Nicotinamid-Adenin-Dinucleotid
(Musik)
Enolase Enzym
Künstler der
Bildenden Kunst
Kunst Kunst
(Russland)
allerlei Finessen der Informatik, benötigte Neue Musik
Komponist
(Deutschland)

Deutscher
Daten in der Flut an Publikationen aufzu­ Pyruvat- H2O
Enolase
Komponist Phosphoglycerat-
Künstler
Phosphoglycerat-
Russischer
Künstler
Glycerinaldehyd-
Künstler
3-phosphat-
der Neuzeit Triosephosphat-
Kinase (Klassische Musik) Mutase Kinase Dehydrogenase Isomerase

finden Komponist
(Kirchenmusik)
Russische
Musik

Komponist (Oper)
ATP ADP H2O ATP ADP NADH, H+
Grafiker
Deutscher
Musiker Russischer NAD+
Künstler
der Moderne
Pyruvat Phosphoenol- 2-Phospho- 3-Phospho-
Musiker 1,3-Bisphospho-
Radierer
pyruvat Komponist glycerat
Deutscher
glycerat glycerat

30 Kreativ durch Analogien


(20. Jahrhundert) Russischer Grafikdesigner
Komponist
Komponist
Kunst
der Moderne
Dirigent
Von Michael Strube Max Reger
Russischer
Maler
Expressionismus

Gleiche Strukturen erkennen bei Dingen, Paul Hindemith Igor Strawinski


Maler des
Expressionismus
Werk Konstruktivismus

die auf den ersten Blick nichts miteinander (Neue Musik)


Deutscher
Künstler
des Konstruktivismus
Maler

gemein haben: Das ist das Arbeitsprinzip, Werk der


Darstellenden Kunst
Werk von
Paul Hindemith El Lissitzky
Suprematismus

mit dem die interdisziplinäre Computerlin- Mann

Künstler
Ludus Tonalis Ernst Ludwig Paula des Suprematismus
guistik ihre Erfolge erzielt Musikalisches
Werk
Kirchner Modersohn-Becker
Dadaismus
Mathis der Maler
Werk von
Ballett (Werk) Igor Strawinski
Künstler
Frau Hannah Höch des Dadaismus
Oper (Werk)

34 Virtuelle Forschungs­-
The Rake’s
Le sacre
Progress
du printemps

umgebungen für morgen


Von Uwe Schwiegelshohn
Um Wissenschaftlern die Infrastruktur
bieten zu können, die sie für ihre Arbeit
in der Zukunft brauchen, müssen Hoch-
schulen und außeruniversitäre Institu­
tionen ihre Kräfte bündeln und neue Wege
beschreiten

38 Wissenschaft braucht Vernetzung


Von John Wilbanks
Forscher können der anschwellenden Daten-
flut nur Herr werden und sie zum rasche­-
ren Erkenntnis­gewinn nutzen, wenn sie sich
als Mitglieder eines großen Netzwerks
verstehen. Dies erfordert neue Modalitäten
der Zusammenarbeit

Datengetriebene Wissenschaft 5
Datengetriebene Forschung –
Herausforderung für die Informatik
Auf allen Gebieten der Natur- und Ingenieurwissenschaften gewinnt eine Arbeitsmethode
an Bedeutung, bei der die Analyse von sehr großen Mengen an Daten zu neuen Erkenntnissen
führt. Mit welchen technischen und organisatorischen Maßnahmen kann die Informatik eine
solche datengetriebene Forschung unterstützen?

Von Andreas Reuter

D
erzeit vollzieht sich ein grund- beitsteilige Vor­gehensweise nicht bewältigen. Heute gilt die Simulation vielfach als drit-
legender Wandel in den Natur- Zum anderen stehen Wissenschaftler immer te Säule der Wissenschaft – neben Experiment
und Ingenieurwissenschaften – häufiger nur noch in sehr indirektem Kontakt und Theorie. Manche sprechen ihr zwar die-
und das gleich auf mehreren mit den Gegenständen ihrer Untersuchung, sen Rang ab und betrachten sie nur als eine
Ebenen. So ändern sich etwa als Folge des seien es Zellen oder Galaxien. von mehreren möglichen Arten, theoretische
­Internets und der darauf aufbauenden Diens- Wenn wir die Entwicklung im Methoden- Modelle auszuwerten. Tatsache aber ist, dass
te die Kommunikationsstrukturen innerhalb vorrat der Naturwissenschaften einmal Revue ohne Simulation viele Modelle »steril« bleiben
und zwischen den Fachgebieten ganz erheb- passieren lassen (unterer Kasten auf S. 8), so würden, da es nicht möglich wäre, Ergebnisse
lich. Außerdem entwickeln sich neue Organi- gab es ganz am Anfang die empirische Be- daraus abzuleiten.
sationsformen für wissenschaftliche Einrich- schreibung, die sich gelegentlich zu – gleich- Von der Simulation führt der Weg schließ-
tungen, die der rasch wachsenden Komplexi- falls empirisch abgeleiteten – Handlungsre- lich zur datengetriebenen Wissenschaft. Auf
tät der Forschungsvorhaben Rechnung tragen. geln verdichtete. Parallel dazu, aber doch mit den ersten Blick scheint sie nichts grundsätz-
Das wiederum erfordert neue Finan­zie­rungs­ einer merklichen Verzögerung, entwickelte lich Neues zu bieten; schließlich geht es nur
modelle für wissenschaftliche (Groß-)Vorha- sich die Theoriebildung. Ihr Ziel war, formali- um die Zusammenführung von Experiment
ben. Ferner wandelt sich die Position der sierte Modelle der beobachteten Phänomene (Messung), Theoriebildung und Simulation
­Wissenschaft in der Gesellschaft: Ihr wird – zu erstellen. Diese sind aber nur um den Preis zu einem kohärenten Methodenvorrat. Das
zumindest in den westlichen Ländern – sehr idealisierender Annahmen möglich – bei- eigentlich Interessante ist jedoch der Grund,
viel mehr Transparenz und Rechtfertigung der spielsweise durch Vernachlässigung der Rei- der diese Zusammenführung notwendig
Ziele und Methoden abverlangt als früher. bung bei der Beschreibung von Bewegungs­ macht: die rasch wachsende Menge von Da-
Aber auch die wissenschaftliche Methodik gesetzen. ten, die von Messgeräten (wie Satelliten, Tele-
selbst befindet sich im Umbruch. In der öf- skopen, Sequenziermaschinen und Microar-
fentlichen Wahrnehmung, die sich in Filmen Rasch anschwellende Datenflut rays) oder aus Simulationen (etwa Klimavor-
oder Reportagen widerspiegelt, erscheint Wis- Der nächste Schritt bestand darin, den Grad hersagen und Szenarienanalysen) stammen.
senschaft immer noch als Tätigkeit, der ein- der Idea­lisierung zu verringern, um auch Denn die Menge neu erzeugter und gespei-
zelne (vorzugsweise geniale) Forscher in der kom­plexe Vorgänge wie etwa die Verformung cherter Daten verdoppelt sich jedes Jahr, oder
Abgeschiedenheit eines Labors nachgehen. eines Autos beim Aufprall oder die Flugeigen- anders ausgedrückt: In jedem einzelnen Jahr
Dort kommen sie nach zähem Ringen und di- schaften eines Flugzeugs so realistisch beschrei­ fallen mehr experimentelle oder Simulations-
versen Geistesblitzen zu bahnbrechenden Er- ben zu können, dass sich die Ergebnisse der daten an als in allen Vorjahren zusammen. Am
kenntnissen – oder aber erfinden eine fürch- Modellanalyse auf das tatsächliche System Anfang sieht eine solche exponentielle Wachs-
terliche Waffe, je nachdem, ob sie auf der Sei- über­tragen lassen. Dies führte zu sehr kompli- tumskurve noch relativ harmlos aus, und tat-
te der Guten oder der Schurken stehen. zierten Modellen, deren Gleichungen nicht sächlich konnten Forscher immerhin bis ins
Dieses romantisierende Bild hat mit mo- mehr direkt lösbar waren. In solchen Fällen 20. Jahrhundert hinein Messergebnisse durch
derner Forschung wenig zu tun. Zum einen bleibt nur die Möglichkeit, mit Methoden der Sichten und Darübernachdenken analysieren.
wird Wissenschaft in immer größeren, kom- numerischen Mathematik Näherungslösun- Mit zunehmender Automatisierung der
plexeren Projekten und Projektverbünden or- gen zu bestimmen, was bei großen Problemen Messgeräte und dem breiteren Einsatz von Si-
ganisiert – man denke etwa an den Large wie etwa der Crashsimulation im Automobil- mulationsmethoden sind die Daten in vielen
Hadron Collider (LHC) bei der Europäischen bau Gleichungssysteme mit Hunderttausen- Projekten jedoch schon längst auf einen Um-
Organisation für Kernforschung CERN in den oder Millionen von Unbekannten ergibt. fang angewachsen, der es völlig unmöglich
Genf. Solche Vorhaben lassen sich ohne in- Deren Handhabung ist überhaupt nur noch macht, sie im herkömmlichen Sinn direkt in
dustrielle Methoden und eine hochgradig ar- mit dem Computer möglich. Augenschein zu nehmen. Hierzu nur zwei

6 SPEKTRUM DER WISSENSCHAFT · EXTRA


Beispiele: Das LHC-Experiment des CERN und andere Verfahren so weit reduziert wer- lautet: Ihre Aufgabe ist es, Hardware- und
wird im Vollbetrieb 15 Petabytes (PB) pro den, dass das Ergebnis für den Menschen wie- Softwaresysteme zur Verfügung zu stellen, die
Jahr erzeugen, und beim Square Kilometer der aufnehmbar ist. Vor 50 Jahren haben Wis- es den Wissenschaftlern ermöglichen, alle für
Array (einem für 2024 geplanten System von senschaftler noch unmittelbar durch die Tele- ihre Fragestellung erforderlichen Auswertun-
Radioteleskopen) soll es sogar 1 PB pro Tag skope oder Mikroskope geschaut, selbst die gen effizient durchzuführen, ohne sich dabei
sein. Liegen die Milliarden der aktuellen Fi- Messgeräte abgelesen und die Vorgänge im um IT-spezifische Aspekte kümmern zu müs-
nanzkrise schon jenseits der menschlichen Reagenzglas beobachtet. Heute kommen sie sen. Ein Biologe will schließlich Biologie be-
Vorstellungskraft, so verhält es sich mit den mit den Experimenten oft erst durch das in treiben und nicht programmieren. Aber was
Petabytes noch eine Million Mal schlimmer Berührung, was auf dem Bildschirm ihres PCs heißt das konkret? In den folgenden Abschnit-
(oberer Kasten auf S. 8). Wenn ein Mensch 80 erscheint, nachdem es über viele Stufen hin- ten skizziere ich die wichtigsten Forderungen
Jahre lang ohne Unterbrechung nichts ande- weg gefiltert, komprimiert und visualisiert an die IT (Übersicht im Kasten unten).
res täte, als sich 1 PB an Ergebnissen »anzuse- worden ist. Zunächst müssen die von den Experimen-
hen«, müsste er pro Sekunde 320 000 Buch- Forschung im heutigen Sinn besteht also ten oder Simulationen kommenden Daten
staben (ein Taschenbuch) lesen, um ganz großteils in der durch Computer, Datenban- zuverlässig gespeichert werden – und dies un-
durchzukommen. ken und viele andere Softwarewerkzeuge un- ter Umständen mit enormer Geschwindig-
Es bleibt also nichts anderes übrig, als die terstützten Verarbeitung sehr großer Mengen keit, wenn man an die oben zitierten Beispiele
experimentellen Daten zunächst von Software von Daten, die aus einer Vielzahl von Quellen denkt. Es darf keine Unterbrechungen geben,
unterschiedlichster Art aufbereiten zu lassen. stammen. Und damit stellt sich die Frage, was weil viele Versuche nicht wiederholbar sind.
Das Datenvolumen muss durch Verdichtung, die Informationstechnik (IT) dazu beitragen Ferner gilt es, die Daten schon beim Erfassen
Selektion, statistische Analyse, Visualisierung kann und muss. Die offensichtliche Antwort zu prüfen, zu filtern und für die langfristige

Computergestützter Umgang mit riesigen Datenmengen


Zum Anlegen, Verwalten und Nutzbarmachen eines globalen Datenpools braucht es Software, die vielerlei Anforderungen erfül-
len muss. Einige wesentliche sind hier in der Grafik veranschaulicht.

Projektdokumentation
Messgerät mit
eigenem Speicher

Festplatte Referenzierung
Verknüpfung mit der
Einbindung wissenschaftlichen
weiterer Daten Struktur- Literatur
anpasssung
passiv
Magnetband
Gutachter

Daten-
Laufwerk sammlung
Erweiterbarkeit

aktiv

Datenextraktion

Datenerfassung
Spektrum der Wissenschaft / Buske-Grafik, nach: Andreas Reuter

globaler Datenpool

Observatorium

Arbeitsplatz des Wissenschaftlers Modellbildung/Visualisierung

Datengetriebene Wissenschaft 7
Speicherung aufzubereiten, was weitere hohe miteinander verknüpfen zu können, um über- Modellierungsmethoden einsetzt, muss es
Anforderungen an die Leistungsfähigkeit der greifende Fragen zu untersuchen. Zum Bei- möglich sein, die Daten flexibel in der dafür
Hard- und Software stellt. spiel müssen in der Klimaforschung meteoro- erforderlichen Struktur bereitzustellen.
Das Abspeichern hat dabei so zu erfolgen, logische, ozeanografische, geografische, statis- Zur Verarbeitung der Rohdaten gehört
dass die Bestände wachsen können, unter tische und etliche weitere Datensammlungen auch, sie zu verdichten; denn nur in kompri-
Umständen um mehrere Größenordnungen. zueinander in Beziehung gesetzt werden. Das mierter Form kann der Forscher die enthal­
Außerdem muss jederzeit eine Erweiterung scheitert heute oft an ihrem unterschiedlichen tene Information aufnehmen. Die Software
um neue Informationskategorien und Daten- Aufbau. So verwenden die einzelnen Diszipli- sollte möglichst verschiedene Arten der Ver-
strukturen möglich sein. nen häufig andere Begriffe und Einheiten dichtung erlauben, so dass sich im Einzelfall
Verwandt damit ist die Forderung, Daten oder nicht einmal dasselbe Koordinatensys- diejenige Methode auswählen lässt, die am
aus verschiedenen Projekten und Disziplinen tem. Da jedes Fachgebiet zudem seine eigenen besten zu den jeweiligen Daten und Modellen
passt. Von besonderer Bedeutung ist dabei die
visuelle Darstellung.
Meist müssen Datenbestände für verschie-
Größenvergleich dene Auswertungen immer wieder durchsucht
1 Petabyte = 1015 Bytes = 1 000 000 000 000 000 Bytes und verarbeitet werden. Wenn sie sehr groß
Buch mit 330 Seiten: 1 Million = 106 Buchstaben (1 Buchstabe entspricht 1 Byte) sind, beansprucht das viel Zeit. Die Geschwin-
Library of Congress: Rund 31 Millionen Bücher (ohne Handschriften, Fotos und so digkeit des Zugriffs auf gespeicherte Daten
weiter); 1 PB entspricht also dem Umfang von 10 Millionen Kongressbibliotheken. beträgt heute bestenfalls 1012 Bytes (1 Tera­
Schnelle DSL-Leitung: 50 Mbit/Sekunde ð 8 × 106 Bytes/Sekunde byte) pro Sekunde; 10 PB zu durchsuchen,
Transfer von 1 PB über diese Leitung: 1,25 × 108 Sekunden ð 1448 Tage ð 4 Jahre dauert somit rund drei Stunden. Um übermä-
ßige Wartezeiten zu vermeiden, sollte man
deshalb den Daten Indexstrukturen überstül-
pen können, die es erlauben, jederzeit gezielt
relevante Teilmengen auszuwählen.
Entwicklung der wissenschaftlichen Vorgehensweise
Wenn Forschungsarbeiten auf der Auswer-
Bis vor rund 300 Jahren: Empirie
aus: Tycho Brahe, Mechanica, 1602

tung verschiedener Datensammlungen beru-


Wissenschaft beschränkt sich auf die empirische Beschreibung hen, ist es zudem unabdingbar, dass die ent-
der Naturphänomene. Gelegentlich werden auch (empirisch sprechenden Publikationen eindeutig auf die
abgeleitete) Rechenregeln entwickelt, etwa zum Erstellen von zu Grunde liegenden Datenbestände verwei-
Kalendern. sen. Dabei müssen Bestände und Software zur
Auswertung auch für die Gutachter und an-
Seit 300 Jahren: Theorie dere Leser der Artikel zugänglich sein, weil
Forscher gehen dazu über, Naturphänomene zu generalisieren eine Beurteilung solcher Veröffentlichungen
.
und in Form von (mathematischen) Modellen theoretisch er- a = 4ÐGp – K c2 anders nicht möglich ist.
a 3 a2
klärbar zu machen. Schließlich ist zu berücksichtigen, dass
wis­senschaftliche Projekte immer öfter ge-
Seit etwa 50 Jahren: Simulation meinsam von mehreren Instituten und Ar-
LLNL.gov

Naturphänomene wachsender Komplexität lassen sich mit zu- beitsgruppen durchgeführt werden. Jede Ein-
nehmender Genauigkeit auf Computern simulieren – oft unter richtung erzeugt oder verarbeitet in diesem
Rückgriff auf mathematische Modelle. Fall einen Teil der Daten, wobei andere Ko-
operationspartner eventuell auf ihre Ergebnis-
Heute: Datengetriebene Wissenschaft se zugreifen. Da auch Urheberrechte und Fra-
Experiment, Theoriebildung und Simulation wer- gen der wissenschaftlichen Priorität eine Rolle
den zusammengeführt: spielen, muss gewährleistet sein, dass keine
➤ Geräte und Simulationen erzeugen sehr große Gruppe Daten einer anderen sehen kann, die
Mengen von Daten. diese nicht zur gemeinsamen Nutzung freige-
➤ Diese Daten werden durch Software aufbereitet. geben hat. Eng damit verwandt ist die Forde-
➤ Die Daten und die daraus abgeleiteten Informa- rung, dass alle Interaktionen der Wissenschaft-
tionen werden in Computern gespeichert. ler mit den Datenbeständen – wie Modellde-
➤ Die Wissenschaftler analysieren die Daten- finitionen, Auswertungen, Veröffent­lichungen
sammlungen mit Hilfe von Suchverfahren, sta- und so weiter – automatisch zu einer­Projekt-
tistischen Methoden, Visualisierungsverfahren dokumentation zusammengeführt werden.
und so weiter. Allerdings sollen die Schutzvorkehrungen
kleines Foto: ESO, Stéphane Guisard;
rechts: Besselfunctions, CC-by-2.5
die Zusammenarbeit nicht behindern. Tat-

8 SPEKTRUM DER WISSENSCHAFT · EXTRA


SKA / Xilo Studios
Das Square Kilometer Array, ein für 2024 geplantes System von Radioteleskopen, wird ein Rechner, der rund 1000-mal so schnell
1 Petabyte (PB) an Daten pro Tag liefern. Solch riesige Datenmengen lassen sich nicht arbeitet wie der heutige Rekordhalter, also
mehr ohne äußerst leistungsfähige Computer und ausgefeilte Software auswerten. eine Leistung im Bereich von Exaflops (1018
Rechenoperationen pro Sekunde) erbringt.
Die Informationstechnologie hat somit
sächlich scheuen viele Wissenschaftler immer che Auswertungsbedürfnisse eignen. Auf sie eine ganze Reihe von Problemen zu lösen, um
noch davor zurück, ihre Ergebnisse in eine ge- hinzuwirken, ist auch eine Aufgabe der natio- der modernen, datengetriebenen Wissenschaft
meinsam mit anderen genutzte Datenbank zu nalen und supranationalen Fördereinrichtun- gerecht zu werden –, und eines der schwierigs-
stellen, auch wenn es strikte Zugriffskontrol- gen. Anderenfalls wäre eine datenzentrierte ten, die Parallelverarbeitung auf Millionen
len gibt. Oft schicken dieselben Forscher ihre Kooperation über verschiedene Disziplinen von Rechenknoten, habe ich nicht einmal an-
Daten freilich bedenkenlos per E-Mail an hinweg zum Scheitern verurteilt. gesprochen. Wichtig ist, dass die Werkzeug-
Kollegen, obwohl im Prinzip jeder deren In- Im Zusammenhang mit der computerge- entwicklung auf Seiten der Informatik Hand
halt während der Übertragung mitlesen kann. stützten Wissenschaft sind aber nicht nur me- in Hand mit Methodenentwicklung auf Sei-
Schließlich muss sichergestellt sein, dass thodische und Informatikprobleme zu lösen. ten der Wissenschaft geht. Denn nur so funk-
relevante Daten nicht durch Hardwareausfälle So erfordert etwa die Möglichkeit zur Integra- tioniert jenes Wechselspiel, das seit jeher
oder Bedienfehler verloren gehen können. tion von Datenbeständen über die Grenzen Triebfeder des wissenschaftlichen Fortschritts
Viele Fördereinrichtungen für Forschungs- von Projekten und Disziplinen hinweg die war: Neue Methoden stellen neue Anforde-
projekte verlangen Mindestaufbewahrungs- Definition von Standards möglichst großer rungen, und neue technische Möglichkeiten
fristen für alle projektbezogenen Daten und Reichweite. Außerdem können Zentren zum eröffnen den Weg zu neuen Methoden.  Ÿ
Ergebnisse. Verwalten umfangreicher Datenbestände so-
wie die Hochleistungsrechner zu deren Bear-
Das Ende pragmatischer beitung nicht an jedem Institut oder auch nur der autor
Schnellschüsse an jeder Universität eingerichtet werden – das Andreas Reuter ist Pro-
Heute werden die genannten Probleme oft in wäre viel zu teuer. Sinnvoll ist eine hierarchi- fessor für Informatik
an der Universität Hei-
jedem Institut oder für jedes Projekt durch sche Organisation mit wenigen Supercom­
delberg und Geschäfts-
Rückgriff auf etwas halbwegs Brauchbares im- puterzentren an der Spitze, einigen »großen« führer des Heidelberger
mer wieder von Neuem gelöst. Diese Ad-hoc- Zentren darunter und vielen Institutsservern Instituts für Theore-
tische Studien (HITS).
Lösungen sind in der Regel aber so spezifisch, auf der dritten Stufe.
dass sie schon für das nächste Projekt nicht Der Aufbau solcher nationalen oder bes­-
quellen
mehr taugen (jedenfalls nicht vollständig). ser noch internationalen Kooperationsstruk-
Bell, G. et al.: Peta­scale Computational
Außerdem legt jedes Labor und jede Projekt- turen ist naturgemäß auch ein politisches
Systems: Balanced Cyber-Infrastructure in
gruppe eigene Regeln und Konventionen fest. Thema, in das Standortpräferenzen und Pres- a Data-Centric World. Letter to NSF
Das macht die Übertragbarkeit der Daten oft tigefragen hineinspielen. Immerhin laufen be- Cyberinfrastructure Directorate. In: IEEE
schwierig bis unmöglich. Statt pragmatischer reits die ­erforderlichen Abstimmungsprozesse Computer 39, S. 110 – 112, 2006
Hey, T. et al.: The Fourth Paradigm – Data-
Schnellschüsse müssen in Zukunft also gene- in Deutschland, Europa, den USA, Australien Intensive Scientific Discovery. Microsoft
rische Lösungen her, die sich für eine große oder China. Das nächste Ziel für die Spitze Corpo­ration, 2009
Klasse von Problemen und für unterschiedli- der Hierarchie ist jedenfalls schon definiert:

Datengetriebene Wissenschaft 9
Der Kosmos im Computer
Die Arbeitsgruppe »Theoretische Astrophysik« schlägt eine Brücke vom Universum
kurz nach dem Urknall bis zur Gegenwart. In den fortgeschrittensten Super­
computersimulationen untersuchen die Forscher, wie sich aus der einst homogen
verteilten Materie die heutige Vielfalt von Galaxien entwickeln konnte.

Von Volker Springel

A
stronomie und Astrophysik be­ Vielleicht die größte Zumutung, welche ausgesehen hat. Zu jener Zeit waren Materie
schäftigen sich mit dem wohl die moderne Kosmologie für unseren Ver­ und Strahlung fast perfekt gleich­mäßig ver­
größten aller denkbaren For­ stand bereithält, ist aber die Entdeckung, dass teilt, abgesehen von winzigen Abweichungen,
schungsgegenstände: dem Uni­ das Universum vor allem so genannte Dunkle den Folgen von Quantenfluktuationen in ei­
versum als Ganzem. Tatsächlich sprengen die Materie und Dunkle Energie enthält. Erstere ner frühen Phase des Urknalls. Diese lassen
Dimensionen der Zahlen in diesen Diszipli­ besteht aus einer bislang noch nicht nachge­ sich noch heute messen, denn sie sind dem
nen die menschliche Vorstellungskraft und wiesenen Teilchenart, die sich vor allem durch ­extrem gleichmäßigen »Hintergrund« aus
Erfahrungswelt. Welche physikalische Größe ihre Schwerkraftwirkung verrät. Die Dunkle ­Mikrowellenstrahlung aufgeprägt, der das All
man auch betrachtet – ob Temperatur, Dich­ Energie ist noch rätselhafter. Forscher machen erfüllt. Die Astronomen vermuten, dass die
te, Druck oder Magnetfeldstärke –, im Univer­ sie für die beschleunigte Ausdehnung des Kos­ Schwankungen gleichsam die Saatkörner für
sum finden wir dafür fast durchweg Zahlen­ mos verantwortlich. alle späteren von der Schwerkraft geformten
werte, die um viele Größenordnungen über Im Universum dominieren also keines­ Materiestrukturen im Universum darstellen.
allem liegen, was wir auf der Erde und in un­ wegs die Atome der »normalen«, so genann­ Um die Entstehung dieser Strukturen zu
seren Laboratorien je werden messen können. ten baryonischen Materie. Vielmehr repräsen­ untersuchen, sind wir mittlerweile nicht mehr
Schon grundlegende Tatsachen über den tiert der Stoff, aus dem wir selbst ebenso wie allein auf Beobachtungen angewiesen. Viel­
Kosmos übersteigen unseren Erfahrungshori­ Sterne und Galaxien bestehen, gerade einmal mehr haben sich Computersimulationen als
zont. Wir wissen heute, dass das Universum vier Prozent der kosmischen Energiedichte. außerordentlich wichtiges neues Forschungs­
etwa 13,6 Milliarden Jahre alt ist, dass dieses Diese Erkenntnis verdanken wir dem instrument etabliert. Dank ihrer Hilfe lassen
Raumzeitgebilde expandiert und dass sich die Lambda-CDM-Modell (Lambda Cold Dark sich komplexe physikalische Gleichungssyste­
Expansion sogar immer weiter beschleunigt. Matter), das als Standardmodell der Kosmo­ me lösen, ohne dass wir auf Vereinfachungen
Wir wissen, dass Sterne viele hundert Millio­ logie gilt. Als umfassende Theorie des Univer­ zurückgreifen müssen, welche die Ergebnisse
nen Jahre lang leben – aber nicht ewig –, dass sums erklärt es eine Vielzahl astronomischer verfälschen. Auch virtuelle astrophysikalische
Planeten um andere Sterne eher die Regel als Daten und macht auch genaue Voraussagen Experimente sind nun möglich. Im Compu­
die Ausnahme sind und dass große Galaxien darüber, wie das All unmittelbar nach dem ter können wir beispielsweise zwei Galaxien
gewaltige Schwarze Löcher beherbergen. heißen Urknall vor 13,6 Milliarden Jahren kollidieren und miteinander verschmelzen

alle Abbildungen dieses Artikels:  Volker Springel

Vom großen Ganzen zum Detail


In den Filamenten aus Dunkler Materie, die im Lauf der Millen-
nium-XXL-Simulation entstehen, bilden sich ganze Haufen von
Galaxien, im Bildausschnitt rechts erkennbar
als kleine, helle Flecken. Die Kantenlänge
dieses zweidimensionalen Ausschnitts
aus der Simulation beträgt mehrere
Milliarden Lichtjahre. Zoomt man
in sie hinein (kreisförmiger Bildaus-
schnitt, Durchmesser rund 20 Millio-
nen Lichtjahre), sieht man die Mate-
rieansammlungen in höherer Auflö-
sung. Je heller hier die Bildpunkte, desto
größer ist die Dichte der Dunklen Materie.

10  SPEKTRUM DER WISSENSCHAFT · EXTRA


seits eine Signatur der Expansionsgeschichte
des Alls darstellen und damit wichtige Hin­
Dem Geschehen
weise auf die Eigenschaften der Dunklen
dynamisch auf der Spur Energie geben.
Um Gase oder Flüssigkeiten in einem Seit den frühen 1980er Jahren hat sich die
Volumen zu untersuchen, kann man Zahl der Teilchen in den jeweils größten kos­
den Raum in statische Zellen untertei- mologischen Simulationen etwa alle einein­
len. Besser ist jedoch ein Voronoi-Gitter halb Jahre verdoppelt. Diesem langjährigen
(Grafik), wie es der Simulationskode Trend zufolge hätte die Millennium-XXL-­
AREPO für die Berechnung von strömen- Simulation erst im Jahr 2015 möglich sein
den Gasen verwendet. Jede Zelle um- sollen. Dass sie schon heute realisiert wurde,
fasst den Raumbereich, der dem zuge- ist unseren neuen Strategien im Umgang mit
hörigen Punkt am nächsten liegt. Die extrem großen Datenmengen und den darauf
Wände zwischen den Zellen sind die aufbauenden Galaxienmodellen zu verdan­
Ebenen, welche die Verbindungsstrecken (gepunktet) benachbarter Punkte in der ken. Sie fanden ihren Niederschlag zum einen
Mitte senkrecht durchschneiden. Verschiebt man die Punkte mit der lokalen Gas­ in einer speziell angepassten Version unserer
geschwindigkeit, verändert sich das Gitter dynamisch. Die räumliche Auflösung des Simulationssoftware GADGET3. Zum ande­
Verfahrens ist dadurch gerade dort besonders hoch, wo viel geschieht. ren reizten wir die Möglichkeiten des JuRoPa-
Supercomputers am Forschungszentrum Jü­
lich voll aus.
lassen. Solche Verschmelzungsprozesse spiel­ und Galaxienhaufen. Es enthält 303 Mil­liar­ Dort schufteten alles in allem 12 288 Pro­
ten eine entscheidende Rolle beim Aufbau den (6720 3 ) Dunkle-Materie-Bausteine, die zessoren gemeinsam an der Rechnung. In ins­
immer größerer Galaxien. Während wir sie in ei­ne würfelförmige Raumregion mit einer gesamt fast drei Millionen Arbeitsstunden
der Natur nie beobachten können – schließ­ Kantenlänge von weit mehr als zehn Milliar­ führten sie 86 Trilliarden Kraftberechnungen
lich benötigen sie Jahrmilliarden –, lassen sie den Lichtjahren erfüllen. Die Dunkle-Materie- aus. Jede einzelne davon ermittelt die gravita­
sich nun am Rechner simulieren. Bausteine unserer Simulation sind dabei nicht tive Wechselwirkung eines einzelnen Dunkle-
Genau solchen Experimenten widmet sich als Elementarteilchen zu verstehen. Vielmehr Materie-Bausteins mit allen anderen Kom­
meine Arbeitsgruppe »Theoretische Astrophy­ ist jeder einzelne von ihnen ein fiktives Makro­ ponenten der Simulation. Dank der Paralleli­
sik« am Heidelberger Institut für Theoretische partikel mit einer Milliarde Sonnenmassen. sierung der Berechnungen erhielten wir das
Studien (HITS). Mit ihnen wollen wir eine Ergebnis schon nach 9,3 Tagen. Ein gewöhn­
Brücke vom Universum kurz nach dem Ur­ Die weltgrößte licher Computerprozessor, der eine Rechnung
knall, als es sich durch nur wenige Parameter kosmologische Simulation nach der anderen ausführt, hätte dazu gut 300
vollständig beschreiben ließ, bis zu seinem Ihre Auflösung und ihr Volumen machen Jahre benötigt.
heutigen komplexen Zustand schlagen. Vor Millennium-XXL, die ihren Vorgänger darin Einer der wichtigsten Faktoren, welche die
allem haben wir uns zum Ziel gesetzt, das um den Faktor 30 übertrifft, zur weltweit Größe solcher Simulationen beschränken, ist
Phänomen der Galaxienbildung über die ge­ größten kosmologischen Simulation über­ der Speicherbedarf. Für unseren neuen Kode
samte Zeit seit dem Urknall aufzuklären. haupt. Sie liefert unerreicht genaue statisti­ entwickelten wir daher auch besonders spei­
Bei der Entstehung von Galaxien ist ein sche Daten über die großräumige Struktur chereffiziente und schnelle Berechnungsver­
außerordentlich breites Spektrum an physi­ des Kosmos und die Entstehungsgeschichte fahren. Am Ende benötigte die Rechnung für
kalischen Prozessen im Spiel. Es reicht von von etwa 500 Millionen Galaxien. die 303 Milliarden Teilchen dennoch fast 30
der Dynamik der Dunklen Materie und der Diese Daten sind unerlässlich, um zukünf­ Terabyte oder 30 000 Gigabyte Hauptspei­
Dunklen Energie über Vorgänge bei der tige Beobachtungsprogramme, welche die cher, womit wir den uns zugeteilten Speicher
Stern­entstehung bis hin zur Entwicklung su­ zeitliche Entwicklung der Dunklen Energie des Superrechners vollständig ausnutzten.
perschwerer Schwarzer Löcher, zu elektro­ im Universum und ihre physikalische Natur Das riesige Volumen der Millennium-
mag­netischen Strahlungsprozessen und zur ergründen sollen, zu kalibrieren und syste­ XXL-Simulation erlaubt es, auch extrem sel­
Magnetohydrodynamik. Es sind vor allem matische Fehlerquellen auszuschließen. Der tene Ereignisse und Objekte aufzuspüren, bei­
Computersimulationen, welche diese Kom­ Grundgedanke besteht darin, dass die beob­ spielsweise sehr massereiche Galaxienhaufen.
plexität berechenbar machen. achtbare Galaxienverteilung Rückschlüsse auf Das Lambda-CDM-Modell sagt voraus, dass
Ein aktuelles Beispiel dafür ist die Millen­ die tatsächliche Materieverteilung im Univer­ die Masse von Galaxienhaufen eine recht
nium-XXL-Simulation, die wir unlängst mit sum zulässt. Welcher Art diese Beziehung ist, scharf definierte Obergrenze im Bereich von
Kollegen des internationalen Virgo-Konsor­ die vom Galaxientyp und auch von der Zeit einigen 1015 Sonnenmassen besitzt. In jüngs­
tiums auf dem JuRoPa-Supercomputer am abhängt, können wir dank der Simulations­ ter Zeit wurden tatsächlich einige Exemplare
Forschungszentrum Jülich durchgeführt ha­ daten genau untersuchen. In der Materiever­ entdeckt, die recht nahe an dieser Grenze
ben. In diesem Modell verfolgen wir die Ent­ teilung finden wir wiederum so genannte ba­ ­liegen. Manche Forscher behaupten sogar, sie
stehung kosmischer Strukturen wie Galaxien ryonische akustische Oszillationen, die ihrer­ lägen bereits darüber. In der Millennium-

Datengetriebene Wissenschaft 11
XXL-­Simulation bilden sich tatsächlich auch etwa eine Gaswolke nur deshalb allmählich zu nannten Voronoi-Zelle umgeben sind. Diese
Galaxienhaufen, die ein wenig mehr Masse einem Stern, weil sich die Teilchen gegenseitig besteht einfach aus derjenigen Raumregion,
besitzen. Noch besteht daher kein offensicht­ anziehen. die näher an diesem Punkt liegt als an irgend­
licher Grund zur Besorgnis: Alle Galaxien­ Astrophysiker müssen also neue Wege ge­ einem anderen. Gemeinsam bilden die Voro­
haufen, die je beobachtet wurden, lassen sich hen, um geeignete numerische Verfahren für noi-Zellen dann ein Voronoi-Gitter, das den
weiterhin mit dem kosmologischen Standard­ die Kosmologie zu entwickeln. Die zentrale Raum gewissermaßen pflastert. Die Wände
modell erklären. Doch schon die Entdeckung Idee des Ansatzes zur Simulation baryonischer zwischen den Zellen sind die Ebenen, welche
eines einzigen Haufens, dessen Masse diese Gase, den unsere Gruppe entwickelt hat, ist die Verbindungsstrecken benachbarter Punk­
Grenze deutlich überschreitet, könnte es wi­ der Einsatz eines unstrukturierten Gitters, das te in der Mitte senkrecht durchschneiden (sie­
derlegen. im Unterschied zu herkömmlichen Verfahren he Abbildung S. 11). Nun kann man, wäh­
nicht stationär ist, sondern sich mit dem Gas rend sich Gestalt und Topologie des Gitters
Eher ein Gas als eine Flüssigkeit mitbewegen kann. Dadurch lässt sich genau kontinuierlich ändern, die Bewegung der ein­
Trotz ihrer beeindruckenden Größe besitzt dort, wo die relevanten Prozesse stattfinden, zelnen Punkte der lokalen Bewegung des Ga­
die Millennium-XXL-Simulation einen Nach­ eine hohe Auflösung erzielen. Bei der neuen ses anpassen.
teil: Über kleinräumige Strukturen und Vor­ Methode gehen wir von einem Satz von Punk­ Darüber hinaus gelang es uns, ein so ge­
gänge in einzelnen Galaxien trifft sie nur we­ ten im Raum aus, die jeweils von einer so ge­ nanntes Godunov-Verfahren höherer Ord­
nige Aussagen. Schließlich ist selbst ein Ob­
jekt von der Größe der Milchstraße durch
gerade einmal 1000 Bausteine repräsentiert.
Klügere Algorithmen, weniger Artefakte
Hinzu kommt: Unsere Simulation behandelt
die normale baryonische Materie der Einfach­ Bewegen sich zwei Phasen eines Gases aneinander vorbei – im Beispiel fließt eine
heit halber als stoßfreies Fluid; als einzige dichte Phase (rot) nach rechts, eine weniger dichte (blau) nach links –, entsteht eine
Wechselwirkung ist also die Schwerkraft be­ so genannte Scherströmung, die zu typischen Kevin-Helmholtz-Wirbeln führt (un-
rücksichtigt. Tatsächlich unterliegt die Mate­ terste Zeile). Ein dynamisch mitbewegtes Voronoi-Gitter (schwarz umrandete Git-
rie aber Druckkräften und verhält sich damit terzellen) erlaubt es, sie korrekt und ohne Artefakte darzustellen.
eher wie ein ideales Gas. Außerdem kann sie
Zeitpunkt
thermische Energie verlieren, indem sie Strah­ 1 2 3
lung abgibt. Unter der Wirkung der Schwer­
kraft kann sie also, weil sie von Hitze weniger
stark auseinandergetrieben wird, noch viel
stärker verklumpen als Dunkle Materie.
Diese Unterschiede von baryonischer und
Dunkler Materie werden auf kleinen Skalen
wichtig. Wir müssen also die baryonischen
Prozesse korrekt simulieren, wenn unser Mo­
dell auch über die inneren Regionen von Ga­
4 5 6
laxien Aussagen treffen soll. Die Berechnung
des hydrodynamischen Verhaltens normaler
Materie erweist sich allerdings als ausgespro­
chen anspruchsvoll. Die typische Dichte des
Wasserstoff- und Heliumgases, das sich zu
sternbildenden Galaxien verdichtet, ist sehr
niedrig. Ein solches ideales Gas, in dem prak­
tisch keine innere Reibung stattfindet, neigt
über einen sehr weiten Skalenbereich hin-
weg stark zu Turbulenzen. Zudem führen gro­ 7 8 9
ße Unterschiede in Temperatur, Dichte und
Geschwindigkeit zu gewaltigen Überschall­
strömungen. Und schließlich »spürt« auch
­jedes Teilchen im Gas die Schwerkraft aller
anderen Gaspartikel. Während diese so ge­
nannte Eigengravitation bei strömungsme­
chanischen Problemen auf der Erde völlig ver­
nachlässigbar ist, gewinnt sie in der Astrophy­
sik entscheidende Bedeutung. So kontrahiert

12  SPEKTRUM DER WISSENSCHAFT · EXTRA


Näher an der Realität
Rayleigh-Taylor-Instabilitäten führen da­
zu, dass sich zwei Phasen eines Fluids
turbulent miteinander vermischen. Das
Bild links zeigt das Simulationsergebnis
bei mitbewegtem Gitter, rechts kam ein
traditionelles festes Gitter zum Einsatz.
Letzteres führt zu größeren Advektions-
fehlern, so dass sich die simulierten Flu-
ide lokal viel stärker als in der Realität
vermischen. Auch die feine Schichtung
der Phasen geht früher verloren.

nung auf dem bewegten Gitter zu implemen­ Will man diese so genannten Kelvin-Helm­
tieren. Mit seiner Hilfe können wir mit analy­ holtz-Instabilitäten numerisch beschreiben,
tischen Methoden bestimmen, wie viel Masse, führen Advektionsfehler in der Regel dazu,
Energie und Impuls eine Zelle nach jedem dass sich die Phasen im Modell früher vermi­ der autor
Zeitschritt enthält. schen als in der Realität. Indem wir ­diese Feh­
ler stark reduzieren, können wir Überschall­ Volker Springel hat in
Tübingen und an der
Mitfließende Gitter strömungen und Turbulenzen mit größerer University of California
Der wesentliche Vorteil ist dabei der lagrange­ Präzision darstellen (Bilder links und oben). in Berkeley Physik
sche Charakter der Methode. Wenn irgendwo Deshalb wollen wir das neue Verfahren auch studiert und im Jahr
2000 an der Ludwig-­
im Universum eine neue Galaxie entsteht und in unserer Simulationssoftware AREPO ein­ Maximilians-Universität
sich die Gasdichte in dieser Region millionen­ setzen. An ersten Rechnungen dieser Art ar­ München promoviert.
fach erhöht, dann fließt das Gitter automa­ beiten wir bereits intensiv, sowohl mit Kolle­ Als Postdoc war er an der Harvard Uni-
versity in Cambridge (Massachusetts) und
tisch mit. Es erlaubt also genau dort eine stark gen am Harvard Center for Astrophysics am Max-Planck-Institut für Astrophysik in
erhöhte räumliche Auflösung, wo die Galaxie in Cambridge (Massachusetts) als auch im Garching, wo er anschließend bis 2010
entsteht. Daneben erweisen sich die Zahlen­ Virgo-Konsortium. eine Forschungsgruppe zur numerischen
Kosmologie leitete. Seither ist er Professor
werte der Ergebnisse, anders als in traditionel­ Außerdem wollen wir in der nächsten Zeit für Theoretische Astrophysik an der
len Gittermethoden, als vollständig unabhän­ endlich die Entstehung von Spiralgalaxien Universität Heidelberg. Hier forscht er am
gig vom verwendeten Bezugssystem. besser verstehen lernen. Sternsysteme dieses Heidelberger Institut für Theoretische
Studien (HITS) und am Astronomischen
Das fließende Gitter verringert zudem Typs sind zwar die häufigsten im Universum,
Rechen­institut des Zentrums für Astro­
Advektionsfehler. Zu diesem Typ von Berech­ doch in bisherigen Simulationen bildeten sich nomie.
nungsfehler kommt es, wenn ein Masseteil­ fast ausschließlich elliptische Galaxien. Wir
chen mit der Strömung mitgeführt wird und vermuten die Gründe dafür in einem unzu­ Quellen
dabei nicht vollständig, sondern nur teilweise reichenden Verständnis der Regulation der
von einer Zelle in die nächste übertritt, so dass Stern­entstehung durch bestimmte astro­ Springel, V.: E pur si muove: Galilean-
invariant Cosmological Hydrodynamical
es zu einem unerwünschten Ausschmieren der physika­lische Prozesse wie etwa die Explosion Simulations on a Moving Mesh. In:
Strömung kommt. Wegen der diskreten Struk­ von Sternen als Supernovae. Auch die man­ Monthly Notices of the Royal Astrono­
tur des Gitters lässt sich dieser Vorgang mathe­ gelnde Genauigkeit der bisher eingesetzten mical Society 401, S. 791 – 851, 2010.
Vorab publiziert auf http://arxiv.org/
matisch nicht exakt darstellen. In einem be­ numerischen Methoden spielt eine Rolle. Zu­ abs/0901.4107
wegten Gitter kann die Zelle hingegen passend mindest dieses zweite Problem wird unser Vogelsberger, M. et al.: Moving Mesh
mitbewegt werden, so dass sich viele Advek­ neuer AREPO-Kode möglicherweise lösen Cosmology: Numerical Techniques
and Global Statistics. Eingereicht.
tionsfehler von vornherein vermeiden lassen können. Vorab publiziert auf http://arxiv.org/
und ein künstliches Mischen in hohem Maß Die vielleicht größte Aufgabe der Kosmo­ abs/1109.1281
verhindert wird. logen besteht in diesen Jahren aber darin, die
Ein Beispiel zeigen die Bilder links. Hier Rätsel um die Dunkle Seite des Kosmos auf­ Weblink
strömen unterschiedlich dichte Gase aneinan­ zuklären. Mit unseren Simulationen versu­
der vorbei. Dabei wachsen kleine Störungen chen wir, sie dabei zu unterstützen – indem www.h-its.org/tap
Details zu Millennium-Simulationen und
an der Grenzfläche schnell zu wellenartigen wir physikalische Modelle überprüfen helfen, weiteren Simulationsprojekten der HITS-
Wirbeln heran, welche die beiden Phasen die eines Tages unser gesamtes Universum be­ Arbeitsgruppe Theoretische Astrophysik
schließlich turbulent miteinander vermischen. schreiben könnten.  Ÿ

Datengetriebene Wissenschaft 13
Das biomolekulare
Erkennungspuzzle
Proteine sind die Funktionsträger des Lebens. Ihre Wechselwirkungen miteinander und mit
anderen Biomolekülen sorgen dafür, dass Zellen ihre Aufgabe im Organismus erfüllen. Um
diese Wechselwirkungen besser zu verstehen, setzen Forscher zunehmend rechnergestützte
Methoden ein. Computersimulationen von Proteininteraktionen leisten auch einen immer
­wichtigeren Beitrag zum Design von Wirkstoffen gegen Krankheiten und in der Biotechnologie.

Von Rebecca C. Wade

I
n einer Zelle wimmelt es geradezu von nen kurze lineare Sequenzmotive fest, an wel­ größere Distanzen hin finden. Manchmal
großen und kleinen Molekülen, die cher Stelle sich eine andere Substanz anlagern spielen sie dagegen kaum eine Rolle. In sol­
ständig in Bewegung sind. Wie finden kann. In vielen Fällen jedoch ist weniger offen­ chen Fällen leisten zum Beispiel anziehende
und erkennen sie in diesem Gewirr ihre ­sichtlich, woran Moleküle einander erkennen. Kräfte zwischen hydrophoben (Wasser mei­
jeweiligen Bindungspartner? Wie können sie Wie stark und selektiv sich zwei Substan­ denden) Gruppen, die nur eine geringe
mit mehreren anderen Molekülen zusammen zen aneinander binden, hängt von der freien ­Reichweite haben, den größten Beitrag zur
Komplexe bilden? Und wie kommt es, dass Energie der betreffenden Bindung ab. Diese Bindungsstärke. Das Problem der genauen
manche dieser Vorgänge schnell und andere wiederum setzt sich aus verschiedenen Kom­ Beschreibung der physikochemischen Wech­
langsam ablaufen? Bei der Suche nach Lö­ ponenten zusammen. Das Problem ist, dass selwirkungen zwischen Molekülen – sei es mit
sungsstrategien für das Puzzle der biomoleku­ diese oft groß sind und teils entgegengesetzte einer auf physikalischen Gesetzmäßigkeiten
laren Erkennung helfen neben ausgeklügelten Wirkungen haben. Aus diesem Grund bedarf basierenden Energiefunktion oder einer rein
Experimenten und biochemischen Untersu­ es sehr genauer Berechnungen, um aus den empirisch aufgestellten Funktion – wird ge­
chungen vermehrt Berechnungen und Simu­ Einzelkomponenten die (häufig sehr kleine) wöhnlich als Scoring-Problem bezeichnet.
lationen am Computer. Mit ihnen befassen Summe korrekt zu ermitteln. Eine weitere Herausforderung ist das so
wir uns in der Arbeitsgruppe »Molekulare Eine weitere Schwierigkeit liegt darin, dass genannte Sampling-Problem. Schon beim
und zelluläre Modellierung« am Heidelberger die relative Bedeutung der Komponenten von Puzzle gibt es unzählige denkbare Kombi­na-
Institut für Theoretische Studien. Fall zu Fall variiert, was es schwer macht, ein tionen der einzelnen Plättchen – und der
Betrachten Sie zum Beispiel ein Puzzle aus allgemein gültiges Computermodell für ein Spieler bemüht sich, die Möglichkeiten einzu­
2000 Teilen, das ein Schloss in einer schönen solches Problem zu entwickeln. So dominie­ grenzen, um die Anzahl der vergeblichen Ver­
Landschaft zeigt. Einige Plättchen lassen sich ren bei einer Bindung zwischen Proteinen suche beim Einpassen eines Teils zu verrin­
ganz einfach platzieren: Flaggen, Turmspitzen manchmal weit reichende elektrostatische gern. Ein Puzzle ist jedoch nur ein zweidi­
oder auch Mauerkanten. Bei anderen hilft nur Kräfte, dank deren sich Moleküle auch über mensionales Objekt. Das Durchprobieren
geduldiges Probieren. Das gilt etwa für grün­
liche oder bräunliche Teile, die zu den Bäu­
men im Wald gehören, oder für solche in den
Suche nach Enzymhemmern am Computermodell
verschiedenen Blautönen des Himmels.
Bei der Bindung zwischen Biomolekülen Auf dem Strukturbild eines Enzyms namens LmPTR1, das nur im Leishmania-Parasi-
spielt wie im Puzzle die Passform eine wesent­ ten vorkommt und sich deshalb als Angriffspunkt für Medikamente gegen die Leish-
liche Rolle. Dies erkannte vor über einem maniose eignet, ist die Oberfläche der vier identischen Untereinheiten in verschiede-
Jahrhundert bereits Emil Fischer, der die nen Farben dargestellt (links). An einem der aktiven Zentren haftet sein gewöhnliches
Wech­selwirkungen zwischen Enzymen und Subs­trat, ein Molekül namens Pteridin (dunkelviolett), zusammen mit dem Kofaktor
Substraten mit dem Bild von Schlüssel und (NADPH, türkis). Die Ausschnittvergrößerung (rechts) zeigt die Bindungstasche des
Schloss beschrieb. Doch wie bei den Puzzle­ ­Enzyms (graue Moleküloberfläche) mit zwei daran angelagerten potenziellen Hemm-
teilen reicht die Gestalt nicht aus, um alle stoffen. Farbig hervorgehoben sind Proteinregionen, die laut Berechnung die Bindung
möglichen Wechselwirkungen eindeutig zu Wasser abweisender (gelb) oder Wasser liebender funktioneller Gruppen (blau) be-
beschreiben. Einige Moleküle tragen gut defi­ günstigen. Die Wirkstoffkandidaten (gelb, hellblau) lagern sich zwischen dem Kofaktor
nierte »Flaggen«, die ihre Position in der Zelle (grau) und den ringförmigen aromatischen Seitenketten zweier Aminosäuren des Pro-
oder ihre Beziehung zu anderen Stoffen be­ teins ein (alle drei als Stäbchenmodell dargestellt).
stimmen. So legen etwa bei manchen Protei­

14  SPEKTRUM DER WISSENSCHAFT · EXTRA


möglicher Konstellationen in einem dreidi­ rauf hin, dass die betreffenden Bereiche auf taillierte Darstellung. In solchen so genannten
mensionalen biomolekularen System mit un­ Grund ihrer Funktion während der Evolution Coarse-Grain-Modellen werden mehrere Ato­
gleich mehr »Teilen« stellt noch viel höhere weit gehend erhalten geblieben sind. Anhand me, zum Beispiel Seitenketten von Proteinen
Anforderungen. solcher Sequenzmotive sowie der räumlichen oder sogar ganze Proteine, zu größeren Parti­
So hat jedes Teilchen im Raum drei Frei­ Anordnung der Atome im Molekül gelingt es keln zusammengefasst und mit parametrisier­
heitsgrade für die Translation und drei für die in einigen Fällen, Bindungsstellen zu identifi­ ten Interaktionsprofilen versehen.
Rotation. Hinzu kommt, dass die Moleküle zieren und die Position der Bindungspartner Durch Verwendung geeigneter Energie­
nicht starr wie Puzzleteile sind, sondern auf im Komplex vorherzusagen. Mit Hilfe der funktionen, wie sie bei Moleküldynamik-
Grund thermischer Bewegungen ständig ihre dreidimensionalen Molekülstrukturen und oder Monte-Carlo-Verfahren zum Einsatz
Gestalt ändern. Auch können sie, wenn sie der wissensbasierten Analysemethoden kön­ kommen, lassen sich zudem thermische Be­
eine Bindung eingehen, ihre Form aneinander nen die Forscher dann die Bindungsaffinitä­ wegungen und Verformungen der Biomole­
anpassen. Biomolekulare Systeme haben also ten zwischen Molekülen abschätzen. küle simulieren. Das erlaubt nicht nur die
extrem viele Freiheitsgrade, was die Entwick­ Die wachsende Menge an genetischen und Vorhersage von Bindungsstellen und der
lung detaillierter Modelle erschwert. Diese strukturellen Daten macht diese Strategie zwar Struktur von Molekülkomplexen, sondern
müssen schließlich alle für die molekulare Er­ zusehends leistungsfähiger, aber die Qualität auch eine Abschätzung der Bindungsstärke
kennung relevanten Variablen genau genug ihrer Ergebnisse variiert stark mit den verwen­ und -kinetik. Letztere beschreibt die Ge­
berücksichtigen, ohne dabei die Möglichkei­ deten Daten und hängt zudem davon ab, in­ schwindigkeit, mit der sich die Bindung bil­
ten des Computers zu überschreiten. wieweit es gelingt, die jeweils relevanten Infor­ det beziehungsweise auflöst.
mationen aus Datenbanken herauszufiltern. Das Problem, wie sich Biomoleküle erken­
Viele Wege führen zum Modell Die zweite Strategie nutzt physikalisch- nen, gehört zwar zunächst in die Grundlagen­
Es gibt verschiedene Ansätze zur Konstruk- chemische Prinzipien zur Modellierung bio­ forschung, ist aber auch beim gezielten Ent­
tion von Modellen, mit denen sich die Erken­ molekularer Interaktionen. Dabei erstellen die wurf von Medikamenten und der Entwick­
nung zwischen Biomolekülen simulieren und Forscher mathematische Energiefunktionen, lung künstlich modifizierter Proteine von
vorhersagen lässt. Hier möchte ich auf die in die physikalische Bindungsfaktoren wie die großer Bedeutung. So werden die rechnerge­
zwei gebräuchlichsten näher eingehen, die Van-der-Waals-Wechselwirkungen oder elek­ stützten Methoden zur Lösung dieses Prob­
sich auch miteinander kombinieren lassen. tro­statische Kräfte eingehen. Nur in wenigen lems besonders in der pharmazeutischen, ag­
Die erste Strategie folgt dem bioinformati­ Fällen lohnt es sich hierbei, auf die genauen, rochemischen und biotechnologischen Indus­
schen Ansatz. Die Grundlage sind hier experi­ aber auch sehr rechenintensiven Methoden trie eingesetzt. Dort leisten sie gute Dienste
mentelle Ergebnisse, die in eigens dafür ange­ der Quantenmechanik zurückzugreifen. vor allem bei der Suche nach biomolekularen
legten Datenbanken gesammelt werden. Da­ Üblicherweise beschränkt man sich auf Interaktionen in der Wirkstoffentwicklung
bei handelt es sich etwa um Molekülstrukturen den Einsatz molekularmechanischer Modelle, und bei der Vorhersage, wie sich Mutatio­nen
oder um die Abfolge der Aminosäuren von bei denen jedes Atom durch eine passend ge­ auf die Struktur und Eigenschaften von Prote­
Proteinen oder die Basensequenz von Genen. wählte Kugel repräsentiert wird. Die Rolle der inen auswirken. Hier möchte ich den Einsatz
Die Datenbanken werden nun nach Über­ Bindungen zwischen den Atomen überneh­ dieser computergestützten Methoden anhand
einstimmungen beziehungsweise Unterschie­ men Federn mit empirisch bestimmten Ei­ unserer eigenen Arbeiten beschreiben. Diese
den zwischen den Einträgen durchsucht. Fin­ genschaften wie der Rückstellkraft. reichen von der Medikamentenentwicklung
det man etwa Ähnlichkeiten in der Sequenz Für die Simulation großer Systeme mit bis zu Untersuchungen der DNA-An­ordnung,
von Genen oder Proteinen, so deutet das da­ sehr vielen Atomen reicht oft eine weniger de­ der Oligomerisierungszustände von Proteinen
und der Oberflächenaktivierung.

Wirkstoffe gegen Parasiten


Rebecca C. Wade  und Stefania Ferrari, Università degli Studi di Modena

Die Leishmaniose ist eine schwere Erkran­


kung, an der weltweit rund zwölf Millionen
Menschen leiden. Sie tritt hauptsächlich in är­
meren Ländern der warmen Klimazonen auf.
Auslöser sind einzellige Parasiten aus der Fa­
milie der Trypanosomatidae, die durch Bisse
von Sandmücken übertragen werden. Heuti­
ge Medikamente sind nur bedingt wirksam
und haben viele Nebenwirkungen. Außerdem
ist der Erreger gegen viele von ihnen schon
mehr oder weniger resistent.
Als aussichtsreicher Angriffspunkt für neu­
artige Arzneimittel gegen den Parasiten Leish-
mania major ließ sich eine Pteridinreduktase

Datengetriebene Wissenschaft 15
namens LmPTR1 ausmachen. Sie gehört ge­ zu erzielen, war es wichtig, dass die Ringstruk­ Dieses Projekt macht deutlich, wie sich
meinsam mit der Dihydrofolatreduktase turen der Wirkstoffkandidaten zwischen de­ unsere rechnergestützten Proteinsimulationen
(DHFR) zum Folatstoffwechselweg und ist nen des Kofaktors und den aromatischen Sei­ und die von unseren Kollegen in Italien und
wichtig für die DNA-Synthese. Wird sie zu­ tenketten des Proteins zu liegen kommen (sie­ Belgien durchgeführten Laborexperimente
sammen mit DHFR gehemmt, kann der Pa­ he Kasten auf S. 14/15). ­erfolgreich ergänzen. Auch wenn solche com­
rasit keine neue Erbsubstanz synthetisieren Wie Kollegen in Italien und Belgien an­ puterbasierten Ansätze in der pharmazeuti­
und sich folglich auch nicht vermehren. hand von Laborexperimenten zeigen konn­ schen Industrie weit verbreitet sind, darf das
Beiden Enzymen ist gemeinsam, dass sie ten, hemmen einige der von uns identifizier­ nicht darüber hinwegtäuschen, dass Standard­
sowohl den Kofaktor NADPH als auch das ten potenziellen Wirkstoffe tatsächlich die verfahren häufig Einschränkungen unterlie­
Substrat Folsäure (oder Abwandlungen davon) Enzymaktivität von LmPTR1. Um diese Sub­ gen und an das zu untersuchende Zielpro-
bei ihrer enzymatischen Aktivität verwenden. stanzen zu optimieren, untersuchten wir in tein speziell angepasst werden müssen. Beim
Im Gegensatz zur Dihydrofolatreduktase, die weiteren Simulationen, wie sich durch Aus­ LmPTR1 war es etwa entscheidend, dass wir
bei den Parasiten wie auch beim Menschen tausch einzelner Atome oder Atomgruppen vier Wassermoleküle im aktiven Zentrum des
vorkommt, findet man die Pteridinreduktase die Bindung an das aktive Zentrum des En­ Proteins berücksichtigten. Dadurch gelang es,
jedoch nur beim Parasiten. Gelingt es nun, zyms verstärken lässt. die für die Wirkstoffentwicklung wichtige
Verbindungen zu finden, die nicht aus der Zwei rechnerbasierte Entwicklungsdurch­ korrekte Orientierung der Wirkstoffkandida­
Stoffklasse der Folsäuren stammen, sich aber gänge und eine anschließende experimentel- ten zu ermitteln, auch wenn wir die Enzym­
dennoch spezifisch an das parasitäre Enzym le Prüfung am isolierten Enzym lieferten so aktivität beziehungsweise Bindungsstärke
LmPTR1 heften, minimiert man das Risiko 18 spezifisch wirksame LmPTR1-Inhibitoren. nicht zuverlässig vorhersagen konnten.
von Nebenwirkungen beim Menschen. Sechs davon hemmten nicht nur die Aktivität
Die Kristallstruktur des Enzyms LmPTR1 des isolierten Enzyms, sondern auch das Raffinierte Packung der DNA
war schon bekannt. Wir konnten sie also be­ Wachstum der Parasiten in Zellkultur. Eine Der Kern einer eukaryotischen Zelle enthält
nutzen, um bei einem virtuellen Screening dieser Substanzen entspricht sogar dem Wirk­ fadenförmige DNA mit einem Durchmesser
eine große Substanzbibliothek nach geeigne­ stoff eines Medikaments, das bereits zur Be­ von etwa 10 bis 20 Mikrometern und einer
ten Verbindungen zu durchsuchen, die gut in handlung von Erkrankungen des Zentralner­ Gesamtlänge von zwei Metern. Damit die
das aktive Zentrum des Enzyms passen und vensystems zugelassen ist. Möglicherweise Erbsubstanz überhaupt in die Zelle passt,
keine Ähnlichkeiten zu Folsäurederivaten auf­ lässt sich dessen Anwendungsbereich auf die muss sie zu einer kompakten Struktur, dem so
weisen. Um die angestrebte Hemmwirkung Therapie parasitärer Erkrankungen ausweiten. genannten Chromatin, aufgewickelt werden.
Um dies zu bewerkstelligen, benutzt die Zelle
Histone: positiv geladene Proteine, die sich an
die negativ geladenen Nukleinsäuren binden,
Erbfaden am Wickel
aus denen die Erbsubstanz besteht.
Simulationen ergaben, wie sich das Linker-Histon (blau) an das Nukleosom (braun) Den Grundbaustein des Chromatins bil­
bindet und so zur Packung der DNA beiträgt. Unter Berücksichtigung der Flexibilität den die Nukleosomen, um deren Proteinkern
der beiden Enden des DNA-Stücks gibt es eine Reihe möglicher Anordnungen, von sich die DNA spulenförmig wickelt. Zwi­
denen 13 als Überlagerung dargestellt sind. Die an die DNA gebundenen Aminosäu- schen ihnen erstrecken sich zunächst noch
rereste sind in Orange (nukleosomale DNA) und Grün (Linker-DNA) gezeigt. freiliegende Abschnitte des DNA-Fadens, die
als Linker-DNA bezeichnet werden. An die
Nukleosomen heften sich die so genannten
Linker-Histone. Diese kleinen Proteine sor­
gen dafür, dass sich die perlschnurartige Nuk­
leosomenkette zickzackförmig zusammenla­
gert oder wie eine Wendeltreppe windet und
so die kompakten Chromatinfasern bildet.
Ferner tragen sie dazu bei, das Abschreiben
und Vervielfältigen der DNA zu regulieren.
Anders als die Ladungsunterschiede zwi­
schen den Histonen und der DNA vermuten
lassen, beruht die Bindung nicht nur auf elek­
trostatischen Wechselwirkungen. Wir wollten
daher genauer wissen, wie sich die Linker-
Histone an die Nukleosomen anlagern. Zu
Rebecca C. Wade

diesem Zweck untersuchten wir die Wande­


rung der kleinen Proteine zum Nukleosom,
indem wir ihre brownsche Molekularbewe­

16  SPEKTRUM DER WISSENSCHAFT · EXTRA


bei dem die Proteine mit atomarer Auflösung
dargestellt waren, aber nicht ihre Konforma­
Der Haftkraft von Pilzsporen auf der Spur
tion verändern konnten. Die Simulationen
Die Simulation der Diffusion von Hydrophobinmolekülen in wässriger Lösung in zeigten, wie Dipol-Dipol-Wechselwirkungen
Gegenwart einer Graphitoberfläche half, ihre hohe Haftfähigkeit zu ergründen. Rote das Erkennen der Moleküle untereinander
Schleifen zeigen helikale Abschnitte, gelbe Pfeile Faltblattstrukturen des Proteins. fördern. Zudem konnten wir sehen, wie die
Proteine Oligomere bilden: Die in der Simu­
lation gefundene Zusammenlagerung von je­
weils vier Hydrophobinen entspricht den kris­
tallografisch nachgewiesenen Homotetrame­
ren. An der Graphitoberfläche neigen diese
Oligomere dazu, sich aufzulösen und über
ihre hydrophobe Außenseite mit dem Fest­
körper in Kontakt zu treten (Kasten links).
Die biomolekulare Erkennung ist ein an­
spruchsvolles Problem, das modernste rech­
nergestützte Methoden aus den verschiedens­
ten Fachgebieten erfordert. Die drei hier be­
schriebenen Anwendungen sind gute Beispiele
dafür, wie Computersimulationen dabei hel­
Rebecca C. Wade
fen können, dieses äußerst komplexe Problem
zu lösen.  Ÿ
gung simulierten. Dabei konnten wir beob­ neten diffusionsgetriebenen »Begegnungs­
achten, wie elektrostatische Interaktionen das komplexen« lassen sich nun mit einem di e autori n
Linker-Histon anziehen und es so lenken, verfeinerten Modell, das die Flexibilität der
dass es sich in einer bestimmten Orientierung Makromoleküle vollständig berücksichtigt, Rebecca C. Wade studier­
an das Nukleosom bindet. Außerdem sahen weitere Details untersuchen. So kann jetzt te Physik an der Univer­
sity of Oxford (B. A. hons.
wir, wie die räumliche Gestalt des Nukleo­ beispielsweise bestimmt werden, wie die Part­
1985) und promovierte in
soms den Vorgang beeinflusst. nermoleküle ihre Gestalt während des Bin­ molekularer Biophysik
In unseren Simulationen ließen wir das dungsvorgangs aneinander anpassen und wel­ (Dr. phil. 1988). Danach
forschte sie an den Uni-
Linker-Histon an verschiedene Konformatio­ chen Einfluss dabei die nur auf kurze Distan­
versitäten Houston und
nen des Nukleosoms beziehungsweise seiner zen wirksamen Wasserstoffbrückenbindungen Illinois. 1992 bis 2001 war sie Gruppenlei­
flankierenden Linker-DNA-Stücke anlagern und hydrophoben Wechselwirkungen haben. terin am European Molecular Biology
und konnten so den vorherrschenden Bin­ Laboratory (EMBL) in Heidelberg. Seit 2001
leitet sie die Gruppe »Molecular and
dungsmodus herausfinden. Dieser entspricht Das Geheimnis Cellular Modeling« (MCM), zunächst bei
den experimentell ermittelten Daten. Es zeig­ extremer Oberflächenaktivität der EML Research GmbH und seit 2010
te sich, dass das Linker-Histon asymmetrisch Hydrophobine sind kleine Proteine mit der am Heidelberger Institut für Theoretische
Studien (HITS).
am Übergang zwischen der nukleosomalen höchsten Oberflächenaktivität aller bekann­
DNA und einem der beiden Linker-DNA- ten Eiweißstoffe. Sie kommen in der Hülle
quellen
Stücke haftet (siehe Kasten links). War die von Pilzsporen vor und haften auch an äu­
Konformation des Nukleosoms weniger kom­ ßerst glatten Oberflächen. Wegen dieser Ei­ Ferrari, S. et al.: Virtual Screening Identifi­
pakt, band es sich an einer stärker beengten genschaft sind Hydrophobine für biotechno­ cation of Nonfolate Compounds, Inclu­
ding a CNS Drug, as Antiparasitic Agents
Stelle an die Linker-DNA. Die Entdeckung logische Anwendungen wie die Herstellung Inhibiting Pteridine Reductase. In: Journal
zweier unterschiedlicher Bindungsarten deu­ von Biosensoren oder die Immobilisierung of Medical Chemistry 54, S. 211 – 221, 2011
tet darauf hin, dass das Linker-Histon mit von Enzymen von großem Interesse. Wir Mereghetti, P. et al.: Brownian Dynamics
Simulation of Protein Solutions: Structu­
über die Struktur des Chromatins bestimmt. wollten wissen, wie sie sich in Lösung verhal­
ral and Dynamical Properties. Biophysical
Indem es die Nukleosomen konformations­ ten und worauf ihre extreme Haftfähigkeit an Journal 99, S. 782 – 791, 2010
abhängig erkennt und stabilisiert, fördert es Oberflächen beruht. Dazu simulierten wir die Mereghetti, P., Wade, R. C.: Diffusion of
Hydrophobin Proteins in Solution and
die Bildung enger Zickzack- oder lockerer brownsche Molekularbewegung von hunder­
Interactions with a Graphite Surface. In:
Schraubenwindungen. ten Hydrophobinmolekülen in wässriger Lö­ BMC Biophysics 4, Artikel 9, 2011,
Damit das Durchprobieren vieler verschie­ sung in Gegenwart einer Graphitoberfläche. doi:10.1186/2046-1682-4-9
dener Konformationen und Bindungsstellen Ausgehend von einer experimentell ermit­ Pachov, G. et al.: On the Structure and
Dynamics of the Complex of the Nucleo­
die Kapazität unserer Computer nicht über­ telten Proteinstruktur des Klasse-II-Hydro­ some and the Linker Histone. In: Nucleic
stieg, nahmen wir für die Simulationen Ver­ pho­bins (HFBI) aus dem Schimmelpilz Tri- Acid Research 2011, doi: 10.1093/nar/gkr101
einfachungen vor. Ausgehend von den errech­ choderma reesei verwendeten wir ein Modell,

Datengetriebene Wissenschaft 17
Zerren an Biomolekülen
im Computer
Mechanische Kräfte sind lebenswichtig – im großen wie im kleinen Maßstab.
Eine Forschungsgruppe am Heidelberger Institut für Theoretische Studien untersucht ihre
Wirkung auf der kleinsten Ebene: vom Protein bis hin zur einzelnen chemischen Bindung.

Von Ilona Baldus und Frauke Gräter

O
b Pflanze oder Säugetier, kein
Lebewesen kann ohne Ein­
Kontrolle der Blutgerinnung

Ilona Baldus und Frauke Gräter


wirkung mechanischer Kräfte
überleben. Ein beeindrucken­ Der Von-Willebrand-Faktor spielt eine
des Beispiel dafür kommt aus der Raumfahrt: wichtige Rolle bei der Blutgerinnung.
Während eines mehrwöchigen Aufenthalts Scherspannungen beim Austreten von
im All würde ein Astronaut ohne spezielles Blut aus einer Wunde strecken das ver-
Krafttraining einen erheblichen Teil seiner knäuelte fadenförmige Molekül. Da- Scherkraft
Knochenmasse verlieren. Woran liegt das? durch wird es klebrig und verbindet sich
Der menschliche Körper erneuert ständig mit Blutplättchen zu engmaschigen
sein Knochengewebe und baut es dafür kon­ Netzwerken. Wie Computersimulatio-
tinuierlich ab. Der gleichzeitige erneute Auf­ nen ergaben, legt die Entfaltung aller-
bau hängt allerdings davon ab, wie stark der dings auch eine Stelle frei, an der Enzy-
Knochen benutzt wird – das heißt, in wel­ me das Molekül zerschneiden können (roter Kreis). Das verhindert ein Überschießen
chem Maß Kräfte durch Stehen, Gehen und der Gerinnungsreaktion und die Bildung von Thromben. In der Schemazeichnung
Laufen darauf einwirken. Im Weltall ist die ist nur der relevante Teil des in Wahrheit viel größeren Proteins gezeigt.
Gravitation um ein Vielfaches geringer als am
Erdboden, was die Belastung der Knochen
stark reduziert und ihren Wiederaufbau ver­ oder Druck registrieren und mit einem Signal zigen molekularen Kraftsensoren im Detail
zögert. Nur das Krafttraining im All verhin­ darauf antworten, das ein biochemisches Pro­ verstehen. Manche Krankheiten beruhen da­
dert also, dass ein Raumfahrer mit stark ge­ gramm in Gang setzt? rauf, dass das Messen und Verarbeiten der
schwächtem Skelett auf die Erde zurück­ Der Antwort auf diese Frage sind Forscher ­mechanischen Kraft in bestimmten Geweben
kehrt. in den letzten Jahren ein gutes Stück näher ge­ gestört ist. Mit unseren Untersuchungen ver­
Der große Einfluss mechanischer Kräfte kommen. Offenbar gibt es tatsächlich Kraft­ folgen wir das Ziel, in Zusammenarbeit mit
auf das Leben zeigt sich selbst auf der Ebene sensoren, und vereinzelt wurden sie auch Medizinern die molekularen Mechanismen
einzelner Zellen. Auch sie reagieren in einer schon identifiziert. Wie sie genau funktionie­ hinter solchen Störungen aufzudecken.
ungewohnten Umgebung manchmal anders ren, lässt sich experimentell aber nur schwer
als normal, wie beispielsweise André E. X. und oft ausschließlich indirekt beobachten; Scherkräfte im Blut
Brown und Dennis E. Discher von der Uni­ denn es handelt sich meistens um Proteine, Der so genannte Von-Willebrand-Faktor
versity of Pennsylvania in Philadelphia 2009 also Eiweißstoffe, die typischerweise nicht (VWF) bietet ein anschauliches Beispiel für
festgestellt haben. Demnach wachsen Nerven­ mehr als wenige Nanometer (milliardstel Me­ den Einfluss mechanischer Kräfte auf Vor­
zellen auf dem harten Boden der im Labor ter) messen. gänge in Lebewesen. Es handelt sich um ein
verwendeten Petrischalen weitaus schlechter In der Gruppe für »Molekulare Biomecha­ Protein im Blut, das die Blutgerinnung ein­
als auf einer weichen, elastischen Oberfläche, nik« am Heidelberger Institut für Theoreti­ leitet. Fehlt der VWF oder wirkt er nur unzu­
an der sie fester haften. Das wirft natürlich sche Studien (HITS) benutzen wir deshalb reichend, kommen Blutungen nicht zum
die Frage auf, wie lebende Organismen oder leistungsstarke Computer und physikalische Stillstand, was tödlich sein kann. In diesem
gar einzelne Zellen die auf sie einwirkende Modelle, um den Einfluss mechanischer Kräf­ Fall sprechen Mediziner auch vom Von-­
mechanische Kraft eigentlich spüren. Verfü­ te auf einzelne Proteinmoleküle zu ergründen. Willebrand-Syndrom. Umgekehrt kann eine
gen sie über spezielle Sensoren, die einen Zug Wir möchten die Funktionsweise solcher win­ zu starke Wirkung des VWF, also eine über­

18  SPEKTRUM DER WISSENSCHAFT · EXTRA


mäßige Blutgerinnung, die Bildung von komplett verstopfen. Besonders hohe Zug­ chemische Bindungen in Molekülen verstär­
Pfropfen – Thrombosen – verursachen. Me­ kräfte entfalten den VWF deshalb so weit, ken oder schwächen können. Wann und wie
chanische Kräfte kontrollieren das Gleichge­ dass die Protease Zutritt zur Schnittstelle er­ passiert das? Dieser Frage sind wir nachge­
wicht zwischen Blutfluss und -gerinnung in hält. So kann sich ein Gleichgewicht zwi­ gangen. Wir wollten wissen, wie leicht sich
den Adern und besonders im Umkreis einer schen Blutgerinnung und Auflösung der eine Bindung lösen lässt, wenn man von bei­
Wunde. Blutpfropfen einstellen. Der Kraftsensor da­ den Seiten daran zieht wie an einem Seil.
Generell gilt: Wann immer eine Flüssig­ für ist der VWF. Er übersetzt ein rein mecha­ ­Allerdings ist rohe Gewalt nicht immer das
keit durch ein Rohr strömt, entsteht eine nisches in ein biochemisches Signal – ein le­ beste Mittel. Man denke nur an eine klem­
Scherkraft, weil die Strömung in der Rohr­ benswichtiger Vorgang. mende Tür. Meist gibt sie zwar umso eher
mitte schneller ist als am Rand. Ein mit­ nach, je stärker man dagegendrückt. Trotz­
schwimmender Faden wird dadurch ge­ Bindungsbruch unter Spannung dem ist es nicht immer angebracht, sich mit
streckt. Der VWF ist ein solcher Faden, aller­ Spielen mechanische Kräfte auch in noch klei­ voller Wucht dagegenzuwerfen. Besser ver­
dings so winzig klein und dünn, dass er sich neren Dimensionen eine Rolle? Jegliche feste sucht man vielleicht zunächst, die Tür vor­
nur im Mikroskop erkennen lässt. Er geht im Materie besteht aus Atomen, die durch che­ sichtig mit der Klinke zu öffnen. Auch bei
Scherfluss, der bei einer Verletzung besonders mische Bindungen zusammengehalten wer­ der chemischen Bindung hängt die ideale
hoch ist, von einem verknäuelten in den lang­ den. Diese ähneln Klebstoffen unterschied­ Öffnungsmethode vom Einzelfall ab.
gestreckten Zustand über (Kasten links). Als licher Haftkraft. Je nach Funktion des Mole­ In Proteinen gibt es verschiedenste Wech­
Folge davon wird er besonders klebrig und küls sind sie sehr stark oder leicht zu lösen. selwirkungen zwischen den Atomen. Zwei
verbindet sich mit anderen solchen Fäden Manche wirken als Schalter, der nach Bedarf davon wollen wir hier betrachten: Wasser­
und mit Blutplättchen zu engmaschigen geöffnet wird, andere sollen einer molekula­ stoffbrücken und kovalente Bindungen. Ers­
Netzwerken. Sie bilden das erste Gerüst für ren Struktur dauerhafte Stabilität verleihen. tere ähneln Klettverschlüssen. Einzeln lassen
Blutgerinnsel, die das Ausfließen von Blut Das gilt zum Beispiel für die Bindungen, die sie sich leicht lösen, aber im Verbund sind sie
verhindern. das Rückgrat eines Proteins aufbauen. sehr stabil. Wasserstoffbrücken halten Struk­
Interessanterweise gibt es im langen Fa­ Angesichts der großen Bedeutung mecha­ turelemente wie das Beta-Faltblatt und die Al­
denmolekül des VWF eine Stelle, an der ihn nischer Signale in Lebewesen liegt die Ver­ pha-Helix zusammen. Im letzteren Fall sind
ein anderer Blutbestandteil, eine Protease, mutung nahe, dass Zugspannungen auch die Proteinbausteine, die Aminosäuren, wie
zerschneiden kann. Im verknäuelten Zu­
stand ist diese Schnittstelle tief im Inneren –
in der so genannten A2-Domäne – verbor­
Auf Biegen und Brechen
gen und damit für die molekulare Schere
schlecht zugänglich. Wir vermuteten jedoch, Inwieweit mechanische Kräfte das Öffnen einer Bindung erleichtern, lässt sich ex-
dass sie frei gelegt wird, wenn sich der Faden perimentell ermitteln. So herrscht in Ringmolekülen je nach ihrer Größe eine unter-
durch die Scherkraft streckt. schiedlich starke Spannung (links). Man kann nun prüfen, ob sich dieser Umstand
Um Klarheit zu gewinnen, untersuchten auf die Geschwindigkeit des Bindungsbruchs auswirkt. Eine andere Möglichkeit ist,
wir den Vorgang in Computersimulationen. das Molekül in ein Kraftmikroskop einzuspannen und durch Verbiegen des Tastarms
Hierzu befestigten wir an den Enden des (Cantilevers) einen Zug darauf auszu­üben (rechts).
­verknäuelten Proteins virtuelle Federn und
bewegten diese voneinander weg. Das klingt
viel einfacher, als es ist. Tatsächlich erfor-
derte es sehr aufwändige Rechnungen, denen
Modelle der klassischen newtonschen Physik
zu Grunde lagen. Am Ende aber konnten wir
so ermitteln, wie sich der VWF unter Zug­
spannung entfaltet. In der Tat geben be­
stimmte Teile des Fadenmoleküls sukzessive
der Kraft nach und lösen sich voneinander.
Dabei wird schließlich auch die Spaltstelle
frei gelegt, an der die Schneideenzyme anset­
zen können.
Das ist für die biologische Rolle des VWF
sehr wichtig. Die Netzwerke, zu denen sich
die von der Scherkraft gestreckten Fäden zu­
sammenlagern, sind zwar für die Blutge­
rinnung notwendig, doch ein unbegrenztes
Wachstum würde das Gefäß für alle Zeit Ilona Baldus und Frauke Gräter

Datengetriebene Wissenschaft 19
Molekulare Brückensprengung
tert eine angelegte Zugspannung den Bindungsbruch vor ­allem
Das kleine Molekül DTT (Dithiothreitol) zerstört die Disulfid- dadurch, dass das Schwefelatom von DTT schon aus größerer
brücke d1 in einem Protein (Titin) unter Bildung einer neuen Di- Entfernung die neue Disulfidbindung eingehen und die alte
sulfidbrücke d2. Wie Computersimulationen ergaben, erleich- ­dabei lösen kann.

Kraft Kraft

d1

d2

Ilona Baldus und Frauke Gräter

in einer Wendeltreppe angeordnet: Das Rück­ mit dem anderen an der Spitze des Tastarms. stabiler wird die Bindung und desto schneller
grat bildet das Gerüst und die Wasserstoffbrü­ Dieser besteht aus einer Blattfeder, mit der löst sie sich. Dies ist ganz ähnlich wie bei ei­
cken das Geländer. In einem Beta-Faltblatt sich eine mechanische Kraft auf das einge­ nem Gummiband: Je stärker man daran
verlaufen zwei Abschnitte des Protein­rück­ spannte Molekül ausüben lässt. So kann man zieht, desto eher reißt es.
grats parallel zueinander. Wasserstoffbrücken direkt verfolgen, wie leicht sich die Bindung Man könnte meinen, die Mechanochemie
verbinden diese Stränge durch elektrostati­ bei welcher Zugkraft öffnet. einer solchen Reaktion damit verstanden zu
sche Kräfte miteinander. Beta-Faltblätter ge­ Doch nackte Gewalt führt dabei nicht haben – gerade weil man sich den Effekt der
ben Proteinen zwar große Stabilität, lassen zum Ziel. Wie in der Natur geht es darum, Zugkraft intuitiv vorstellen kann. Aber wie so
sich aber bei genügend Zugkraft auftrennen. die Bindung so sanft wie möglich zu ­lösen. oft sind die Zusammenhänge komplexer, als
Kovalente Bindungen sind wesentlich fes­ Das gelingt durch Zugabe von kleinen Hilfs­ sie auf den ersten Blick erscheinen. So gibt es
ter. Dabei teilen sich zwei Atome ein Elektro­ molekülen, so genannten Reduktionsmitteln. Reaktionspartner, bei denen die mechanische
nenpaar. Ein biologisch wichtiges Beispiel Diese enthalten bei Disulfidbrücken ein Kraft das Öffnen der chemischen Bindung
sind Schwefel-Schwefel-Bindungen oder, wie Schwefelatom, das sich mit dem einen Teil erschwert! In einem anderen Fall, den eine
Chemiker sagen, Disulfidbrücken. Sie bilden der Disulfidbrücke verbindet und so den an­ Gruppe um Roman Boulatov von der Univer­
sich etwa zwischen zwei Molekülen der Ami­ deren daraus verdrängt. sity of Illinois in Urbana-Champaign 2009
nosäure Cystein. Solche Bindungen haben Derartige Messungen im Labor ergaben, entdeckte, löst sich die Disulfidbrücke unab­
meist die Aufgabe, die Struktur des Proteins dass sich Disulfidbindungen in Proteinen un­ hängig von der an ihr angreifenden Zugspan­
zu stabilisieren – auch gegen von außen ein­ ter Mitwirkung eines Reduktionsmittels sehr nung immer gleich schnell. Für dieses Expe­
wirkende Zugkräfte. leicht aufbrechen lassen. Zugspannungen riment bauten die Wissenschaftler die Schwe­
Neuerdings lässt sich im Labor beobach­ von wenigen hundert Pikonewton reichen fel-Schwefel-Bindung in kleine ringförmige
ten, wie Disulfidbrücken oder andere kova­ bereits aus. Das entspricht in etwa der Kraft, Moleküle ein. Über die Größe des Rings
lente Bindungen unter Zugspannung aufbre­ die ein einzelner Mensch aufwenden müsste, konnten sie die darin herrschende Spannung
chen (Kasten auf S. 19). Dazu befestigt man um mit der gesamten Weltbevölkerung zu­ gezielt verändern (siehe Kasten auf S. 19).
ein einzelnes Molekül in einem Kraftmikros­ sammen ein 1-Euro-Stück hochzuhalten. Da­ Wie beeinflusst eine mechanische Kraft
kop mit einem Ende an der Unterlage und bei gilt: Je größer die Zugspannung, desto in­ also eine chemische Bindung? Warum er­

20  SPEKTRUM DER WISSENSCHAFT · EXTRA


leichtert sie in bestimmten Fällen deren Öff­ bricht schon in größerem Abstand, weil sie Reize als lebenswichtige Informationen di­
nung? Wird die Bindung durch die Zug­ von der äußeren Kraft geschwächt ist. Das rekt in biochemische Signale umwandeln
spannung vorgedehnt oder auf andere Weise beschleunigt die Reaktion. und verarbeiten. Computersimulationen, wie
geschwächt? Oder ist sie einfach nur leichter Wie man sieht, sind der Ablauf des Bin­ wir sie in der Gruppe »Molekulare Biomecha­
zugänglich für das Reduktionsmittel, weil dungsbruchs und der Einfluss der Kraft da­ nik« am HITS in Heidelberg durchführen,
das gesamte Molekül dabei auseinandergezo­ rauf komplexe Angelegenheiten. Das macht helfen Schlüsselprozesse aufzudecken, die
gen wird? die Computersimulationen und ihre Inter­ sich diese Kraftsensoren zu Nutze machen.
In unserer Forschungsgruppe am HITS in pretation äußerst aufwändig. Es gibt jedoch Die Erkenntnisse, die wir dabei gewinnen,
Heidelberg suchen wir auf numerischem Weg eine dazu komplementäre Methode, die di­ schaffen letztendlich die Voraussetzung dafür,
nach Antworten auf diese Fragen. Deshalb rekter und dadurch einfacher ist: die Betrach­ korrigierend in Störungen der Signalkaskade
haben wir den Bindungsbruch am Computer tung der Energielandschaft einer Reaktion. bei Krankheiten einzugreifen oder die natür­
simuliert. Dabei zeigte sich in Einklang mit Daraus lässt sich unmittelbar ersehen, wie lichen Vorbilder im Labor für andere Zwecke
den experimentellen Befunden, dass sich Bin­ leicht eine Umsetzung abläuft. nachzuahmen. Wir sind gespannt!  Ÿ
dungen normalerweise mit steigender Kraft Energielandschaften gleichen Gebirgen.
schneller lösen. Am wohlsten fühlen sich die Stoffe im Tal. Je di e autori n n en
Wir können allerdings auch gewisser­ tiefer es ist, desto besser. Der Weg von einem Ilona Baldus (oben)
maßen genauer hinschauen, was im Einzel­ Tal ins andere führt über einen Berg oder hat an der Universität
nen passiert. So erhalten wir Einblicke in Ab­ Pass. Im Falle der Disulfidbrücke ist das zu Heidelberg Chemie
studiert. Sie ist Dokto­
läufe, die experimentell nur sehr schwer und erreichende Tal die offene Bindung.
randin bei Frauke Gräter
mit großem Aufwand zugänglich wären. Auch die Rolle der mechanischen Kraft und untersucht den
Zum Beispiel können wir die Reaktion in lässt sich mit der Energielandschaft veran­ Einfluss mechani­scher
Kräfte auf Redoxpoten­
Einzelschritte zerlegen. Das Öffnen der Di­ schaulichen. Sie hebt das betreffende Mole­
ziale von Prote­inen.
sulfidbrücke beginnt damit, dass sich das kül ein Stück weit aus seinem Tal heraus, was Frauke Gräter ist seit
Schwefelatom des Reduktionsmittels der Bin­ den Weg über den Berg bereits deutlich er­ 2009 Leiterin der
dung nähert, die unter Spannung steht. Es leichtert. Außerdem senkt sie das zu errei­ Forschungsgruppe
»Molekulare Biomecha­
nimmt mit einem der beiden Brückenschwe­ chende Tal ab und erniedrigt zugleich den nik« am Heidelberger
felatome Kontakt auf und bildet mit ihm Pass dorthin. Institut für Theoretische
eine neue Disulfidbindung. Dabei wird das Wir haben auch solche Energielandschaf­ Studien (HITS). Zuvor leitete sie eine
Nachwuchsforschergruppe, die an der
andere Schwefelatom verdrängt und die ehe­ ten berechnet. Dabei bestätigte sich, dass mit Chinese Academy of Sciences in Schang­
malige Disulfidbrücke gesprengt (Kasten steigender Zugkraft, die auf eine Disulfidbrü­ hai, einem Partner­institut der Max-
links). cke wirkt, das Tal für die offene Bindung im­ Planck-Gesellschaft, und an der Univer­
sität Heidelberg angesiedelt war. Nach
mer weiter absinkt. Das macht das Lösen der ihrer Promotion an der Universität
Paradoxe Wirkung einer Verknüpfung energetisch vorteilhafter. Im Göttingen war die Chemikerin bis 2007
äußeren Zugkraft Einklang mit den Ergebnissen der Compu­ am Max-Planck-Institut für Biophysi­
kalische Chemie in Göttingen und an der
Diesen Vorgang bezeichnen Chemiker als bi­ tersimulation dehnt die Kraft also nicht ein­ Columbia University in New York tätig.
molekulare nukleophile Substitutionsreak­ fach nur die Disulfidbrücke, sondern wirkt
tion (SN 2). Am Computer haben wir die ein­ sich auf das ganze Molekül aus. So ändert sie quellen
zelnen Schritte unter die Lupe genommen. Winkel und verdreht Strukturelemente, was
Dabei interessierten wir uns für zwei Mess­ die Schwefel-Schwefel-Bindung zusätzlich Baldauf, C. et al.: Shear-Induced Unfolding
Activates von Willebrand Factor A2 Domain
größen: den Abstand zwischen den Schwefel­ destabilisiert. Sobald die Brücke bricht, kön­ for Proteolysis. In: Journal of Thrombosis
atomen in der aufbrechenden (d1 ) und in der nen Winkel und verzerrte Strukturelemente and Haemostasis 7, S. 2096 – 2105, 2009
neu entstehenden Disulfidbrücke (d2 ). ihre ursprüngliche Position wieder einneh­ Brown, A. E. X., Discher, D. E.: Conforma­
tional Changes and Signaling in Cell
Das Ergebnis war überraschend. Zwar hat­ men. Bei diesem Entspannen wird sehr viel and Matrix Physics. In: Current Biology 19,
ten wir erwartet, dass sich beide Bindungs­ Energie frei. Auch hier bietet sich der Ver­ S. R781 – R789, 2009
längen, also d1 und d2, während des Reak­ gleich mit dem Gummiband an: Spannt man Kucharski, T. J. et al.: Kinetics of Thiol/
Disulfide Exchange Correlate Weakly
tionsprozesses ändern und die ursprüngliche es stark und zerschneidet es, so kehrt es mit
with the Restoring Force in the Disulfide
Schwefel-Schwefel-Bindung von der Zug­ einem kräftigen Schnalzen in seinen unge­ Moiety. In: Angewandte Chemie 121,
kraft verlängert wird. Allerdings fiel die Deh­ spannten Zustand zurück. S. 7174 – 7177, 2009
Li, W., Gräter, F.: Atomistic Evidence of
nung nur sehr gering aus. Wirklich unerwar­ Wie man sieht, sind lebendige Systeme
how Force Dynamically Regulates Thiol/
tet war hingegen, dass auch d2 von der exter­ auf verschiedenste Weise mechanischen Kräf­ Disulfide Exchange. In: Journal of the
nen Kraft beeinflusst wird, obwohl diese nur ten ausgesetzt. Biologische Strukturen, von American Chemical Society 132, S.
auf d1 wirkt. Wie wir feststellten, muss sich kleinen Eiweißmolekülen bis zu Zellen und 16790 – 16795, 2010
Wiita, A. P. et al.: Probing the Chemistry
unter Zugspannung das Schwefelatom des Geweben, haben im Verlauf der Evolution of Thioredoxin Catalysis with Force. In:
Reduktionsmittels der Bindung nicht mehr die Fähigkeit erlangt, gezielt darauf zu reagie­ Nature 450, S. 124 – 127, 2007
so weit nähern, um sie zu öffnen. Sie zer­ ren. So kann der Organismus mechanische

Datengetriebene Wissenschaft 21
Hochleistungsrechner
und der Stammbaum des Lebens
Eine wahre Flut von DNA-Daten ermöglicht inzwischen immer präzisere Rekonstruktionen von
Stammbäumen – im Prinzip jedenfalls. In der Praxis überfordert die Suche nach der optimalen
Lösung auch die leistungsfähigsten Computer. Die Herausforderung heißt deshalb, die Effizienz
der Programme für Näherungslösungen zu steigern.

Von Alexandros Stamatakis

D
ie computergestützte Berech­ oder Hoffnung, dass der »optimale« Stamm­ Mensch AAACCCCGTTTTT
nung von Stammbäumen, wel­ baum auch der wahre ist. An seinen Blättern Gorilla AAACTTTAAGGGT
che die Verwandtschaftsver­ befinden sich die Organismen, für welche Schimpanse AAGATTCGTTTTT
hältnisse zwischen Organismen DNA-Daten vorliegen. Die inneren Knoten – Orang-Utan AGAATCCGTTTGT
wiedergeben, ist eine verhältnismäßig junge sprich: Verzweigungen – repräsentieren hypo­
Disziplin. Doch reichen ihre Anfänge immer­ thetische gemeinsame Vorfahren. Dabei stehen die Buchstaben für die Basen
hin bis in die 1960er Jahre zurück. Für jeden Von diesen existieren in der Regel keine Adenin, Thymin, Cytosin und Guanin, die das
Organismus beziehungsweise jede Spezies, DNA-Daten, weil sich normalerweise nur genetische Alphabet ausmachen. Ein mögli­
­deren Position im Stammbaum ermittelt wer­ aus lebenden Organismen Erbsubstanz ge­ cher Stammbaum für diese Daten ist im Kas­
den soll, liegen typischerweise DNA-Daten winnen lässt. Allerdings gab es in letzter Zeit ten unten gezeigt. Dabei bleibt offen, wo der
oder Angaben zu morphologischen Merk­ bedeutende Fortschritte bei der Sequenzie­ gemeinsame Vorfahr aller Menschenaffen, das
malen vor – etwa über die Knochenform. Bei rung alter DNA; dadurch ist es insbesondere heißt die Wurzel des Baums, liegt. Diese wird
Bak­terien kann es sich auch um chemische der Gruppe um Svante Pääbo vom Max- zur Vereinfachung der mathematischen Mo­
­Eigenschaften handeln, die für die jeweilige Planck-Institut für evolutionäre Anthropo­ delle üblicherweise weggelassen.
Spezies charakteristisch sind. logie in Leipzig gelungen, das Neandertaler­ Grundlage für die Optimierung ist eine
Das Ziel besteht darin, anhand geeigneter genom zu entziffern. abstrakte Funktion f , eine Rechenvorschrift,
Modelle denjenigen Stammbaum zu rekon­ Betrachten wir ein klassisches Beispiel: die zu einem gegebenen Stammbaum und zu
struieren, der am besten zu den vorliegenden den Stammbaum von Mensch, Schimpanse, ge­gebenen DNA-Daten einen Zahlenwert lie­
Daten passt. Mathematisch gesehen, handelt Gorilla und Orang-Utan. Der auf DNA-Se­ fert: die »Plausibilität« (likelihood). Je höher
es sich also um ein Optimierungsproblem. quenzen beruhende Eingabedatensatz könn­ dieser Wert, desto besser ist der Stammbaum
Dahinter steckt die stillschweigende Annahme te, grob vereinfacht, dann so aussehen: mit den Daten vereinbar. Wenn man also drei

Der DNA-Stammbaum der Menschenaffen


e

tan
ns
pa

g-U
ch
im

a
ns

an
rill
Sch

Me

Or
Go

Millionen Jahre

hypothetischer
10 gemeinsamer Vorfahre

15

20

25 gemeinsamer Vorfahre
alle Abbildungen dieses Artikels:  Alexandros  Stamatakis

22  SPEKTRUM DER WISSENSCHAFT · EXTRA


Stammbäume ohne Wurzel
Anhand von DNA-Daten der Menschenaffen allein lässt sich keine Aussage über die Wurzel des Stammbaums machen. Sie kann
an den verschiedensten Stellen liegen (oben). Dem trägt die Darstellung ohne Wurzel Rechnung (unten).

Schimpanse Gorilla Schimpanse Gorilla

gemeinsamer Vorfahre
Wurzel des Baums

Mensch Orang-Utan Mensch Orang-Utan

gemeinsamer Vorfahre
Wurzel des Baums

Stammbaum ohne Wurzel


Schimpanse Gorilla

Mensch Orang-Utan

Stammbäume in Betracht zieht, muss man die Aufgabe vermutlich nicht innerhalb eines ver­ lutionsmodelle und Rekonstruktionsverfah­
Funktion für alle drei berechnen. Der optima­ nünftigen Zeitraums zu schaffen. ren perfekt sind, heißt das nicht, dass sie auch
le Baum ist dann derjenige, für den der größte Optimierungsprobleme, für die der Be­ korrekt auf dem Computer umgesetzt wur­
Wert herauskommt. darf an Rechenzeit derart schnell zunimmt, den. Durch die starke Zunahme rechnerba­
In unserem Beispiel mit den Menschenaf­ kommen in vielen Bereichen der Informatik sierter Datenanalysen in der Biologie haben
fen lässt sich dieses Problem leicht lösen, weil vor und heißen NP-vollständig. Peter Gritz­ Fehler in Veröffentlichungen, die auf Pro­
für vier Organismen nur drei unterschiedliche mann und René Brandenberg beschreiben grammierfehlern beruhen, in jüngster Zeit
wurzellose Bäume existieren (Kasten oben). sie in ihrem populärwissenschaftlichen Buch stark zugenommen. Zusammen mit meinem
Dabei erweist sich derjenige, bei dem der »Das Geheimnis des kürzesten Weges« auf Doktoranden Fernando Izquierdo-Carrasco
Mensch mit dem Schimpansen näher ver­ für Laien gut verständliche Art und Weise. habe ich die Probleme der Verifikation von
wandt ist als beide mit dem Gorilla und dem Stammbäumen und von Programmen zu de­
Orang-Utan, als plausibelste Lösung. Doch Automatische Suchverfahren ren Berechnung kürzlich ausführlich darge­
wie sieht die Funktion f aus? In der Praxis be­ Da das Problem nicht exakt lösbar ist, behilft legt (Briefings in Bioinformatics 12, S. 270).
nutzt man dafür statistische Modelle, die auf man sich mit so genannten heuristischen Trotz solcher Schwierigkeiten und Unsi­
Schätzungen beruhen, wie wahrscheinlich Suchverfahren, die zwar nicht die beste, aber cherheiten kommen Verfahren zur Rekonst­
Mutationen sind, bei denen eine der vier Ba­ zumindest eine ziemlich gute Lösung liefern. ruktion von Stammbäumen in der medizini­
sen durch eine andere ersetzt wird. Leider gibt es bei der Berechnung von Stamm­ schen und biologischen Forschung heute rou­
Das grundsätzliche Problem bei diesem bäumen keine Möglichkeit, mit Sicherheit zu tinemäßig zum Einsatz. So dienen sie etwa
Verfahren ist, dass die Anzahl der möglichen sagen, wie weit das Ergebnis einer solchen ap­ dazu, den Ursprung von Virusepidemien zu
Bäume extrem stark mit der Anzahl der ent­ proximativen Suche vom Optimum entfernt ermitteln oder die bakterielle Zusammen­
haltenen Spezies zunimmt. So beläuft sie sich ist. Deshalb ist es unerlässlich, dass Biologen setzung der Darmflora zu analysieren. Um das
bei 50 Arten, was heutzutage noch eine relativ den gefundenen Baum anhand ihres Wissens berühmte Zitat des russischen Genetikers
kleine Zahl ist, bereits auf 2,84·10 76 Kandida­ auf Plausibilität prüfen. Theodosius Dobzhansky (1900 – 1975) zu be­
ten. Für jeden von ihnen müsste der Wert der Man kann das Suchverfahren auch an sehr mühen: »In der Biologie macht nichts Sinn,
Funktion f berechnet werden, denn es gibt schnell evolvierenden Organismen wie etwa außer im Licht der Evolution.«
keinen Trick, einen Großteil davon von vorn­ Viren testen, deren Stammbaum über die letz­ Was sind die aktuellen Entwicklungen
herein auszuschließen. Unter der optimisti­ ten Jahre bis Jahrzehnte bekannt ist. Auch im und Herausforderungen auf dem Gebiet der
schen Annahme, dass diese Berechnung für Erfolgsfall bietet das jedoch keine Gewähr da­ Stammbaumberechnung? Zuallererst ist die
einen Baum mit 50 Organismen eine Sekun­ für, dass die Methode bei Lebewesen, die sich Revolution bei der DNA-Sequenzierung zu
de Rechenzeit benötigt, würde die Evaluie­ im Verlauf von Jahrmillionen entwickelt ha­ nennen. Die Analyse des Erbguts wurde durch
rung aller Bäume auf einem einzelnen Prozes­ ben, genauso gut funktioniert. bahnbrechende Fortschritte in den letzten
sor 9·10 68 Jahre dauern. Selbst mit der gesam­ Ein weiterer Unsicherheitsfaktor ist die fünf bis sechs Jahren wesentlich vereinfacht
ten Rechenkraft auf der Erde wäre diese Programmverifikation. Selbst wenn die Evo­ und beschleunigt, so dass zugleich die Kosten

Datengetriebene Wissenschaft 23
dramatisch gesunken sind. Dadurch lassen Diese Datenflut stellt die Informatiker vor Der Webserver http://phylobench.vital-it.ch/
sich inzwischen auch komplette Genome ei­ enorme Probleme. Das gilt insbesondere für raxml-bb/ bietet auch interessierten Laien die
ner Spezies sehr viel leichter entziffern. Wäh­ den Speicherplatzbedarf der Programme zur Möglichkeit, es auszuprobieren; ein kleiner
rend vor zehn Jahren die Sequenzierung des Stammbaumrekonstruktion, da zur Berech­ Testdatensatz findet sich unter www.exelixis-
menschlichen Erbguts noch Schlagzeilen nung der Bewertungsfunktion f zunehmend lab.org/dna.phy.
machte, nehmen heute selbst Biologen eher komplette Genome für 50 oder 100 Spezies Zur Beschleunigung der Rechnung verfol­
gelangweilt zur Kenntnis, dass schon wieder im Arbeitsspeicher gehalten werden müssen. gen wir verschiedene Ansätze. So sind wir auf
irgendein Genom entschlüsselt wurde. der Suche nach Tricks, um redundante Be­
Die Herausforderung verlagert sich daher Ziel: Effiziente Bewertung rechnungen zu vermeiden und Speicherplatz
zunehmend vom Labor zur Datenverarbei­ der Güte eines Stammbaums zu sparen. Ausgangspunkt hierfür ist die ma­
tung. Das Hauptproblem besteht darin, dass Solche Programme verbringen bis zu 99 Pro­ thematische Beschreibung der Wahrschein­
die Menge der DNA-Daten wesentlich schnel­ zent ihrer Gesamtlaufzeit damit, die Funktion lichkeitsberechnungen: Wir bemühen uns,
ler zunimmt als die Rechengeschwindigkeit f für verschiedene denkbare Bäume auszuwer­ die Funktion f so zu transformieren, dass sie
der Computer oder Prozessoren zu ihrer Ana­ ten (Kasten unten). Deshalb besteht eines der bei geringerem Speicherbedarf und weniger
lyse. Das betrifft sowohl die Bioinformatik als Hauptziele der von mir geleiteten Scientific Rechenoperationen genau das gleiche Ergeb­
auch ihre Teildisziplin, die rechnergestützte Computing Group am Heidelberger Institut nis liefert. Von großer Bedeutung ist auch, das
Ermittlung von Stammbäumen. Die Compu­ für Theoretische Studien darin, die Zeit und Programm an moderne Rechnerarchitekturen
terwissenschaftler stehen deshalb vor der den Speicherplatzbedarf für diese Aufgabe so anzupassen. Dadurch lassen sich die Ressour­
schwierigen Aufgabe, immer effizientere Pro­ weit wie möglich zu reduzieren. cen der eingesetzten Prozessoren besser nut­
gramme und Methoden zur Datenspeiche­ Über die vergangenen zehn Jahre haben zen. Das ermöglicht einen höheren Daten­
rung und -analyse bereitzustellen. wir das frei verfügbare Programm RAxML durchsatz und steigert so die Anzahl der eva­
Ohne Hoch- und Höchstleistungsrechner, (Randomized Accelerated Maximum Likelihood) luierten Bäume pro Sekunde.
in denen mehrere Einzelrechner (Prozessoren) entwickelt. Statt die Menge aller Stammbäu­ Wir gehen allerdings auch den umgekehr­
gleichzeitig an einem Problem arbeiten, lässt me erschöpfend abzuarbeiten – was aussichts­ ten Weg und fragen uns, wie die ideale Rech­
sich die Datenflut vielfach nicht mehr be­ los wäre –, konstruiert das Programm zu Be­ nerarchitektur für unser Programm aussehen
wältigen. Zur Rekonstruktion von Stamm­ ginn eine Anzahl von Bäumen, indem es Blatt würde. In diesem Teilprojekt entwerfen wir
bäumen standen noch vor zehn Jahren ledig­ für Blatt in zufälliger Reihenfolge an jeweils optimale Schaltkreise zur Berechnung der
lich die Sequenzen von ein oder zwei Genen optimaler Stelle einfügt. Es versucht diese Wahrscheinlichkeitsfunktion f. Zum Testen
zur Verfügung, die jeweils etwa 1000 Basen­ Bäume zu verbessern, indem es ganze Äste ab­ und Verifizieren unserer Architekturen be­
paare umfassten. Inzwischen liegen immer öf­ schneidet und an anderer Stelle wieder ein­ nutzen wir so genannte Field Programmable
ter ­die weitaus umfangreicheren kompletten setzt, das Ganze im Rahmen eines kombi­ Gate Arrays, bei denen es sich um eine Art
Genome vor. So besteht das Erbgut des Men­ natorischen Optimierungsverfahrens namens programmierbare Hardware handelt. Sie be­
schen aus etwa 20 000 bis 25 000 Genen; nach simulated annealing. RAxML gehört zu den stehen aus vielen elektronischen Grundbau­
ei­nigen Schätzungen sind es sogar bis zu fünf bis sechs weltweit am meisten benutzten steinen (»Gattern«), die sich mittels einer
75 000. Programmen zur Stammbaumrekonstruk­tion. Hardware-Beschreibungssprache dynamisch
miteinander verbinden lassen, um die vorge­
gebene Schaltung nachzubilden.
Bei all diesen Versuchen achten wir darauf,
Berechnung des Verwandtschaftsgrads
dass unsere Ergebnisse nicht nur auf RAxML
Für vier Spezies existieren nur drei unterschiedliche wurzellose Stammbäume. Die anwendbar sind, sondern auch auf alle an­
Funktion f berechnet die Wahrscheinlichkeit, dass der betreffende Baum zu den deren likelihood-basierten Programme zur
DNA-Daten passt. Ihre Werte zeigen, dass Mensch und Schimpanse enger miteinan- Stammbaumberechnung. Deren Geschwin­
der verwandt sind als mit Gorilla und Orang-Utan. digkeit hängt ja gleichfalls entscheidend da­

) = 0,1
von ab, wie effizient die Funktion f auf dem

f(
Mensch AAACCCCGTTTTT
Schimpanse Mensch

,
Gorilla AAACTTTAAGGGT
SchimpanseAAGATTCGTTTTT
Rechner umgesetzt ist.
Orang-Utan AGAATCCGTTTGT
Wie erwähnt, lassen sich sehr umfangrei­
Gorilla Orang-Utan
che, speicherintensive Datensätze inzwischen
Schimpanse Gorilla nur noch mit Hochleistungsrechnern verar­

f( ) = 0,3
Mensch AAACCCCGTTTTT

,
Gorilla AAACTTTAAGGGT beiten. Am HITS steht uns solch ein großer
SchimpanseAAGATTCGTTTTT

Orang-Utan
Orang-Utan AGAATCCGTTTGT Parallelrechner zur Verfügung. Das System
Mensch
besteht aus 42 Rechenknoten mit je 48 Pro­
Orang-Utan Gorilla zessoren, die durch ein leistungsfähiges Netz­

f( , ) = 0,2
Mensch AAACCCCGTTTTT
Gorilla AAACTTTAAGGGT
SchimpanseAAGATTCGTTTTT werk miteinander verbunden sind.
Orang-Utan AGAATCCGTTTGT
Mensch Schimpanse Idealerweise gilt es, diese insgesamt 2016
Prozessoren alle gleichzeitig zu beschäftigen.

24  SPEKTRUM DER WISSENSCHAFT · EXTRA


nung berechnet werden. Allerdings lassen sich
auf dem Hochleistungsrechner des HITS mit
Beispiel eines ausgedehnten DNA-Stammbaums
Daten von etwa 20 Genen schon Bäume für
Diesen Stammbaum für 56 000 Pflanzen errechnete die Gruppe des Autors kürzlich 120 000 Spezies berechnen. In Zusammenar­
in Zusammenarbeit mit Forschern von der Yale University und der Brown University beit mit Kollegen an der Yale University und
in den USA. der Brown University in den USA haben wir
vor Kurzem einen Stammbaum der Pflanzen
mit etwa 56 000 Spezies rekonstruiert und
publiziert – den größten seiner Art bisher
(Kasten links).
Obwohl es noch ein weiter Weg ist, kom­
men wir unserem Endziel, der Berechnung
des Stammbaums aller Lebewesen, allmählich
näher. Die stetige Verbesserung der Sequen­
zier­verfahren und Rechnerarchitekturen lässt
uns hoffen, dass wir dieses Ziel eines Tages
auch erreichen werden.  Ÿ

der autor
Alexandros Stamatakis
leitet am Heidelberger
Institut für Theoretische
Studien die Scientific
Computing Group. Er hat
an der Technischen
Universität München
Informatik studiert und
dort im Jahr 2004 in der Informatik
promoviert. Nach Postdoc-Stationen auf
Kreta und an der ETH Lausanne (Schweiz)
war er von 2008 bis 2010 als Nachwuchs-
Am besten wäre es, wenn jeder von ihnen ei­ Stammbaum eingesetzt, wobei diese Zahl gruppenleiter an der Ludwig-Maximili-
ans-Universität und später an der TU
nen anderen Stammbaum evaluieren würde. kein Limit darstellt. Das Programm nutzt München (Emmy-Noether-Programm der
Dazu müsste der einzelne Prozessor jedoch auch die Fähigkeit zur Parallelverarbeitung bei DFG) tätig, bevor er im Oktober 2010 ans
das komplette Datenmaterial im eigenen Ar­ Mehrkernprozessoren, wie sie in allen neueren HITS kam.

beitsspeicher verfügbar haben – wozu dieser Laptops und Desktops zu finden sind.
quellen
möglicherweise nicht ausreicht. Da liegt es Abgesehen von unseren Bemühungen, die
nahe, die Aufgabe in Teilaufgaben zu zerlegen, Effizienz der Programme zur Stammbaumbe­ Alachiotis, N. et al.: A Reconfigurable
Architecture for the Phylogenetic Like­
die jede für sich nur eine relativ kleine Teil­ rechnung zu steigern, beschäftigen wir uns lihood Function. Konferenzbeitrag, FPL
menge aller Daten erfordern, und diese ent­ aber auch mit der Analyse sehr großer biolo­ Prag 2009. Online unter: http://sco.h-its.
sprechend auf die Prozessoren zu verteilen. gischer Datensätze. Diese interdisziplinären org/exelixis/nikos/publications.html
Gritzmann, P., Brandenberg, R.: Das Ge-
Allerdings darf die einzelne Teilaufgabe auch Projekte verbessern unser Verständnis der Bio­ heimnis des kürzesten Weges: ein
nicht zu klein sein; sonst nimmt der Aus­ logie und helfen uns, aktuelle rechnerische mathematisches Abenteuer. Springer,
tausch von Daten, der vor und nach der Er­ oder methodische Herausforderungen zu er­ Berlin/Heidelberg 2004
Ott, M. et al.: Large-Scale Maximum
ledigung jeder Teilaufgabe erforderlich ist, kennen. Beispielhaft sei hier das »plant tree of Likelihood-Based Phylogenetic Analysis
einen zu großen Teil der Rechenzeit in An­ life grand challenge project« genannt, das on the IBM BlueGene/L. In: Proceedings of
spruch. Die Analyse und Identifizierung von der Deutschen Forschungsgemeinschaft IEEE/ACM Supercomputing (SC2007)
Conference, Reno, Nevada, November
solcher Teilaufgaben ist nicht einfach und bil­ (DFG) und der National Science Founda-
2007
det einen der Schwerpunkte im Teilgebiet der tion in den USA gefördert wird. Sein Haupt­ Stamatakis, A., Izquierdo-Carrasco, F.:
Informatik, das sich mit der parallelen Pro­ ziel besteht darin, einen umfassenden Stamm­ Result Verification, Code Verification and
Computation of Support Values in Phy­lo-
grammierung beschäftigt. baum der Pflanzen mit etwa 500 000 Spezies
genetics. In: Briefings in Bioinformatics 12,
Auch hier gilt, dass die angewandten Pa- zu berechnen und online zur Verfügung zu S. 270 – 279, 2011
rallelisierungsstrategien auf alle likelihood-­ stellen, so dass Biologen ihn für weiterfüh­ Stamatakis, A., Alachiotis, N.: Time and
Memory Efficient Likelihood-Based Tree
basierten Programme übertragbar sein sollten rende Analysen nutzen können. Das ist eine
Searches on Gappy Phylogenomic Align­-
und es auch sind. Mit RAxML wurden schon ­Herkulesaufgabe, zumal die benötigten Daten ments. In: Bioinformatics 26, S. i132– i139,
bis zu 1024 Prozessoren simultan zur Be­ keineswegs komplett vorliegen. Noch nie 2010
rechnung der Funktion f für einen einzigen konnte ein Stammbaum dieser Größenord­

Datengetriebene Wissenschaft 25
Pfade im Informationsdschungel
Wer die verschlungenen Wege des Stoffwechsels erforscht, benötigt Orientierungshilfe. Die Datenbank
SABIO-RK hilft mit allerlei Finessen der Informatik, benötigte Daten in der Flut an Publikationen zu finden.

Von Wolfgang Müller

A
llein vor dem Rechner sitzend, scher disziplinübergreifend zusammen. Wäh- die als Energieträger im Körper fungieren).
versunken in einer abstrakten rend Experimentatoren sich zum Beispiel in- Über Koeffizienten lassen sich diese Glei-
Welt aus Bits und Bytes – das ist tensiv mit der Messung von Vorgängen inner- chungen an die Temperatur, den pH-Wert
das Bild, das sich viele von der halb der Zelle befassen, haben Theoretiker und andere Parameter anpassen.
Arbeit des Informatikers machen. Tatsächlich etwa Stoffwechselketten und deren Kombina- Wie überall in der Wissenschaft folgt der
sieht die Realität oft anders aus. So unterstützt tionen im Blick. Sie versuchen die zu Grunde Erkenntnisgewinn dem immer gleichen Sche-
die HITS-Gruppe »Scientific Databases and liegenden biochemischen Prozesse in mathe- ma: Auf der Basis bereits publizierter For-
Visualization« (SDBV) Systembiologen durch matischen Modellen zu formulieren, um nicht schungsergebnisse entsteht eine Hypothese,
die Einrichtung und Pflege spezieller Daten- allein das »Wer reagiert mit wem?« zu beant- die experimentell überprüft wird; die Analyse
banken. Das erfordert interdisziplinäre Zu- worten, sondern auch Fragen wie »Wie schnell der Messergebnisse begründet dann ein Mo-
sammenarbeit und regen Austausch mit den läuft die Reaktionskette bei den gegebenen dell dessen, was im Experiment passiert ist.
Nutzern. äußeren Bedingungen ab?«. Solche kineti- Alle gewonnenen Informationen werden
Systembiologen betrachten Vorgänge in schen Modelle sind Differenzialgleichungen, schließlich publiziert und speisen wiederum
lebenden Organismen nicht isoliert, sondern die beispielsweise die zeitliche Veränderung neue Theorien und Experimente.
in größeren Zusammenhängen. Da sich hier- der Glukosekonzentration und der durch den Und gerade an dieser Stelle helfen Daten-
bei schnell zu viele Informationen für einen Abbau des Moleküls entstehenden Produkte banken. Denn der Austausch über gedruckte
einzigen Kopf anhäufen, arbeiten diese For- widerspiegeln (unter anderem ATP und ADP, Journale ist nicht nur langsam, es fällt Wissen-

Reaktionsketten im Visier der Forscher


Beim Glukosestoffwechsel wird das Zuckermolekül in einer Reaktionskette zu Pyruvat umgesetzt; es entstehen außerdem die
Energieträger Adenosindiphosphat und Adenosintriphosphat (ADP und ATP). Immer wieder greifen dabei Enzyme wie die Hexo­
kinase ein und katalysieren einen Zwischenschritt. Wie schnell aber laufen die Reaktionen ab, welchen Einfluss haben die Stoff­
konzentrationen und die Umgebungsbedingungen? Solche Zusatzinformationen zu Stoffwechselwegen enthält die Datenbank
SABIO-RK.

Phosphoglucose- Phosphofructo-
Hexo-Kinase Aldolase
+
Isomerase Kinase

ATP ADP ATP ADP


Glucose Glucose-6-Phosphat Fructose-6-Phosphat Fructose-1,6-Bisphosphat Glycerinaldehyd- Dihydroxyaceton-
3-phosphat Phosphat

Kohlenstoff ATP Adenosintriphosphat irreversible Reaktion


Sauerstoff reversible Reaktion
ADP Adenosindiphosphat
Wasserstoff
Phosphatgruppe NAD+ Nicotinamid-Adenin-Dinucleotid Enolase Enzym
Spektrum der Wissenschaft / Art for Science

H2O Glycerinaldehyd-
Pyruvat- Phosphoglycerat- Phosphoglycerat- 3-phosphat- Triosephosphat-
Kinase Enolase Mutase Kinase Dehydrogenase Isomerase

ATP ADP H2O ATP ADP NADH, H+


NAD+
Pyruvat Phosphoenol- 2-Phospho- 3-Phospho- 1,3-Bisphospho-
pyruvat glycerat glycerat glycerat

26  SPEKTRUM DER WISSENSCHAFT · EXTRA


Der Screenshot illustriert eine Schlagwort-
suche mit SABIO-RK. In diesem Fall gab der
Nutzer das Enzym »Pyruvate kinase« ein,
das System meldet 615 mögliche Resultate.
Um die Suche auf den menschlichen Stoff-
wechsel einzugrenzen, erfolgt die Eingabe
von »hum« in die Suchmaske, die Datenbank
liefert dazu eine Reihe von Vorschlägen.

schaftlern auch zunehmend schwerer, aus der mationen als auch die Detailtiefe eventueller zen. Zudem ist SABIO-RK zwar einerseits
gesamten Flut an Informationen nur die das zusätzlicher Kommentare. Zum anderen soll- eine Webanwendung, die wie ein Ingenieurs-
jeweilige Thema betreffenden herauszufiltern. te Gleiches auch gleich bezeichnet sein. erzeugnis geplant und gebaut werden muss.
Aktuell verzeichnet PubMed, eine der wich- Über eine Suchmaske mit geeigneten Fil- Darum herum ranken sich aber andererseits
tigsten Publikationsverzeichnisse für die Me- tern kann ein Nutzer auf die Datenbank zu- auch interessante Forschungsthemen.
dizin, allein zur Leber – dem zentralen Organ greifen – etwa nach Reaktionen suchen, an So sind die Namen der reagierenden Stoffe
des Stoffwechsels – mehr als 700 000 Veröf- denen bestimmte Moleküle beteiligt sind. Die oft nicht eindeutig, was die Forderung, Glei-
fentlichungen. Um die jeweils relevanten zu Informationen werden zudem auf Wunsch als ches gleich zu benennen, zu einer anspruchs-
ermitteln und daraus die für eine bestimmte SBML-Dateien ausgegeben, also in der Sys- vollen Aufgabe macht. Beispielsweise bezeich-
Fragestellung wichtigen Daten zu entneh- tems Biology Markup Language, einem inter- nen das deutsche »Wasser« und die chemische
men, benötigt ein Forscher die Unterstützung national standardisierten Dateiformat der sys- Formel H2O die gleiche Substanz. Für das
der elektronischen Medien. tembiologischen Modellierung. Ferner gibt es englische water listet die Datenbank ChEBI
Hierzu hat unsere Gruppe die Datenbank Verknüpfungen zu anderen Datensammlun- nicht weniger als 14 Synonyme auf.
SABIO-RK (System for the Analysis of Bioche- gen: So kann man sich mit einem Klick bei Auch die IUPAC, eine internationale Or-
mical Pathways – Reaction Kinetics) entwi- ChEBI (Chemical Entities of Biological Inte- ganisation, die regelt, wie chemische Verbin-
ckelt. Wie es der Name andeutet, enthält sie rest), einer Datenbank, die am European Bio- dungen zu bezeichnen sind, lässt hier viel
von uns aufbereitete Angaben zu Stoffwech- informatics Institute in Hinxton (England) Spielraum. Ein Beispiel aus dem Glukose-
selwegen. So genannte Biokuratoren wählen entwickelt und gepflegt wird, weitere Infor- stoffwechsel: Glyceraldehyd-3-Phosphat, das
zunächst potenziell nützliche Artikel anhand mationen zu einem Reaktionspartner holen. korrekt auch als 3-Phosphoglyceraldehyd ge-
der Zusammenfassungen in PubMed aus. schrieben werden kann, denn die standardi-
Hilfskräfte lesen diese Publikationen und ge- Problematische Vielfalt der Namen sierte Nomenklatur erlaubt die Umstellung
ben die daraus entnommenen Daten zunächst Für diese Arbeit benötigen wir mehr als die von Namensteilen.
in eine nichtöffentliche Version der Daten- Expertise in der Informatik. Es genügt nicht Eine Vereinheitlichung ist bereits Teil der
bank ein. Nun kommen wieder die Biokura- zu wissen, wie Nutzer in einer Datenbank su- Kuratierung. So darf es schon bei der Eingabe
toren zum Zuge, die zum einen darauf achten, chen und wie man sie dabei optimal unter- nur entweder Glucose oder Glukose geben.
dass Gleiches gleich gespeichert wird. Dies be- stützen kann. Wir müssen auch verstehen, wie Genauer gesagt, speichern wir nicht einen
trifft sowohl die formale Struktur der Infor- Systembiologen Daten gewinnen und einset- Textnamen, sondern die standardisierten Be-

Datengetriebene Wissenschaft 27
zeichner der ChEBI: Der Glukose entspricht men in Wortbestandteile zerlegen. Diese wer- Problem, korrekte Wort-Transformationsre-
dort der Identifikator ChEBI:17234, der ein- den sortiert, manche durch andere ersetzt. geln zu suchen, nun die Aufgabe, Molekülna-
deutig und sprachunabhängig ist. Um eine Die einzelnen Schritte sind jeweils so gewählt, men korrekt in Strukturen umzusetzen. Doch
derartige Umsetzung in einen standardisier- dass Wörter gleichen Sinns auf gleiche künst- kann der semantische Ansatz viel mehr, ver-
ten Bezeichner schon bei der Eingabe von liche Wörter abgebildet werden. Beispielswei- mag sogar mit Überbegriffen umzugehen:
Suchbegriffen durch die Nutzer zu unterstüt- se entfernt dieses Verfahren in den IUPAC- Sucht man etwa nach einer Reaktion eines Al-
zen, lassen sich gängige Verfahren der Sprach- konformen englischen Bezeichnungen 1-bu- kohols mit einem anderen Molekül, wäre der
verarbeitung wie Stemming-Algorithmen lei- tanol und butan-1-ol die Bindestriche, sortiert semantische Ansatz der Namen-Normalisie-
der nicht einsetzen. Diese bilden Worte auf ei- die Wortbestandteile und kommt in beiden rung im Vorteil, einerlei um welchen Alkohol
nen gemeinsamen Wortstamm ab, könnten Fällen zu dem identischen Ergebnis 1butanol. es sich handelt; ein morphologischer Ansatz
beispielsweise für »gehst« und »geht« die Basis Der zweite Ansatz hingegen beschäftigt müsste hierzu stark erweitert werden.
»geh« finden. sich mit dem Sinn der Wörter, ist also seman- Wir verfolgen deshalb beide Verfahren pa-
In langjähriger Zusammenarbeit mit der tischer Natur. Dieser Algorithmus übersetzt rallel. Die morphologische Methode steht
Gruppe von Uwe Reyle an der Universität Molekülbezeichnungen in chemische Struk- kurz vor dem Einsatz, die semantische ist da-
Stuttgart entstanden zwei neue Verfahren zur turformeln und käme damit im Beispielfall von noch weiter entfernt. In der aktuellen Im-
Namen-Normalisierung. Das eine folgt einem ebenfalls zu dem Ergebnis, dass die zwei ver- plementierung arbeitet sie auch deutlich lang-
morphologischen Ansatz, untersucht also die schiedenen Wörter identische chemische samer. Als Anbieter einer Dienstleistung müs-
Form des Wortes. Dazu müssen wir jeden Na- Strukturen bezeichnen. Zwar wird aus dem sen wir uns fragen, mit welchem Aufwand wir

Stöbern in der Datenbank mit parallelen Koordinaten


Die Datenbank SABIO-RK entspricht einem vieldimensionalen Raum. So genannte parallele Koordinaten ermöglichen dennoch
eine intuitive Herangehensweise. Das Beispiel beschränkt die Suche auf sechs Dimensionen: Enzym, Gewebetyp, Organismus, Um­
gebungstemperatur, pH-Wert und den Eintrag in der Datenbank (Entry-ID). Fragt man nach Reaktionen, die durch eine Pyruvat­
kinase katalysiert werden, ergibt sich das linke Bild. Offenbar wären Daten für verschiedene Zelltypen wie Melanome oder Eryth­
rozyten abrufbar (linke Grafik), im Fokus der Suche stehen aber nur Informationen zu Gehirnzellen. Markieren des Kreuzungs­
punkts »Brain Tissue« lässt nicht relevante Linien verblassen. Auf einen Blick sieht der Nutzer nun beispielsweise, dass er
Messergebnisse für Experimente an Ratten (Rattus norwegicus) abrufen kann (rechte Grafik). Sofern er sich aber für die Kinetik des
Enzyms bei 26 Grad Celsius interessiert, müsste er auf Messungen an Mäusen (Mus musculus) zurückgreifen.

HITS-Gruppe Scientific Databases and Visualization

28  SPEKTRUM DER WISSENSCHAFT · EXTRA


wie viel Resultat im Sinne unserer Nutzer be- Diesem Vorgehen entsprechen so genann- parallele Koordinaten. Hier werden Punkte in
kommen. Gibt es Problemstellungen, bei de- te explorative Suchansätze. Sie sollen einem hochdimensionalen Räumen nicht auf den
nen er gern mehrere Sekunden wartet, bis ein Nutzer sozusagen ein Gefühl für die Daten- dreidimensionalen Anschauungsraum proji-
Ergebnis vorliegt? Die Diskussion ist noch of- sammlung vermitteln. Shneiderman hat dazu ziert, sondern als miteinander verknüpfte Li-
fen. Klar ist aber, dass wir mit beiden Ansät- 1996 sein Visual Information Seeking Mantra nienzüge dargestellt (siehe Kasten linke Seite).
zen nicht immer richtigliegen. Ihr einziger für die Datenbankprogrammierung formu- Dabei entspricht jeder dieser Züge einer Di-
Zweck ist es, den vom Nutzer gewählten Be- liert: »Overview first, zoom and filter, details on mension, daher die Bezeichnung des Verfah-
zeichner einmalig in einen standardisierten demand« – zunächst gilt es, einen Überblick rens: Die Koordinatenachsen werden parallel
umzusetzen. Intern wird dann nur noch die- zu vermitteln, dann immer näher heranzuge- zueinander gestellt, ein Punkt im vieldimen­
ser verwendet. hen und Daten herauszufiltern, schließlich sionalen Raum auf einen Linienzug in einer
Wer in SABIO-RK nach bestimmten Re- Details bei Bedarf anzuzeigen. Fläche abgerollt.
aktanten sucht, profitiert von dieser Namen- Das bekannte Webprogramm Google Das Grundverfahren wurde bereits im aus-
Normalisierung, denn er muss sich keine Ge- Maps ist ein schönes Beispiel für eine gelunge- gehenden 19. Jahrhundert entwickelt und
danken darum machen, wie die Substanz oder ne Realisierung dieses Mantras. Nehmen wir seitdem auf verschiedene Problemstellungen
das Enzym in den für ihn wichtigen Publika- an, Sie möchten einen abgelegenen Camping- angepasst. Seine Anwendung in Suchszena­
tionen bezeichnet wurde. Viele Nutzer brin- platz in Südfrankreich finden, dann würden rien ist dennoch keineswegs trivial, da viele
gen aber weniger Vorwissen über unsere Da- Sie von der Weltkugel ausgehend nach Süd- Fragen zu beantworten sind: Wie sollte man
tensammlung mit. Prinzipbedingt enthält sie frankreich zoomen, dort besonders grüne Re- die Achsen anordnen, wie Kreuzungen besser
nur einen sehr kleinen, aber gut gewählten gionen und darin wiederum nach Camping- kenntlich machen, wie dem Nutzer die Aus-
und relevanten Teil der veröffentlichten reak- plätzen suchen. Erst dann kommen Details: wahl der ihn interessierenden Bereiche er-
tionskinetischen Daten. Wie heißt der Ort, wie der Campingplatz, wie leichtern? Für all diese Fragestellungen gibt es
haben Nutzer ihn bewertet? Und all das geht generelle und auch für das Problem angepass-
Das Mantra so schnell vonstatten, dass kaum jemand be- te Antworten.
der Datenbanksuche merkt, wie die Satellitenkarte mit jedem Die beschriebenen Techniken – die Na-
Wir wollen einem Biologen ermöglichen, Zoom nachgeladen wird. men-Normalisierung ebenso wie die explora-
schnell herauszufinden, ob die für ihn wichti- Dass diese Technik auch für die Wissen- tive Suche – haben zum Ziel, dem Nutzer ei-
gen Daten in unserer Sammlung vorhanden schaft taugt, beweist SubtiPathways, eine Ent- nen Überblick zu geben und in ihm Erwar-
sind. Das lässt sich vielleicht mit einem Kun- wicklung der Universität Göttingen. Anstatt tungen an Suchresultate zu wecken, die das
den vergleichen, der ein Kaufhaus betritt, um der Landkarten präsentiert es Stoffwechsel­ System dann auch erfüllen kann. Um dies gut
eine ihm passende Hose zu finden. Vielleicht wege; an manchen Orten darauf sind weitere machen zu können, müssen wir erfahren, wie
ist schon die Größe klar, aber andere Merk- Informationen hinterlegt. Dieser Ansatz eignet die Nutzer arbeiten, sowie ihre Wünsche und
male kommen erst bei der Suche selbst in den sich aber nur für Datensätze mit maximal fünf ihre Prioritäten kennen. Wir müssen als inter-
Sinn (Jeans, blau, elastischer Stoff). Dimensionen. Volker Springels Sternsimula- disziplinär arbeitende Gruppe in der Lage
Die meisten der heutzutage gebräuchli- tionen (siehe den Beitrag S. 10) sind dafür ein sein, Vorschläge zu machen. Dabei sind unse-
chen Such-Interfaces ermöglichen das, was beeindruckendes Beispiel: Verschiedene Ener- re Kuratoren wichtig, die aus der Biologie und
die Computerwissenschaftler Ben Shneider- giedichten im dreidimensionalen Raum wer- Biochemie kommen und die Rolle der Nutzer
man und Catherine Plaisant von der Univer­ den durch Helligkeiten als vierte Dimension übernehmen können, gleichzeitig aber auch
sity of Maryland fact finding und extended fact dargestellt, deren zeitliche Veränderung er- informatisches Verständnis haben. Für viele
finding nennen. Hier geht es im Wesentlichen weitert die Simulation um eine fünfte Achse. andere Fragestellungen hingegen ist die direk-
darum, bereits vorhandenes Wissen zu ergän- Stoffwechselpfade sind aber vielschichti- te Zusammenarbeit mit Systembiologen au-
zen wie: Es gibt eine Naturkonstante c, die ger: Es ist wichtig, an welchem Organismus, ßerhalb der Gruppe unerlässlich.  Ÿ
Lichtgeschwindigkeit im Vakuum. Wie groß welchem Gewebe und welchem Zelltyp eine
ist diese? Oder im Kontext der Systembiolo- Messung durchgeführt wurde; oft sind vier bis
der autor
gie: Wie stark bindet ein bestimmtes Enzym fünf verschiedene Moleküle an einer Reaktion
bei einem pH-Wert von fünf an sein Substrat? beteiligt, die sich je nach den äußeren Bedin- Wolfgang Müller stu-
dierte Experimentalphy-
Dem Kunden im Kaufhaus wäre damit gungen unterschiedlich verhalten. Um einen
sik in Konstanz und
nicht geholfen, da er nur sehr vage Vorgaben solchen Prozess auf unseren dreidimensiona- parallel dazu Informatik
machen kann. Dennoch wird er das ge- len Anschauungsraum abzubilden – und dann an der Fernuniversität
Hagen. Er habilitierte
wünschte Produkt finden, da Einkaufszentren Techniken wie in Google Maps einzusetzen –,
sich an der Universität
Anhaltspunkte zur Navigation geben. So wird müssten wir Dimensionen weglassen. Bamberg mit einer
er die Parfümerie- oder Süßwarenabteilung Für deren Auswahl gibt es zwar durchaus Arbeit zur Suche in selbstorganisierten
ignorieren, die richtige Etage für die Her- Verfahren, wünschenswert im Sinne der ex- verteilten Systemen. Seit 2009 leitet er
die SDBV-Gruppe, die 1999 am EML
renoberbekleidung ansteuern, dort zu den plorativen Suche wäre aber nach wie vor, die Research, dem Vorgänger des HITS, von
Hosenständern gelangen, eine Grobauswahl Gesamtheit intuitiv erfassen zu können. Die Isabel Rojas gegründet wurde.
anhand der Größen treffen und so fort. von uns favorisierte Lösung sind so genannte

Datengetriebene Wissenschaft 29
Kreativ durch Analogien
Gleiche Strukturen erkennen bei Dingen, die auf den ersten Blick nichts miteinander gemein haben:
Das ist das Arbeitsprinzip, mit dem die interdisziplinäre Computerlinguistik ihre Erfolge erzielt.

Von Michael Strube

D
ie Computerlinguistik vereinigt Struktur. Im Prinzip dasselbe tut ein Mensch, und in akzeptabler Zeit zumindest seine gram­
Elemente von Informatik und der einen gesprochenen Satz hört und ver­ matische Struktur erkennen.
Linguistik; sie verwendet darü­ steht. Mehr noch: Ein solches Programm soll vor
ber hinaus Methoden aus wei­ Diese Analogie ist noch nicht besonders dem eigentlichen Parsing kontinuierliche
teren Gebieten wie Mathematik, Psychologie, bemerkenswert, weil die Entwickler der Pro­ Sprache erkennen, das heißt im pausenlosen
Statistik und künstliche Intelligenz. Der Reiz grammiersprachen und der zugehörigen Par­ Strom der gesprochenen Laute einzelne Wör­
und die Herausforderung einer solchen inter­ serprogramme von Anfang an stark von der ter und damit auch die Grenzen zwischen den
disziplinären Wissenschaft liegen darin, Ana­ Linguistik beeinflusst waren; da verwundert Wörtern ausfindig machen, und das unab­
logien zwischen Konzepten aus weit entfern­ es nicht, dass sie deren Denkstrukturen über­ hängig von der Person des Sprechers und mit
ten Teilgebieten zu erkennen und zu nutzen. nommen haben. Aber die Analogie funktio­ großem Wortschatz. Diese Aufgabe in ausrei­
Paradebeispiel dafür ist einer der entschei­ niert auch in Gegenrichtung. Erst als die In­ chender Qualität zu lösen, gelang erst mit
denden Durchbrüche, welche die Computer­ formatiker Methoden aus dem Kompilieren Hilfe einer weiteren Analogie. Man interpre­
linguistik prägten. Es geht um das »Parsing«: formaler Sprachen – insbesondere Program­ tiert das Sprachsignal als verrauschte, das
Ein Computerprogramm, genauer gesagt ein miersprachen – auf natürliche Sprache über­ heißt durch zufällige Störungen verunreinigte
Compiler, nimmt Zeichen für Zeichen den trugen, wurde das Parsing von gewöhnlichen Version einer Zeichenkette, die dekodiert
Input des Benutzers entgegen, der in diesem Sätzen überhaupt effektiv berechenbar. Erst werden muss. Dank der neuen Betrachtungs­
Fall seinerseits aus dem Text eines Computer­ dann konnten sie also Programme schreiben, weise lassen sich nun statistische Methoden
programms besteht, und ermittelt dessen die einen normalen, gesprochenen Satz hören aus der Informationstheorie anwenden.

Koreferenzresolution mit annotierten Paaren


Als Trainingsmaterial für Lernprogramme dienen Listen
As we know, Putin has kept putting off
this visit to Japan since last year, like (»Annotationen«) aus Paaren von Erwähnungen, zum Beispiel
back then when Yeltsin repeatedly postponed aus obigem Text, mit der – von menschlichen Bearbeitern hin­
his trip to Japan. zugefügten – Angabe, ob diese Erwähnungen sich auf densel­
That is to say, Japan asked for too high a ben Gegenstand beziehen (koreferent sind, blauer Strich) oder
price. nicht (roter Strich).
That is, it asked the Russian president to
come to Japan to make concessions on terri- Putin this visit to Japan
torial issues. Putin Japan
this visit to Japan Japan
Well, well, the Russian president was Japan Yeltsin
still unwilling, was unwilling to make this visit to Japan Yeltsin
concessions. Putin Yeltsin
Yeltsin his
his Japan
Yeltsin Japan
Im Text oben sind als koreferent erkannte Erwähnungen farbig Japan Japan
unterlegt und durch gleichfarbige Striche miteinander verbun­ Japan it
it the Russian president
den. Hier kommt es nicht nur darauf an zu verstehen, dass »his« Japan the Russian president
Japan the Russian president
sich auf »Yeltsin« bezieht und »it« auf Japan, sondern auch da­ his the Russian president
Spektrum der Wissenschaft

rauf, dass mit »the Russian president« »Putin« gemeint ist. Letz­ Yeltsin the Russian president
Japan the Russian president
teres erfordert sogar Weltwissen, nämlich dass zu der Zeit, als this visit to Japan the Russian president
Putin the Russian president
dieser Text geäußert wurde, nicht mehr Boris Jelzin, sondern ... ...
Wladimir Putin russischer Präsident war.

30  SPEKTRUM DER WISSENSCHAFT · EXTRA


tis c h e s G es
sch m ma ch
m m a ti e s G es ra le
ra c ic h e n f o lge

ch
g Ze

t e i l w e ches
he

t
ic

hl
g le

es

ec
is e

i
Putin

ich

gl e
ht
gle
Yeltsin this visit to Japan
g l e ic
he W
his orta Japan
rt (Pro
Koreferenzresolution mit Hypergraphen e Z e i c h e n fo no men Japan
ch l )

ge
the Russian

gle
Das Programm definiert zunächst mit Hilfe einzelner Merkmale fürKoreferenzketten.
president Die Teilmengen sinditim linken Bild durch
Teilmengen aller Erwähnungen (Hypergraphen) als Kandidaten farbige Umrandungen
the Russian
president
dargestellt. Sie werden
Japan dann mit Hilfe
von Algorithmen der linearen Algebra verrechnet; das Ergebnis
tis c h e s G es ist die korrekte Zerlegung (rechts).
sch m ma ch
m m a ti e s G es ra le
ra c ic h e n f o lge

ch
g Ze

t e i l w e ches
he

t
ic
hl

g le
es

ec

Putin is e
i
ich

gl e
ht

Putin

Spektrum der Wissenschaft,  nach:  Michael Strube


gle

Yeltsin this visit to Japan this visit to Japan


Yeltsin
g l e ic
he W
his orta Japan his
rt (Pro Japan
ic h e n
e Ze fo no me n Japan
ch l )
Japan
i

ge

the Russian
gle

the Russian
president it president it
the Russian the Russian
president Japan Japan
president

Putin
Von den so entwickelten
Yeltsin Methoden this
pro­ visit
und to
»it«.Japan
Formal gesprochen kommt es darauf benen korrekten Lösungen, die als Trainings-
fitierte schließlichhisimmens die maschinelle Japanan, alle Erwähnungen in Teilmengen aufzutei­ und Testdaten dienen (»Annotationen«), Re­
Übersetzung. Hier trägt dieselbe Analogie:Japan len, deren Elemente zueinander koreferent geln oder statistische Zusammenhänge ab.
Die Ausgangssprache
the Russianwird als verrauschte Ver­ sind; und natürlich darf eine Erwähnung Damit die Standardverfahren des maschi­
president it
sion der Zielsprache angesehen. Obwohl die nicht zwei verschiedenen Teilmengen angehö­ nellen Lernens angewendet werden können,
the Russian
automatische Übersetzung auf den erstenJapan
president ren. Diese Mengen heißen auch »Koreferenz­ arbeitet man mit Paaren von Erwähnungen.
Blick nichts mit der Spracherkennung gemein ketten«, weil sie häufig, wie im Kasten, durch Eine Annotation besteht aus einer Liste sol­
hat, erkannten Computerlinguisten eine verbindende Striche dargestellt werden. cher Paare mitsamt der Angabe, ob die bei­
Strukturähnlichkeit und übertrugen den Lö­ Frühe Arbeiten in der Computerlinguistik den Erwähnungen eines Paars koreferent
sungsansatz von der Spracherkennung auf die griffen Erkenntnisse aus der Linguistik auf sind oder nicht (Kasten links, rechte Grafik).
automatische Übersetzung. und stellten komplexe Regeln für die Korefe­ Das Programm lernt nicht nur danach, es
renzresolution auf, die eine vollständige syn­ gibt zu einem neu vorgelegten Text Listen
Ist »er« Putin oder Jelzin? taktische und häufig auch semantische Analy­ von Paaren aus. Diese »paarweise Klassifika­
Hier wird ein Muster deutlich: Man löst ein se des Textes voraussetzten. Da dieser Ansatz tion« hat den Vorteil, dass sie bekannten und
computerlinguistisches Problem, indem man nicht robust genug für eine Anwendung im gut verstandenen Methoden des maschinel­
eine Analogie zu einem scheinbar entfernten größeren Stil war, wurden seit den späten len Lernens zugänglich ist. Nachteil ist, dass
Gebiet erkennt – natürliche Sprachen und 1990er Jahren zunehmend Verfahren des ma­ Wissen um den Kontext verloren geht. So
Programmiersprachen, Spracherkennung und schinellen Lernens eingesetzt: Ein Programm kann es einem solchen Programm durchaus
Informationstheorie, maschinelle Überset­ leitet automatisch aus von Menschen vorgege­ passieren, dass es »Putin« und »Yeltsin« durch
zung und Spracherkennung. Zwei Studien
aus meiner Arbeitsgruppe zeigen im Folgen­
den, wie eine solche Übertragung im Einzel­ Glossar
fall geleistet werden kann.
Eine wichtige Aufgabe beim automati­ ➤  Syntax ist die grammatische Struktur eines Textes, Semantik seine Bedeutung.
schen Verstehen von Texten ist die so genann­ ➤  P arsing: Einen Eingabetext Zeichen für Zeichen entgegennehmen, dabei Gren­
te Koreferenzresolution: zu erkennen, dass zen zwischen bedeutungstragenden Elementen (»Wörtern«) und in gewissen
sich mehrere Ausdrücke im Text (»Erwähnun­ Grenzen die Struktur des Texts erkennen.
gen«) auf denselben Gegenstand beziehen ➤  Z wei Ausdrücke im Text (»Erwähnungen«) koreferieren, wenn sie denselben Ge­
(»koreferieren«). Eine Erwähnung kann zum genstand bezeichnen.
Beispiel ein Eigenname in unterschiedlichen ➤  Koreferenzresolution ist die Identifizierung koreferenter Erwähnungen.
Varianten, ein Pronomen oder auch eine zu­ ➤  A nnotation ist ein von einem menschlichen Bearbeiter mit Zusatzinformatio­
sammengesetzte Nominalphrase sein. In dem nen versehenes Textbeispiel für das maschinelle Lernen.
Text im Kasten links sind die Erwähnungen ➤  Ein Synset ist eine Menge annähernd synonymer Ausdrücke in der Datenbank
»Putin« und »the Russian president« korefe­ WordNet.
rent, ebenso »Yeltsin« und »his« sowie »Japan«

Datengetriebene Wissenschaft 31
Europa
Zeitalter
wenn sie koreferent sind; aber das ist ja erst
Kunst

Person
das Ergebnis der Analyse und nicht der Aus­
Staat in Europa
(Kunst)
gangspunkt. Diese Kanten wiederum drücken
Moderne
Deutschland nichts weiter aus als eine paarweise Klassifika­
tion und bieten daher keinen Fortschritt.
Person Kultur
Russland
Weiter kommt man mit einem neuen
(Bildende Kunst) (Europa)

Deutscher
Neuzeit Konzept. Ein Hypergraph ist ein verallgemei­
Künstler Russe
nerter Graph, bei dem eine Kante mehr als
Kunstwerk zwei Knoten miteinander verbinden kann.
Person
Kultur
(Deutschland)
Kultur der Neuzeit Damit ist er die graphentheoretische Entspre­
(Russland)
chung einer Menge, und wir haben eine ange­
Person
(Musik) Künstler der
Bildenden Kunst
messene Darstellung des Koreferenzproblems
Kunst Kunst
Neue Musik (Deutschland) (Russland) gefunden: Erwähnungen sind Knoten im Hy­
Komponist
Deutscher
pergraphen, und jeder Gegenstand ist eine
Russischer
Künstler Künstler
Komponist Künstler
der Neuzeit Hyperkante, die alle seine koreferenten Er­
(Klassische Musik)

Komponist
Russische
Musik
wähnungen umfasst. Das Problem der Kore­
(Kirchenmusik)
Komponist (Oper)
Grafiker
ferenzresolution kann dann als Clusteranalyse
Deutscher
Musiker Russischer
Künstler
der Moderne
für Hypergraphen aufgefasst werden.
Musiker Radierer
Komponist
Deutscher
Mit diesem neuen theoretischen Rahmen
(20. Jahrhundert) Russischer Grafikdesigner
Komponist
Komponist
Kunst
ist unser Programm zur Koreferenzresolution
Dirigent Russischer
der Moderne
nicht mehr ausschließlich auf die Beispielpaa­
Maler
Max Reger
Expressionismus
re der paarweisen Klassifikation angewiesen.
Maler des
Paul Hindemith Igor Strawinski Expressionismus Vielmehr zieht es eine Vielzahl von »Merkma­
Werk Konstruktivismus
(Neue Musik)
Künstler
len« (features) heran. Ein Merkmal ist ein In­
Deutscher
Maler
des Konstruktivismus
diz dafür, dass zwei Erwähnungen im Prinzip
Werk der Suprematismus
Darstellenden Kunst
Werk von
Paul Hindemith El Lissitzky koreferent sein können. Eines von ihnen zeigt
Mann
an, ob Erwähnungen der gleichen semanti­
Künstler

Musikalisches
Ludus Tonalis Ernst Ludwig
Kirchner
Paula
Modersohn-Becker
des Suprematismus
schen Klasse angehören, also zum Beispiel
Werk
Spektrum der Wissenschaft

Mathis der Maler


Werk von
Dadaismus
beide eine Person, einen Ort oder ein Fahr­
Ballett (Werk) Igor Strawinski
Künstler
zeug bezeichnen. Ein anderes Merkmal stellt
Frau Hannah Höch
Oper (Werk)
des Dadaismus
dar, ob Erwähnungen die gleiche Zeichenket­
The Rake’s
Progress
Le sacre
du printemps
te enthalten (»Präsident Putin«, »Wladimir
Putin«, »Putin«, …). Weitere Merkmale ent­
Dieser kleine Ausschnitt aus dem Kategoriennetz der deutschen Wikipedia konzentriert halten Wissen über grammatische Eigenschaf­
sich auf die nähere Umgebung der Einträge zu einigen Künstlern vom Beginn des ten einer Erwähnung wie Genus, Numerus
20. Jahrhunderts. Blaue Pfeile haben die Bedeutung »ist ein« (»ein russischer Komponist und Person, über ihre syntaktische Rolle (Sub­
ist ein Komponist«, »Igor Strawinski war ein Dirigent«), rote Linien kennzeichnen jekt, Objekt, …) oder bestimmte syntaktische
das Wissen, dass eine solche Beziehung nicht besteht. Beziehungen zwischen zwei Erwähnungen,
etwa dass eine Erwähnung Apposition einer
anderen ist (»Wladimir Putin, der russische
eine lange Koreferenzkette verbindet – und Grunde, dass Koreferenzketten eigentlich Präsident, …«). Auch der Abstand im Text
damit in einen Topf wirft –, weil an irgend­ Mengen sind und es darum geht, jede Erwäh­ zwischen zwei Erwähnungen, gezählt in Wör­
einer Stelle das Pronomen »his« zum einen nung genau einer Menge zuzuweisen. In der tern oder Sätzen, wird als Merkmal ausge­
wie zum anderen passt und schon die Fest­ Informatik fanden wir ein geeignetes Analo­ drückt. Insgesamt arbeiten wir mit etwa 20
stellung, dass »his« nur einen der beiden gon zu dieser Aufgabe: die Clusteranalyse. unterschiedlichen Merkmalen.
Herren meinen kann, über die Betrachtung Man ordne Datenpunkte Mengen (»Clus­ Unser Programm erstellt im ersten Schritt
einzelner Paare hinausgeht. tern«) zu, und zwar so, dass eng benachbarte zu jedem Merkmal einen Satz von Hyperkan­
Dies war – stark vereinfacht – der Stand Datenpunkte in der Regel in ein und densel­ ten. Diese sind manchmal gewöhnliche Kan­
der Forschung, als vor drei Jahren Jie Cai als ben Cluster geraten. Nur kann man zwar zu ten, verbinden also nur zwei Erwähnungen,
Doktorandin in meiner Arbeitsgruppe anfing. zwei (durch Koordinaten gegebenen) Daten­ zum Beispiel bei dem Merkmal für den Ab­
Wir fragten uns, wie man das Problem der punkten in einfacher Weise deren Entfernung stand im Text. Die meisten aber umfassen
Koreferenz angemessener repräsentieren und definieren; aber das funktioniert für Erwäh­ mehr als zwei Erwähnungen; sie machen die
insbesondere Wissen über den Kontext in die nungen nicht. Allenfalls sind Erwähnungen Stärke des Verfahrens aus. Allen Hyperkanten
Entscheidung mit einbeziehen kann. Dabei Punkte (»Knoten«) in einem Graphen, die ge­ werden mit Hilfe von annotierten Trainings­
legten wir das oben beschriebene Konzept zu nau dann durch eine Kante verbunden sind, daten Gewichte zugewiesen; das sind Zahlen,

32  SPEKTRUM DER WISSENSCHAFT · EXTRA


die bezeichnen, wie stark das mit dem Merk­ Netzwerk ergibt. WordNet enthält aber nur tegorien – den »Synsets« aus WordNet ent­
mal ausgedrückte Indiz für Koreferenz ist. Da wenig Wissen über durch mit Eigennamen sprechen. Hat man diese Strukturgleichheit
das Verfahren robust ist gegenüber kleinen bezeichnete Konzepte. So gibt es in der aktu­ erst einmal gefunden, ist es relativ leicht, sie
Abweichungen bei den Gewichten, kommt es ellen Version (Stand 30. Mai 2011) zwar ei­ zu nutzen – in diesem Fall Wikipedia in ein
mit fünf Prozent der Trainingsdaten aus, die nen Eintrag über »Vladimir Putin«; »Boris semantisches Netzwerk umzuformen und da­
für die paarweise Klassifikation erforderlich Yeltsin« hat allerdings nie Eingang in die Da­ rauf weitere Strukturen aufzubauen.
sind. Das ist von entscheidender Bedeutung, tenbank gefunden. Wir waren also auf der In beiden Beispielen war es entscheidend,
da Annotationen für jedes Sachgebiet neu er­ ­Suche nach einer Wissensquelle, die mehr Analogien zwischen auf den ersten Blick
stellt werden müssen, viele Stunden menschli­ ­Informationen über durch Eigennamen be­ nicht zusammenhängenden Gebieten zu er­
cher Arbeit erfordern und daher teuer sind. zeichnete Konzepte enthält und dennoch so kennen. In einem interdisziplinären Gebiet
Die mit Gewichten versehenen Hyperkan­ gut strukturiert ist wie WordNet. wie der Computerlinguistik gilt dies auch
ten lassen sich in Matrizen umwandeln. Die Ein Blick auf die im Oktober 2005 noch eine Abstraktionsstufe höher: Es kommt da­
wiederum kann man mit Standardmethoden recht kleine »Wikipedia« zeigte uns, dass diese rauf an, Analogien zwischen Analogien zu
aus der linearen Algebra so transformieren, Online-Enzyklopädie die erste Bedingung er­ sehen. »Good mathematicians see analogies
dass am Ende eine korrekte Zerlegung in füllt. Die zweite Bedingung erforderte einen between theorems or theories. The very best
Mengen koreferenter Erwähnungen steht erneuten, unbefangenen Blick. Im Gegensatz ones see analogies between analogies«, so der
(Kasten S. 31 oben). zu gewöhnlichen, unstrukturierten Webseiten bedeutende Mathematiker Stanislaw Ulam
enthält Wikipedia neben dem ebenfalls un­ (1909 – 1984) in seinem Werk »Analogies
Wikipedia strukturierten Text einige Strukturelemente, between analogies«.
als lexikalische Datenbank die unserer Aufgabe dienlich waren. So findet Die wissenschaftliche Umgebung bei
In Experimenten mit Standarddatensätzen man am Ende jedes Artikels die Liste der Ka­ HITS stellt in dieser Beziehung eine einmali­
konnten Jie Cai und ich zeigen, dass unsere tegorien, denen er angehört. Die Kategorien ge Chance dar, da die Interdisziplinarität zu
Methode trotz deutlich geringeren Bedarfs an selbst sind ebenfalls kategorisiert, so dass man den Voraussetzungen seiner Existenz zählt.
Lernstoff wesentlich bessere Ergebnisse bei mit ihrer Hilfe von einem Artikel zu einem Vielleicht werde ich eines Tages sogar Metho­
der Koreferenzresolution erzielt als die übli­ anderen gelangen kann, der mit dem ersten den aus der Biomechanik oder der theoreti­
chen Verfahren, und das in etwa einem Viertel semantisch verwandt ist. schen Astrophysik auf computerlinguistische
der Rechenzeit. Wegen des geringen Trai­ Damit war klar: Wenn es gelingt, aus den Probleme anwenden!  Ÿ
ningsaufwands ist es uns auch gelungen, unser Wikipedia-Kategorien ein semantisches Netz
Verfahren ohne größere Mühe auf eine neues zu extrahieren, dann verfügt man über eine der autor
Sachgebiet zu übertragen: Inzwischen analy­ Ressource, die WordNet zumindest bei den
Michael Strube, Jahrgang
siert es nicht nur Nachrichtentexte, sondern durch Eigennamen bezeichneten Konzepten 1965, wurde 1996 an der
auch Arztberichte. überlegen ist. In der Folge haben Ponzetto Universität Freiburg mit
Aufgaben wie die Koreferenzresolution be­ und ich (später stieß Vivi Nastase als Postdoc einer Dissertation in
Computerlinguistik
nötigen über das linguistische Wissen (»Ist zum Team) mehrere Verfahren entwickelt, die
promoviert. Nach einer
›Putin‹ ein Substantiv oder ein Verb?«) hinaus Wikipedia zuerst in ein semantisches Netz­ Postdoc-Zeit an der
auch Wissen über Objekte in der Welt und werk umwandeln, dann in eine Taxonomie University of Pennsylva-
nia in Philadelphia kam er 2000 als
ihre Beziehungen zueinander (»Ist ›Putin‹ ein und schließlich in ein Netzwerk mit reichhal­
wissenschaftlicher Mitarbeiter zur EML
Mensch oder ein Ort?«). Koreferenzrelationen tigen semantischen Relationen (Spektrum der Research gGmbH in Heidelberg. Ein Jahr
bestehen häufig zwischen einem Unter- und Wissenschaft 12/2010, S. 94; Bild S. 33). Die später wurde er Leiter der Natural
einem Oberbegriff, etwa »Wladimir Putin« Language Processing Group des Instituts,
Anwendung auf mehrere computerlinguisti­
das mittler­weile Heidelberger Institut für
und »der russische Präsident«, »der russische sche Probleme belegte die Richtigkeit unserer Theoretische Studien heißt. Er ist Hono-
Politiker«. Im Oktober 2005 stellte sich mei­ Grundannahme. rarprofessor an der Universität Heidelberg
nem damaligen Doktoranden Simone Paolo Die beiden hier beschriebenen Projekte im Fach Computerlinguistik.

Ponzetto und mir die Frage, wie wir unserem weisen eine Gemeinsamkeit auf. Beim Prob­
Koreferenzresolutionssystem dieses Wissen lem der Koreferenzresolution kam es darauf quellen
zur Verfügung stellen können. an, auf einer abstrakten Ebene die Struktur­
Cai, J., Strube, M.: End-to-End Coreference
Die in der Computerlinguistik populärste gleichheit zwischen dem linguistischen Phä­ Resolution via Hypergraph Partitioning. In:
Ressource für derartiges Wissen ist »Word­ nomen der Koreferenz, dem mathematischen Proceedings of the 23rd International
Conference on Computational Linguistics,
Net«, eine lexikalische Datenbank, die Wörter Konzept der Menge und dem graphentheo­
Peking, 23. – 27. August 2010, S. 143 – 151.
so genannten »Synsets« zuordnet, die jeweils retischen Konstrukt des Hypergraphen zu se­ Download über www.aclweb.org/
eine Menge (annähernd) synonymer Ausdrü­ hen. Bei der Wissensextraktion aus Wikipedia anthology/C/C10/
Ponzetto, S. P., Strube, M.: Taxonomy
cke enthalten. Die Synsets sind in einer Taxo­ ging es darum, das Kategoriensystem in Wi­
In­duction Based on a Collaboratively Built
nomie angeordnet und durch viele weitere se­ kipedia als Netzwerk zu erkennen, dessen Knowledge Repository. In: Artificial Intelli-
mantische Relationen miteinander verknüpft, Kanten semantische Nähe ausdrücken und gence 175, S. 1737  – 1756, 2011
so dass sich ein reichhaltiges semantisches dessen Knoten – Wikipedia-Artikel und -Ka­

Datengetriebene Wissenschaft 33
Virtuelle Forschungsumgebungen
für morgen
Um Wissenschaftlern die Infrastruktur bieten zu können, die sie für ihre Arbeit in der Zukunft brauchen,
müssen Hochschulen und außeruniversitäre Institutionen ihre Kräfte bündeln und neue Wege beschreiten.

Von Uwe Schwiegelshohn

N
ur dort, wo der Boden und das attraktiv zu machen und so in der Antike ­ xperiment und Beobachtung ihre Alleinstel­
E
Angebot an Wasser und Licht den Wettbewerb um die klügsten Köpfe zu lung im Erkenntnisprozess. Dieser Trend setzt
ihren Bedürfnissen genügen, gewinnen. sich bis in die Gegenwart fort, in der neben
werden Pflanzen gedeihen und Während es damals nur wenige solcher den Bibliotheken als weitere Querschnitts­
Frucht tragen. Genauso verhält es sich auch Stätten der Gelehrsamkeit gab, änderte sich funktion die Rechenzentren zur Verarbeitung
mit der Wissenschaft: Ein Forscher benötigt die Situation im Spätmittelalter deutlich. Mit von Forschungsdaten aufkamen. Inzwischen
eine seinem Thema angemessene Umgebung, dem Untergang des Römischen Reichs im wendet eine typische technische Universität
um herausragende Ergebnisse zu erzielen. Das 5. Jahrhundert war eine Phase weit gehender durchschnittlich weniger als zwei Prozent ih­
war schon in der Antike so, wobei sich die er­ wissenschaftlicher Stagnation angebrochen. res jährlichen Etats für die Ausstattung ihrer
forderliche Infrastruktur im Lauf der Jahr­ Nun aber wurden die antiken naturphiloso­ Bibliothek auf, hingegen über fünf Prozent
hunderte freilich beträchtlich erweitert hat. phischen Erkenntnisse wiederentdeckt, und für Laborräume und technische Einrichtun­
Doch auch wenn wir heute von »virtuellen die Mächtigen ihrer Zeit gründeten Universi­ gen. Dies war und ist die Konsequenz einer
Forschungsumgebungen« sprechen, sind die täten als neue Form, Studium und Forschung veränderten Forschungslandschaft, in der sich
Grundbedürfnisse doch erstaunlich gleich ge­ eine Heimat zu geben. Das Modell erwies sich die Natur- von den reinen Geisteswissenschaf­
blieben. Gelehrte brauchen vor allen Dingen als erfolgreich. Um 1230 gab es bereits etwa ten lösten und größeren Raum einnahmen.
eines: die Möglichkeit, sich mit anderen Ex­ 20 solcher Einrichtungen in Europa, 1789 Da Experimente disziplinspezifisch sind,
perten ihres Fachs auszutauschen. waren es schon 142. Im deutschen Sprach­ erfordern sie unterschiedliche Forschungsum­
Weil diese beiden Grundpfeiler jeder For­ raum vollzog sich diese Entwicklung etwas gebungen. Angesichts einer wachsenden Zahl
schung Ende des 4. Jahrhunderts v. Chr. am langsamer. Bis 1400 gab es erst drei Universi­ von Teildisziplinen wird es für eine Universi­
Museion Alexandrias gegeben waren, wurde täten, bis 1500 wuchs ihre Zahl aber auf zehn. tät immer aufwändiger, das ganze Spektrum
es zur zentralen Stätte antiker Gelehrsamkeit. Heute sind es in Deutschland allein ungefähr der Wissenschaften abzubilden, auch wenn
Nirgends sonst beherbergte eine Bibliothek 100. Hinzu kommen noch andere Arten sich Forschungsumgebungen bei vergleichba­
eine solche Vielzahl an Schriften – hundert­ von Hochschulen und außeruniversitäre For­ ren Fragestellungen durchaus ähneln.
tausende sollen es gewesen sein. Nicht anders schungseinrichtungen. Mitunter benötigen wissenschaftliche Ins­
als heute ermöglichten diese frühen Publika­ trumente spezifische Einsatzorte. Dazu gehö­
tionen eine indirekte Kommunikation zwi­ Niedergang der Bibliotheken ren astronomische Teleskope, die einen dunst­
schen Forschern über Generationen hinweg. Auch in den mittelalterlichen Universitäten freien Himmel erfordern (siehe Foto rechts),
Auf Grund seiner Bedeutung wurde das spielten die Bibliotheken eine tragende Rolle, oder die polaren Beobachtungsstationen und
Museion oft von den Großen der Zeit geleitet, und daran hat sich bis in die Gegenwart nichts Forschungsschiffe der Klimaforscher. Die ef­
etwa von Eratosthenes, der den Erdumfang geändert. Nach wie vor ist die Publikation das fiziente Nutzung dieser weit entfernten Be­
und die Schiefe der Ekliptik vermaß, oder von primäre Mittel, Forschungsergebnisse in der obachtungsstandorte verlangt, große Daten­
dem frühen Sprachwissenschaftler Aristo­ Fachwelt zu verbreiten. Seit der Erfindung des volumina von dort schnell zu den jeweiligen
phanes. Selbst längere Reisen und die damit Buchdrucks durch Johannes Gutenberg Mitte Wissenschaftlern an ihren Heimatuniversitä­
verbundenen Gefahren schreckten Wissen des 15. Jahrhunderts lassen sie sich leicht ver­ ten zu übermitteln.
Suchende nicht ab. Seine einzigartige Ausstat­ vielfältigen – und dank des Aufkommens der Während Gelehrte noch Anfang des 20.
tung verdankte das Museion dem Engagement Zeitungen und schließlich des Wissenschafts­ Jahrhunderts in Briefwechseln Informationen
des ptolemäischen Herrschergeschlechts. Ob­ journalismus auch einer breiten Öffentlich­ austauschten und Theorien diskutierten, wol­
wohl die Wirtschaftsmacht ihres Landes noch keit vermitteln. len Forscher heute mit anderen ohne Verzöge­
nicht davon abhing, wissenschaftliche Er­ Dennoch gab es seit den Zeiten Galileo rung und unabhängig vom Aufenthaltsort in
kenntnisse in technische Innovationen um­ Galileis (1564 – 1642) eine strukturelle Ver­ Verbindung treten können. Das leisten die
zumünzen, legten diese Könige großen Wert änderung: Schriften – und damit die Biblio­ modernen, globalen Kommunikationssyste­
darauf, den »Forschungsstandort« Alexandria theken – verloren mit der Einführung von me, darunter vor allem das Internet. Hierfür

34  SPEKTRUM DER WISSENSCHAFT · EXTRA


kleines Foto: ESO; groSSes Foto: ESO, Gerhard Hüdepohl 

Das aus vier Einzelteleskopen bestehende


Very Large Telescope (VLT) steht auf einem
Berg in der chilenischen Atacama-Wüste.
Ein derartiges Projekt lässt sich nur in inter-
nationaler Kooperation realisieren.

Datengetriebene Wissenschaft 35
die technische Infrastruktur bereit­zustellen,

AKG Berlin / Bibliothèque de Troyes, Ms 129, fol. 32


ist ebenfalls eine Kernkompetenz der Rechen­
zentren. Sie versetzen nicht nur Wissenschaft­
ler – vorwiegend Naturwissenschaftler – aus
unterschiedlichen Einrichtungen und Län­
dern in die Lage, gemeinsam zu forschen und
zu veröffentlichen, sie unterstützen auch den
zunehmend interdisziplinären Charakter der
Wissenschaft. Fragt man beispielsweise, wel­
che Auswirkungen die globale Erwärmung
und die mit ihr einhergehenden Veränderun­
gen von Lebensräumen auf die Verbreitung
von Krankheiten haben werden, sind Spezia­
listen verschiedener Fachrichtungen gefragt.
Von modernen Forschungsumgebungen
wird erwartet, dass sie eine solche Vernetzung
unterstützen. Das Vorhandensein der genann­
ten Kommunikationssysteme allein genügt
dafür nicht mehr. Ebenso wichtig wird die
Kompatibilität zwischen früher isoliert funk­ Das Studium von Schriften bildete im Mittelalter die Basis aller Gelehrsamkeit (oben: ein
tionierenden Laboren. Das erfordert die Ein­ Hörsaal der Pariser Sorbonne im 15. Jahrhundert). Mit dem Aufkommen des Experi-
richtung und Pflege möglichst standardisier­ ments im 16. Jahrhundert verloren Bibliotheken an Bedeutung. Manche Forschungsfragen
ter Schnittstellen, was ebenfalls in die Kom­
petenz der Rechenzentren fällt und ihre
Bedeutung noch steigert. für waren die in den 1970er Jahren entstan­ nik verlängert sich die Wartezeit nur gering­
Die wachsende Anzahl der Universitäten denen deutschen Bibliotheksverbünde. Zu­ fügig.
und die immer aufwändigere technische Aus­ nächst wurden Zentralkataloge geschaffen, in Eine weitere Neuentwicklung ist die vir­
stattung lässt freilich die Kosten steigen. So denen ein Titel nur einmal aufgeführt ist, was tuelle Forschungsumgebung, die annähernd
entstand der Begriff der Forschungsinfra­ die Katalogpflege vereinfacht. Später kam die die gleiche Funktionalität wie eine ideal aus­
struktur, die neben der Qualität der darin ent­ Onlinefernleihe hinzu, die einzelne Büche­ gestattete lokale aufweist, obwohl nicht mehr
haltenen Forschungsumgebungen auch orga­ reien entlastete, weil nun keine mehr ein kom­ alle Komponenten am Standort existieren.
nisatorische Aspekte wie die Kosteneffizienz plettes Literaturangebot vorhalten musste. Voraussetzung ist eine gesteuerte Kooperation
berücksichtigt. Eines der ersten Beispiele da­ Dank der modernen Kommunikationstech­ zwischen den Trägern der lokalen Umgebun­
gen und die Vernetzung der einzelnen For­
Felix Müller, Bern

scher untereinander. Somit ist die typische


Forschungsumgebung von heute immer eine
virtuelle, da sie unterschiedliche Standorte
verbindet.
Das betrifft insbesondere wissenschaftliche
Experimente, die aus Kostengründen nur an
wenigen oder gar nur an einem Ort durch­
geführt werden können. Man denke etwa an
­die Projekte aus dem Bereich der Teilchen­
physik am Large Hadron Collider (LHC) am
CERN (Europäische Organisation für Kern­
forschung) in der Nähe von Genf. Solche Or­
ganisationen wurden gegründet, um Groß­
experimente durchzuführen. Sie sind in der
Regel durch öffentliche Mittel finanziert und
bilden eine wesentliche Säule von Forschungs­
infrastrukturen. Umfangreiche und den ange­
schlossenen Wissenschaftlern zugänglich zu
Im 3. Jahrhundert v. Chr. avancierte die Universität Alexandrias zu einem Zentrum des machende Datenvolumina entstehen aber
Wissens. Von christlichen Fanatikern zerstört, wurde sie im 4. Jahrhundert n. Chr. andern- auch durch die Digitalisierung von Literatur
orts neu gebaut. Polnische Archäologen glauben, einige der Hörsäle entdeckt zu haben. und Kultur oder im Zuge einer Vielzahl klei­

36  SPEKTRUM DER WISSENSCHAFT · EXTRA


über Bundesländergrenzen hinweg schon un­
CERN

ternommen.
Im Extremfall könnte ein Rechenzentrum
die gesamte Infrastruktur stellen – bezie­
hungsweise als eigenständiges Unternehmen
ausgegliedert werden; man spricht von Infra­
structure-as-a-Service. Dieser Ansatz ist vor
allem in solchen Fächern sinnvoll, die die ver­
fügbare Technologie möglichst optimal aus­
nutzen wollen. Geht es dagegen nur um die
Ausführung von bestimmten Programmen,
etwa zur statistischen Auswertung, ist das
Konzept Software-as-a-Service interessanter.
Ein Forscher könnte dann eine speziell für
­seine Aufgabenstellung entwickelte Software
verwenden, ohne sich um deren Implemen­
tierung kümmern oder selbst über die not­
wendige Hardware verfügen zu müssen.
Das würde auch die lokalen Rechenzent­
erfordern die Konzentration von Experimentiereinrichtungen an einem Ort (im Bild ren entlasten, da sie in Zukunft kaum in der
oben der LHC am CERN). Von dort müssen die Ergebnisse über Kommunikationsnetzwerke Lage sein werden, die Vielzahl unterschiedli­
zu den über die ganze Welt verteilten Wissenschaftlern weitergeleitet werden. cher Anwendungssoftware für die jeweils we­
nigen Nutzer bereitzustellen und zu pflegen.
Zudem sinkt das Risiko, dass ein in einem
nerer Studien mit aufwändigen Bilddaten wie den LHC-Experimenten ist das durch das so Projekt entwickeltes Verfahren vergessen und
in der Medizin. Diese Informationen werden genannte Worldwide LHC Computing Grid in einem anderen neu entwickelt wird.
in der Regel in großen Archiven gesammelt (WLCG) – ein aus miteinander kommuni­ Die entstehende Forschungsinfrastruktur
und wiederum anderen Forschern zur Verfü­ zierenden Rechnern auf der ganzen Welt be­ besitzt dann zwei Komponenten, deren Zu­
gung gestellt. stehendes Netzwerk – bereits in Ansätzen ge­ sammenspiel noch nicht geklärt ist: Auf der
Sowohl aus dem Interesse der Beteiligten schehen. einen Seite übernimmt die Universität diszi­
als auch aus Effizienzgründen sollten all diese Das erfordert eine dienstleistungsorien­ plinübergreifend die Strukturierung der For­
Daten möglichst vielen Gruppen zugänglich tierte Softwaretechnologie. Ein Beispiel dafür schungsumgebung vor Ort, auf der anderen
sein. Damit entsteht ein Bedarf an virtuel- ist das so genannte Cloud Computing. Eine arbeitet der Träger einer virtuellen disziplin­
len Forschungsumgebungen, die institutions­ solche »Rechnerwolke« besteht aus einem spezifischen Forschungsumgebung über die
übergreifend aufgebaut sind. Im Gegensatz Netzwerk von Computern, aus dem ein An­ Grenzen der Institutionen hinweg. Offen sind
zum erwähnten Bibliotheksverbund oder zum bieter die nachgefragten Ressourcen dyna­ bis jetzt die Mechanismen der Zusammenar­
Rechenzentrum wären diese zwar disziplin­ misch zuweist. Letzterer weiß also nicht mehr, beit und die Finanzierung solcher Infrastruk­
spezifisch, durch Synergieeffekte würden aber wo konkret jene Maschinen stehen, die seine turen. Um den Forschungsstandort Deutsch­
die Kosten reduziert. Daten oder eine bestimmte Software vorhal­ land auch für die Zukunft gut zu positionie­
ten – all das bleibt ihm wie hinter einer Wolke ren, sollten diese Fragen so schnell wie möglich
Rechnen in der Wolke verborgen. gelöst werden.  Ÿ
Virtuelle Forschungsumgebungen sollen vor Hier bietet sich eine weitere Chance für
allem notwendige Dienste für die beteiligten die Hochschulen, Kosten zu sparen und
der autor
Wissenschaftler anbieten, angefangen von gleichzeitig ein Mehr an Infrastruktur zu bie­
der Verbindung zu anderen Forschern, wis­ ten. Gegenwärtig versorgen ihre Rechenzent­ Uwe Schwiegelshohn
leitet das Institut für
senschaftlichen Geräten oder Datenspeichern ren noch die vor Ort arbeitenden Forscher.
­Roboterforschung der
an weit entfernten Orten bis hin zur Bereit­ Angesichts der Fragmentierung der Hoch­ Technischen Universität
stellung und Pflege benötigter Software für schullandschaft in viele Disziplinen mit je­ Dortmund, wo er sich
vor allem auf die Gebiete
die Auswertung von Messergebnissen. Es wä- weils nur einer kleinen Zahl von Wissen­
Grid Computing und au-
re ineffizient, wenn solche Software von je­ schaftlern pro Universität lässt sich auf diese tonome mobile Roboter
dem Wissenschaftler selbst erstellt werden Weise kaum die nötige hohe Auslastung errei­ konzentriert. Er ist zudem Prorektor für
müsste, wie dies in der Vergangenheit oft der chen. Vernünftiger wären Rechenzentrums­ den Geschäftsbereich Finanzen der Hoch-
schule. In diesem Rahmen befasst er
Fall war. Nachdem aber jetzt die Institutions­ verbünde analog den Bibliotheksverbünden; sich auch mit fakultätsübergreifenden
grenzen einmal aufgebrochen sind, bietet es erste Schritte in diese Richtung wurden so­ Fragen der Strukturentwicklung.
sich an, sie auch hier zu überschreiten. Bei wohl innerhalb von Bundesländern als auch

Datengetriebene Wissenschaft 37
Wissenschaft braucht Vernetzung
Forscher können der rapide anwachsenden Datenmengen nur Herr werden und
sie zum rascheren Erkenntnisgewinn nutzen, wenn sie ihre Rolle als Mitglieder eines
großen Netzwerks verstehen und akzeptieren. Dies erfordert neue Formen des
Umgangs mit urheberrechtlichen Fragen und neue Modalitäten der Zusammenarbeit.

Von John Wilbanks

D
ie Gewinnung neuer Erkennt- die alten Erklärungsmuster den neuen Reali-
nisse durch die Analyse großer täten nicht mehr gewachsen sind.
Datensammlungen wird oft als Dies scheint mir die Idee hinter Jim Grays
»viertes Paradigma« wissen- Begründung eines vierten Paradigmas und
schaftlichen Arbeitens bezeichnet. Unabhän- dem Bild von der »Datenflut« zu sein: dass
gig davon, ob man dem zustimmt, ist es sinn- unsere Fähigkeit, Daten zu messen, zu spei-
voll, die ursprüngliche Bedeutung des Begriffs chern, zu analysieren und zu visualisieren, die
Paradigmenwechsel in Thomas Kuhns »Struc- neue Realität ist, der sich die Wissenschaft
ture of Scientific Revolutions« noch einmal zu stellen muss. Daten sind der Kern dieses neu-
reflektieren. en Paradigmas, und es steht auf einer Stufe
Kuhns Modell beschreibt eine Welt der mit dem, was wir für den wissenschaftlichen
Wissenschaft, in der ein System von Ideen die Methodenvorrat halten: der experimentellen
Vorherrschaft erringt, sich etabliert und so Beobachtung, der Theoriebildung und der Si-
eine Sicht der Welt hervorbringt (das »Para- mulation.
digma«), die für sich selbst Macht und Ein- Müssen wir die ersten drei Paradigmen
fluss gewinnt. Dieses System von Ideen be- also begraben? Keineswegs, vielmehr will ich
zieht seine Geltung daraus, dass es eine plausi- Das Onlinelexikon Wikipedia ist das sie fei­ern. Mit der experimentellen Beobach-
ble Erklärung für beobachtbare Phänomene bekannteste Beispiel einer für alle frei tung und Theoriebildung sind wir weit ge-
liefert. Auf diese Weise haben wir zum Bei- zugänglichen Website, welche die kommen – von einem Weltbild, in dem die
spiel den Äther als Träger des Lichts bekom- ­Gemeinschaft der Internetnutzer welt- Sonne um die Erde kreist, bis zur Quanten-
men sowie die Miasmen-Theorie für Infekti- weit unentgeltlich aufgebaut hat, physik. Simulation ist das Herzstück vieler ak-
onskrankheiten und die Vorstellung, dass die stetig erweitert, pflegt und aktualisiert. tueller Forschungsaktivitäten, von der Rekon-
Sonne um die Erde kreist. Das System von struktion des antiken Rom bis hin zur Wetter-
Ideen, die Sicht der Welt, das Paradigma ver- vorhersage. Die Genauigkeit von Simulationen
festigt sich durch schrittweise Erweiterung. seits gedrängt. Neue Ideen fallen nicht auf und Prognosen steht im Zentrum heißer poli-
Jeder einzelne Wissenschaftler arbeitet in der fruchtbaren Boden, bekommen kein Geld tischer Debatten um die Wirtschaftsentwick-
Regel so, dass er das Paradigma Stück für und kein Personal. Furcht, Unsicherheit und lung und den Klimawandel. Und natürlich
Stück ergänzt. Wem es gelingt, ein großes Skepsis bestimmen die Reaktion auf originelle gilt, dass Beobachtung und Theorie unabding­
Stück hinzuzufügen, der erlangt Autorität, Vorstellungen, Methoden, Modelle und An- bar sind für gute Simulationen. Ich kann auf
Forschungsaufträge, Preise und Auszeichnun- sätze, die dem herrschenden Paradigma zuwi- meinem Bildschirm sehr schön etwas simulie-
gen – und Direktorenposten. derlaufen. ren, in dem die Gravitation nicht vorkommt,
Alle Beteiligten profitieren von ihren In- Doch Weltanschauungen gehen unter und aber wenn ich mit meinem Auto über einen
vestitionen in ein System von Ideen, das über Paradigmen stürzen, wenn sie die Beobach- Klippenrand fahre, wird mich die Schwerkraft
die Ideen selbst hinausreicht. Firmen und Re- tungen nicht mehr erklären können oder gnadenlos wieder einholen.
gierungen (und die Leute, die für sie arbeiten) wenn ein Experiment zweifelsfrei nachweist, So gesehen handelt es sich also nicht um
gründen Geschäftspläne und politische Vor- dass sie falsch sind. Der Äther hat sich nach einen Paradigmenwechsel im kuhnschen Sin-
gaben auf eine solche Sicht der Welt. Das Hunderten von Jahren stetiger Verfeinerung ne. Daten werden nicht die gute alte Realität
führt zum Aufbau eines Schutzwalls – einer als Schimäre erwiesen, und so erging es dem beiseiteschieben. Stattdessen stellen sie eine
Art Immunsystem –, der das Weltbild gegen Miasma und dem Geozentrismus. Die Zeit Reihe von Anforderungen an die Methoden
Angriffe abschirmt. Zweifler werden ins Ab- für einen Wechsel ist dann gekommen, wenn und Konventionen, mit denen wir über Beob-

38  SPEKTRUM DER WISSENSCHAFT · EXTRA


achtungen und Theorien kommunizieren, Datengetriebene Forschung, richtig verstan- kommt der Beherrschung von Unmassen an
aber auch an die Robustheit und Komplexität den, wird mehr Paradigmenwechsel bei wis- Daten entgegen – Netzwerke können gewalti-
unserer Simulationen und schließlich an die senschaftlichen Theorien in kürzerer Zeit her- ge Mengen von Informationen in etwas Nütz-
Art, wie wir unser Wissen darlegen, weiterge- vorbringen, weil wir unser jeweiliges Weltbild liches verwandeln, so dass die Überfülle an In-
ben und integrieren. sofort mit der »objektiven Realität« verglei- formationen nicht länger ein »Problem« ist,
Was sich ändern muss, ist das Paradigma chen können, die sich so effektiv messen lässt. das »gelöst« werden muss. Und beim Umgang
von uns selbst als Wissenschaftlern, nicht die Netzwerke beschreiben den Umbruch mit der Datenflut können wir vom Entwurf
alten Paradigmen des Erkenntnisgewinns. Als durch die Datenflut vielleicht besser als der Netzwerke lernen: Wenn wir ihrer Herr
wir anfingen zu begreifen, dass alles Stoffliche die kuhnsche Dynamik. Ihre Skalierbarkeit werden wollen, müssen wir eine offene Stra­
aus Atomen besteht, dass wir das Produkt un-
serer Gene sind und dass die Erde um die Son­
ne kreist – da vollzogen sich Paradigmenwech­ Der Apache-Webserver, der populärste Webserver im Internet, ist ein Paradebeispiel
sel im kuhnschen Sinne. Was wir hier disku- für Open-Source-Software, die Enthusiasten weltweit unentgeltlich programmieren und
tieren, geht quer durch all diese Umbrüche. der Allgemeinheit zur Verfügung stellen.

http://www2.jusch.ch/dokus/debiananwenderhandbuch.de/bilder/webmin/server-apache.png

Datengetriebene Wissenschaft 39
mit den anderen Schichten kompatibel ist
Freie Inhalte im Internet und zusammenwirkt oder »interoperiert«, wie
Computerwissenschaftler sagen. Ich glaube,
Das Open Directory Project (ODP) gilt als größtes von Menschen gepflegtes Webver- diese Sichtweise wird dem Wesen wissen-
zeichnis des World Wide Web. Seine Inhalte sind für jeden kostenlos zugänglich und schaftlicher Methodik eher gerecht als das
werden von freiwilligen Redakteuren unentgeltlich bearbeitet und aktualisiert. Die Konzept eines Paradigmenwechsels mit sei-
Grafik zeigt die Entwicklung der Einträge im deutschsprachigen Zweig des ODP. nem destruk­tiven Ansatz. Daten sind das Er-
Quelle: http://de.wikipedia.org/w/index.php?title=Datei:Odp_sitecount_world_deutsch.png&filetimestamp=20100211081729
gebnis allmählicher Fortschritte bei den Mess-
und Beobachtungsverfahren. Sie untermau-
500 000
ern die Theorie, sie treiben und validieren die
450 000 Simulation, und sie werden am besten in stan-
400 000
dardisierter wechselseitiger Kommunikation
Windharp / CC-by-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0/deed.de)

mit den genannten Schichten des Wissens-


350 000
netzwerks ausgetauscht.
300 000
Vorzüge des Prinzips
250 000
der Offenheit
200 000 Krass gesagt ist das Paradigma, das zerstört
150 000 werden muss, die Idee, dass wir Wissenschaft-
ler als unvernetzte Individuen forschen. Wenn
100 000
denn diese Metapher akzeptabel erscheint,
50 000 hält sie für uns, die wir über den Entwurf ei-
0 nes Netzwerks für die wissenschaftliche
­Kommunikation nachdenken, zwei Lektio-
2001 2002 2003 2004 2005 2006 2007 2008 2009
nen bereit.
Die erste Lektion, frei nach David Isen-
tegie verfolgen, die auf den Erfahrungen mit und die zugleich ein Namensschema für Rech- berg, ist die, dass das Internet seine Durch-
Netzwerken beruht. ner und Dateien vorgeben. Da wir uns alle schlagskraft einer ganz speziellen Eigenschaft
Damit meine ich die Rechner- und Kom- dieser Methoden bedienen und jeder sie nut- verdankt: Es ist öffentlich. Das gilt gleich in
munikationsnetzwerke, die lediglich auf ei- zen kann, ohne um Erlaubnis zu fragen, ent- mehrfacher Hinsicht. Die Definitionen der
nem Satz von Protokollen aufgebaut sind, wickelt sich das Netzwerk ganz von selbst und Standards, auf denen das Internet beruht, sind
Schicht für Schicht, von Endpunkt zu End- wächst immer weiter. offen und frei zugänglich – frei zum Lesen,
punkt. Das Internet und das Web sind an- So gesehen sind Daten nicht ein »viertes zum Herunterladen, zum Kopieren, zum Ver-
hand von Dokumenten realisiert worden, die Paradigma«, sondern eine »vierte Netzwerk- wenden. Sie sind frei im urheberrechtlichen
standardisierte Methoden dafür definieren, schicht« (auf dem Ethernet, TCP/IP und dem Sinn. Die Spezifikationen können von jedem
wie Daten übertragen und dargestellt werden, World Wide Web), die, von oben nach unten, herangezogen werden, der sie verbessern und

Eine Publikation von Spektrum der Wissenschaft und dem Heidelberger Institut für Theroretische Studien

Chefredakteur: Dr. Carsten Könneker Geschäftsführer: Dr. Klaus Tschira, Prof. Dr. Andreas Reuter Leitung: Dr. Joachim Schüring
Editor-at-Large: Dr. Reinhard Breuer (v.i.S.d.P.) Presse- und Öffentlichkeitsarbeit: Dr. Peter Saueressig Anschrift: Spektrum der Wissenschaft – Custom Publishing,
Redaktionsleiter: Dr. Hartwig Hanser (Monatshefte), Dr. Gerhard Anschrift: HITS gGmbH, Schloss-Wolfsbrunnenweg 35, Postfach 10 48 40, 69038 Heidelberg;
Trageser (Sonderhefte) 69118 Heidelberg, Hausanschrift: Slevogtstraße 3–5, 69126 Heidelberg,
Redaktion: Thilo Körkel (Online-Koordinator), Dr. Klaus-Dieter Tel.: 06221 533-245, Fax: 06221 533-198 Tel.: 06221 9126-612, Fax: 06221 9126-5612
Linsmeier, Dr. Christoph Pöppe
Art Direction: Karsten Kramarczik www.h-its.org www.spektrum.com/cp
Layout: Sibylle Franz, Claus Schäfer
Schlussredaktion: Christina Meyberg (Ltg.), Sigrid Spies,
Katharina Werle Gesamtherstellung: L. N. Schaffrath Druckmedien GmbH & Co. KG, Marktweg 42–50, 47608 Geldern
Bildredaktion: Alice Krüßmann (Ltg.), Anke Lingg,
Gabriela Rabe Sämtliche Nutzungsrechte an dem vorliegenden Werk liegen bei der Spektrum der Wissenschaft Verlagsgesellschaft mbH.
Redaktionsassistenz: Anja Albat-Nollau, Britta Feuerstein Jegliche Nutzung des Werks, insbesondere die Vervielfältigung, Verbreitung, öffentliche Wiedergabe oder öffentliche Zugänglich­
Verlag: Spektrum der Wissenschaft Verlagsgesellschaft mbH, machung, ist ohne die vorherige schriftliche Einwilligung des Verlags unzulässig. Jegliche unautorisierte Nutzung des Werks
Postfach 10 48 40, 69038 Heidelberg, berechtigt den Verlag zum Schadensersatz gegen den oder die jeweiligen Nutzer. Bei jeder autorisierten (oder gesetzlich gestatteten)
Tel.: 06221 9126-600, Fax: 06221 9126-751 Nutzung des Werks ist die folgende Quellenangabe an branchenüblicher Stelle vorzunehmen: © 2011 (Autor), Spektrum der
Amtsgericht Mannheim, HRB 338114 Wissenschaft Verlags­gesellschaft mbH, Heidelberg. Jegliche Nutzung ohne die Quellenangabe in der vorstehenden Form berechtigt
Verlagsleiter: Richard Zinken die Spektrum der Wissenschaft Verlagsgesellschaft mbH zum Schadensersatz gegen den oder die jeweiligen Nutzer. Wir haben
Geschäftsleitung: Markus Bossle, Thomas Bleck uns bemüht, sämtliche Rechteinhaber von Ab­bildungen zu ermitteln. Sollte dem Verlag gegenüber der Nachweis der Rechtsinhaber-
schaft geführt werden, wird das branchenübliche Honorar nachträglich gezahlt.

Erscheinungstermin: Spektrum der Wissenschaft 12/2011

40  SPEKTRUM DER WISSENSCHAFT · EXTRA


erweitern möchte, aber ihr Wert beruht nicht und die so entstehenden Produkte in vielen explosionsartig verbreitet und schützen mitt-
auf Optimierungen durch Einzelne, sondern Fällen besser sind als die in traditionellen, lerweile mehrere hundert Millionen digitaler
darauf, dass sehr viele Menschen sie benutzen. zentralisierten Umgebungen erzeugten. (Ein Objekte im Netz. Es zeigt sich, dass offene
Wie Isenberg anmerkt, bringt dies eine Reihe gutes Beispiel ist der Apache-Webserver, der ­Lizenzen bemerkenswerte Vorteile haben: Sie
von »Wundern« hervor: Das Netzwerk wächst seit 1996 der populärste Webserver im Inter- ermöglichen (bei vernachlässigbaren Trans­
ohne zentrale Kontrollinstanz, es lässt uns net ist.) aktionskosten) für digitale Objekte wie Musik
Dinge verbessern, ohne um Erlaubnis zu fra- Creative Commons hat diese Lektionen oder Fotografien – und für wissenschaftliche
gen, es erschließt und fördert neue Märkte auf die Lizenzierung angewendet und einen Information – denselben Grad gemeinschaft-
(denken Sie an E-Mail, Instant Messaging, so- Satz von Standardlizenzen für digitale Me­ licher Nutzbarkeit, den wir von technischen
ziale Netze – oder Pornografie). Versuche, die dienprodukte entwickelt. Diese haben sich Netzwerken kennen.
offene Struktur des Internets zu verändern,
würden es in seiner Existenz gefährden. Das
muss denjenigen unter uns, die in einer Welt
Urheberrechtsschutz für online publizierte Werke
der wirtschaftlichen Rivalitäten und der klas-
sischen ökonomischen Theorien aufgewach- Creative Commons bietet die Möglichkeit, geistiges Eigentum im Internet unter
sen sind, unbegreiflich erscheinen. Von ihrer verschieden strikten Lizenzbedingungen zu veröffentlichen.
Warte aus ist es widersinnig, dass Wikipedia

http://education-copyright.org/wp-content/uploads/2011/06/Creative-Commons-Infographic.png
existiert und noch dazu der Encyclopedia Bri-
tannica den Rang streitig macht.
Aber, mit Galilei gesprochen: »Sie bewegt
sich doch.« Wikipedia existiert, und das Netz –
eine einvernehmliche Halluzination, die auf
einer Sammlung technischer Standards be-
ruht – transportiert Skype-Video-­Anrufe zwi-
schen mir und meiner Familie in Brasilien –
und zwar umsonst. Es ist eine In­no­va­tions­
maschine wie keine je zuvor. Das Netz lehrt
uns, dass neue Netzwerkschichten für den
Umgang mit Daten die Idee der Offenheit be-
herzigen sollten – der Nutzung von Stan-
dards, die uns allen erlauben, frei zusammen-
zuarbeiten und die Segnungen des Netzes, die
wir von der riesigen Dokumentensammlung
des World Wide Web kennen, für die giganti-
schen Datensammlungen nutzbar zu machen,
die wir so leicht zusammentragen können. In diesem Lokal in Spanien ist nur Musik mit Creative-Commons-Lizenz aus dem Internet
Die zweite Lektion kommt aus einer an­ zu hören.
deren offenen Welt, derjenigen der Open-
Klaus Graf / CC-by-SA-2.5 (http://creativecommons.org/licenses/by-sa/2.5/deed.de)
Source-Software. Die Erstellung von Software
nach dem Modell verteilter kleiner Einzelbei-
träge, zusammengeführt durch technische
und rechtliche Standardisierung, war auch so
eine theoretische Unmöglichkeit, die durch
die Realität des Internets einen wahrhaft
kuhnschen Paradigmenwechsel erfuhr. Die
Möglichkeit der jederzeitigen Kommunika­
tion, verbunden mit günstigem Zugang zu
Programmierwerkzeugen, und die weitsich­
tige Anwendung öffentlicher Urheberrechts­
lizenzen hatten einen seltsamen Effekt: Sie
brachten Software hervor, die funktionierte
und mit der Zeit immer umfangreicher und
leistungsfähiger wurde. Die wichtige Erkennt-
nis ist, dass wir Millionen von Gehirnen an-
zapfen können, wenn wir standardisieren,

Datengetriebene Wissenschaft 41
bilden, weil die Werkzeuge billig und über-
all zugänglich sind – das trifft auf die Teil-
chenphysik oder Molekularbiologie nicht zu.
Einige der großartigen Dinge im Web eignen
sich nicht so gut für Wissenschaft und For-
schung, weil das Prinzip der auf Konsens
­basierenden Einschätzungen nur die lang­
weiligen Dinge zu Tage fördert, denen jeder
zustimmt, aber nicht das Abgelegene, das oft
viel interessanter ist.
Dennoch gibt es herzlich wenige Alterna-
tiven zum Netzwerkansatz. Die Datenflut ist
da, und sie ebbt nicht ab. Wir können mehr
und schneller messen als jemals zuvor. Und
Ich dachte, wir können Messungen in enormer Zahl
ich spüre einen Paradigmenwechsel, gleichzeitig nebeneinander durchführen. Un-
aber mir war nur die Unterhose hochgerutscht. sere Gehirnkapazität bleibt dagegen für alle
Zeit auf ein Gehirn pro Person beschränkt.
Wir müssen also zusammenarbeiten, wenn
wir Schritt halten wollen, und Netzwerke sind
Scheinbar fehlende Anreize sind bei all- Um ihn zu überwinden, müssen wir in die besten Kooperationswerkzeuge, die unsere
dem der Punkt, der klassischen ökonomi- Annotation und Qualitätssicherung investie- Kultur hervorgebracht hat. Das aber bedeu-
schen Theorien zuwiderläuft. Das ist ein an- ren, in Hardware zur Speicherung und Wie- tet, dass wir unseren Umgang mit Daten ge-
deres Beispiel für einen wahrhaft kuhnschen dergabe von Daten sowie in die Grundlagen nauso offen gestalten müssen wie die Proto-
Paradigmenwechsel – die alte Theorie konnte zu ihrer gemeinsamen Visualisierung und kolle, die Rechner und Dokumente miteinan-
keine Welt beschreiben, in der Menschen um- Analyse. Wir brauchen offene Standards, die der verbinden. Es ist der einzige Weg, auf dem
sonst arbeiten, doch die neue Realität zeigt, es erlauben, Daten allen zugänglich zu ma- wir die erforderliche Leistungsstufe erreichen
dass genau dies passiert. chen und im Verbund zu nutzen. Wir brau- können.  Ÿ
chen eine verbindliche Definition für die
Forscher als Knoten im Netzwerk ­Datenschicht. Und vor allem müssen wir der autor
Es gibt im Netz durchaus Widerstand gegen Wissenschaftler aus allen Gebieten darin un-
John Wilbanks ist
Science Commons / CC-by-3.0

eine datenintensive Schicht. Doch der beruht terweisen, auf dieser neuen Datenschicht zu Executive Director of
längst nicht im gleichen Maß auf Urheber- arbeiten. Solange unsere Ausbildungskultur Science Commons bei
der Organisation
rechtsbedenken, wie das bei Software der Fall von den Prinzipien der gildenartigen Mikro-
Creative Commons. Er
war (gleichwohl ist das Beharrungsvermögen spezialisierung geprägt ist, wird der Wissen- hat die Bioinformatik­
des Urheberrechts groß, wenn es um die An- schaftsbetrieb der Datenschicht weiter erheb- firma Intellico gegrün-
det, die semantische
passung der Fachgutachter-Kultur bei wissen- lichen Widerstand entgegensetzen.
Graphennetzwerke für die pharmazeu-
schaftlichen Veröffentlichungen geht, was die Wir sollten uns selbst als vernetzte Kno- tische Forschung entwickelt, und gehört
»Webrevolution« in der wissenschaftlichen ten sehen, die Daten weitergeben, Theorien dem Beirat der U. S. National Library of
­­Literatur de facto verhindert). Zwar existieren testen und die Simulationen anderer Wissen- Medicine’s PubMed Central an.

im Zusammenhang mit Daten Urheberrechts­ schaftler benutzen. Angesichts der Tatsache,


quellen
probleme, aber Widerstand kommt noch von dass jede Kurve zur Beschreibung der Kapazi-
vielen anderen Seiten: Es ist schwierig, Daten täten für das Sammeln von Daten exponen­ Bell, G. et al.: Beyond the Data Deluge. In:
mit Anmerkungen zu versehen und sie dann tiell ansteigt, müssen wir unsere eigenen Ka- Science 323, S. 1297 – 1298, 2009, doi:
10.1126/science.1170411
erneut zu benutzen, es ist schwierig, große pazitäten zur Nutzung dieser Daten entspre-
Kuhn, T. S.: The Structure of Scientific
Datenmengen zu übermitteln, es ist schwie- chend steigern – und das schnellstmöglich. Revolutions. University of Chicago Press,
rig, Daten miteinander zu kombinieren, die Wir müssen uns und unser Wissen vernetzen. Chicago 1996
nicht von vornherein dafür ausgelegt wurden, Nichts, was die Menschen bislang hervorge- Science Commons Protocol on Open Access
Data: http://sciencecommons.org/
und so weiter. Dadurch haben Daten für alle bracht haben, wächst so schnell wie offene projects/publishing/open-access-data-
außer denen, die sie erzeugen, eine sehr kurze Netze. protocol
Halbwertszeit. Dieser Widerstand hat seinen Wie alle Vergleiche hat natürlich auch die
Ursprung im Paradigma von uns selbst als in- Netz­metapher ihre Grenzen. Wissen ist Gekürzte Übersetzung des Kapitels »I Have
dividuellen Wissenschaftlern, nicht in den Pa- schwieriger zu vernetzen als Dokumente. Ein Seen the Paradigm Shift, and It Is Us« aus »The
Fourth Paradigm – Data-Intensive Scientific
radigmen der experimentellen Beobachtung, kooperativer Arbeitsstil kann sich bei der Soft- Discovery«. Herausgegeben von Tony Hey,
der Theoriebildung oder der Simulation. wareentwicklung leichter von selbst heraus­ Stuart Tensley und Kristin Tolle. Microsoft 2009

42  SPEKTRUM DER WISSENSCHAFT · EXTRA


Das Heidelberger Institut für
Theoretische Studien (HITS)
ist das Forschungsinstitut der
gemeinnützigen Klaus Tschira
Stiftung. Der methodische Schwer-
punkt liegt auf der Theorie- und
Modellbildung. Dabei spielen
rechnergestützte Simulationen
und Datenerschließung eine
zentrale Rolle. Derzeit arbeiten
rund achtzig Forscher aus
fünfzehn Ländern in den sechs
Arbeitsgruppen, darunter zahl-
reiche Doktoranden und junge
Gastwissenschaftler.
Think Beyond
the Limits!