Sie sind auf Seite 1von 4

Algorithmus. Wer könnte noch mehr verlangen?

Die Nachrichten waren voll von Diskussionen über die so genannten Algorithmen von Facebook und anderen
Software-Giganten. Ursprünglich hatte das Wort "Algorithmus" eine präzise Bedeutung, aber in jüngerer Zeit
wurde es verwendet, um unverdienten Respekt zu erregen - und vielleicht, um eine genauere Untersuchung zu
vermeiden.

Vor nicht allzu langer Zeit war das Wort "Algorithmus" noch ziemlich obskur. Laut einer Google-Suche war sein
Vorkommen (zumindest in Büchern) im Wesentlichen gleich null, bis es um den Zweiten Weltkrieg herum (dem
Beginn des Computerzeitalters) auftauchte.1 Eine kürzlich durchgeführte Google-Suche nach dem Wort ergab
fast 150 Millionen Treffer;2 eine Suche nach Nachrichten, die das Wort enthalten, ergab weit über 500.000
Treffer;3 und Amazon bot über 30.000 Bücher mit dem Wort im Titel an.4
Einige dieser Bücher legen nahe, dass wir statt Liebe nur Algorithmen brauchen, wie z.B. The Master
Algorithmus: How the Quest for the Ultimate Learning Machine will Remake Our World (Domingos 2015), The
Advent of the Algorithm: Die Idee, die die Welt regiert (Berlinski 2000), und Algorithmen zum Leben: Die
Informatik der menschlichen Entscheidungen (Christian und Griffiths 2016). Einige dieser Bücher legen nahe,
dass die Kombination von Algorithmen und großen Daten5 bedeutet, dass die Wissenschaft selbst - das gesamte
Unternehmen der Untersuchung und Entdeckung - überholt ist.
Es klingt, als seien Algorithmen ziemlich wichtig. Was genau ist also ein Algorithmus?
Jahrhundert verwendet wurde, bedeutete ein Algorithmus (der von derselben Wurzel wie das Wort Algebra
abgeleitet ist) eine Folge von Operationen, die garantiert die Antwort auf ein bestimmtes Problem liefern.
Natürlich waren Computer noch nicht erfunden worden, so dass die Operationen von Menschen durchgeführt
wurden, und die Probleme waren alle in reiner Mathematik.6 Die klassische Idee des Algorithmus verkörpert
einige einfache Vorstellungen:
- Es ist ein Satz von Regeln.
- Die Regeln geben eine Abfolge von Schritten vor, die mechanisch, ohne jede Beurteilung, ausgeführt werden
können.
- Die Abfolge der Regeln führt schließlich zu einem Ergebnis - oder stoppt, ohne ein Ergebnis zu produzieren. Mit
anderen Worten, sie geht niemals einfach immer weiter und weiter.
- Wenn sie eines findet, ist das Ergebnis nachweislich richtig.
Beispiele für frühe klassische Algorithmen sind der Algorithmus von Euklid, der den größten gemeinsamen Teiler
zweier ganzer Zahlen findet, das Sieb des Eratosthenes, das Primzahlen findet, und die binäre Suche, die ein
Element in einer sortierten Liste findet. Prosaischere Beispiele sind die Verfahren7 , die Sie in der Grundschule
gelernt haben, um zu rechnen - die Art und Weise, wie Sie addieren, subtrahieren, multiplizieren und dividieren
(wenn Sie sie noch selbst durchführen), sind allesamt Algorithmen.
Der ursprüngliche Begriff des Algorithmus impliziert das perfekte Wissen, dass die Zahlen, mit denen der
Algorithmus arbeiten soll, bekannt sind. Beim Traveling Sales Professional Problem8 wird beispielsweise
angenommen, dass die Karte fest und sicher ist, dass die Straßen nicht gesperrt werden, dass keine neuen
Straßen geöffnet werden, dass die Verkehrsbedingungen ignoriert werden können usw.
Früher wurde der Algorithmus der Heuristik gegenübergestellt. Eine Heuristik ist genau wie ein Algorithmus,
außer dass sein Ergebnis nicht bewiesen werden kann - und wahrscheinlich auch nicht ist. Die Idee einer
Heuristik impliziert, dass sie für praktische Zwecke gut genug ist, eine Faustregel. Eine gute Heuristik erzeugt ein
Ergebnis, das wahrscheinlich die meiste Zeit nahe am besten ist.
Es ist mehr als merkwürdig, dass Algorithmen der letzte Schrei sind, während Heuristiken die vergessenen
Geschwister sind - dieselbe Google News-Suche, die über eine halbe Million Ergebnisse für den Algorithmus
liefert, liefert nur etwas mehr als zehntausend für die Heuristik. (Algorithmus klingt sicherlich fünfzigmal besser
als Heuristik!) Aber keiner der Algorithmen, die in letzter Zeit in den Nachrichten zu sehen waren, ist es
tatsächlich - bestenfalls sind es Heuristiken, aber selbst das zu sagen, gibt ihnen zu viel Anerkennung. Denn
selbst die Heuristik gilt für ein Verfahren, dessen Ergebnisse objektiv bewertet werden können.
Viele der vermeintlichen Algorithmen sind in so genannten Empfehlungsmaschinen verkörpert - siehe You May
Also Like: Geschmack in einem Zeitalter endloser Wahlmöglichkeiten (Vanderbilt 2016) - von Amazon, Yelp,
Netflix, Pandora und so weiter. Obwohl es inzwischen sogar eine Informatikdisziplin namens
"Empfehlungstheorie" gibt, können Empfehlungen nur subjektiv - weit entfernt vom ursprünglichen Begriff des
Algorithmus - oder sogar heuristisch bewertet werden. Ob ein Programm die optimale Route für einen Raumflug
zum Mars richtig berechnet hat, ist keine Frage der Meinung oder der Umfrage.
Ob Algorithmus oder Heuristik, es soll ein kohärentes Regelwerk geben, das vermutlich von einem menschlichen
Wesen überprüft und verstanden werden kann. Weder Algorithmus noch Heuristik sollen ein Orakel sein, das
Ankündigungen macht, die verständnislos akzeptiert und befolgt werden sollen. Für die nachrichtenwürdigen
Algorithmen (diejenigen, die die Welt retten werden) ist dies reine Fiktion. Niemand kann wirklich genau sagen,
was die Regeln sind oder was sie genau tun sollen, nur, dass sie gute Arbeit leisten sollen.
Warum wird dann überhaupt das Wort "Algorithmus" verwendet und nicht die bekanntere (und weniger
prätentiöse) Phrase "Computerprogramm"? Schließlich sind alle vermeintlichen Algorithmen in
Computerprogrammen implementiert - niemand spricht davon, sie von Hand auszuführen. Und darin liegt die
beabsichtigte Unterscheidung: Das Computerprogramm implementiert lediglich den Algorithmus. Der
Algorithmus selbst ist die Idee, die ihm zugrunde liegt. Das wiederum impliziert, dass eine tatsächliche Idee
hinter dem Programm steht, und nicht der übliche Klotz hinter den eher gewöhnlichen Programmen.
In einigen Fällen kann dies tatsächlich wahr sein - oder zumindest einmal wahr gewesen sein. So wurde
beispielsweise die ursprüngliche Idee hinter dem Google-Webseiten-Ranking der Art und Weise entlehnt, in der
akademische Arbeiten vergleichsweise bewertet wurden.9
Ein nützlicher Weg, dies zu tun, besteht einfach darin, zu zählen, wie viele Zitate eine Arbeit erhält - je öfter eine
Arbeit von anderen Arbeiten in angesehenen Zeitschriften zitiert wird, desto wahrscheinlicher ist es, dass sie
Aufmerksamkeit verdient. Dieser Gedanke kann rekursiv angewandt werden, so dass jedes Zitat wiederum
danach gewichtet werden kann, wie oft das Papier selbst zitiert wird, und so weiter. Auf Seiten im Internet
angewandt, kann jede Seite eine Punktzahl erhalten, die darauf basiert, wie viele andere Seiten auf sie
verweisen. Und analog dazu kann der Wert jeder Seite, die einen Hyperlink zu einer Seite setzt, selbst auf die
gleiche Weise gemessen werden.

Wenn dies einmal verstanden und umgesetzt wurde, konnte es leider gespielt werden. Sogenannte Linkfarmen
wurden einzig und allein zu dem Zweck eingerichtet, Hunderte oder Tausende von Hyperlinks zu einer
bestimmten Webseite zu enthalten, um deren Ranking bei Google und den anderen Suchmaschinen zu
verbessern. Dies wiederum führte zu einem Wettrüsten zwischen den Suchmaschinen und den Praktikern der
dunklen Künste der Suchmaschinenoptimierung (SEO). Was auch immer die Integrität und Verständlichkeit des
Google-Pagerank-Algorithmus einst hatte, die Undurchsichtigkeit wurde eher zu einem Vorteil als zu einer
Verbindlichkeit - ein Merkmal, kein Bug.10
Es klingt, als seien Algorithmen ziemlich wichtig.
Was genau ist also ein Algorithmus?
Google soll den einen oder anderen Aspekt seines Suchmaschinen-Algorithmus hunderte Male im Jahr
ändern.11 Es handelt sich dabei eigentlich um eine sehr alte Technik, die man Versuch und Irrtum nennt. Ihnen
gefällt nicht, wie skrupellose SEO-Magier mit Ihnen spielen, um ihre Kunden in Ihren Ergebnissen zu verbessern?
Machen Sie irgendwo eine Änderung und probieren Sie es aus. Mögen Sie die Ergebnisse? Großartig! Nein?
Probieren Sie etwas anderes aus. Sechs Monate später, wenn die SEO-Assistenten einen neuen Trick gefunden
haben, um die Rangliste ihrer Kunden zu verbessern, probieren Sie eine andere Veränderung aus.
Abgesehen von Unternehmen und Websites, deren Einnahmen je nach ihrem Ranking in den Suchergebnissen
steigen und fallen, sind Änderungen an den Google-Algorithmen wahrscheinlich nicht so folgenreich. Aber einige
Algorithmen, die in weitaus folgenreicheren Situationen angewendet werden, wie z.B. bei der Einstellung, der
Kreditvergabe, der Wohnungssuche, der Auswahl der Geschworenen und der medizinischen Diagnose, haben
weniger triviale Ergebnisse (siehe Waffen der mathematischen Zerstörung: Wie große Daten die Ungleichheit
vergrößern und die Demokratie bedrohen [O'Neil 2016]). Der weltweite Börsencrash von 1987, bekannt als
Schwarzer Montag, ist die Ursache dafür wird - zumindest teilweise - im algorithmischen Handel gesehen.
Seither sind die Märkte nicht selten von einem so genannten Flash-Crash betroffen. Eine kürzlich erschienene
Schlagzeile lautet zum Beispiel: "Öl hat über Nacht einen Flash-Crash erlebt, der einen ohnehin schon
zerbrechlichen Markt auf den Kopf gestellt hat". Es ist bezeichnend, dass "die Händler erzwungene Margin-Calls
und den Computerhandel für den so genannten Flash-Crash verantwortlich machten, aber nicht ganz sicher
waren, was den Rückgang verursachte": Niemand weiß genau, was diese Algorithmen tun sollen oder was sie
tatsächlich tun.
In vielen Fällen ist das, was wir von einem Algorithmus verlangen, praktisch unmöglich. Zum Beispiel ist das
Auftreten von Terrorismus so selten (weniger als eine Person von einer Million begehen in den Vereinigten
Staaten pro Jahr einen Terrorakt12), dass es keine zuverlässigen Indikatoren gibt. Selbst wenn ein statistisch
zuverlässiges Muster
Je mehr Daten Sie dem Algorithmus zur Analyse geben, desto mehr zufällige, falsche Korrelationen findet er.
Und wenn Sie die Metrik, die tatsächlich kausal ist, noch nicht identifiziert und erfasst haben, hilft keine
Datenmenge.

Wenn ein Algorithmus gefunden wird, würde jeder Algorithmus überwältigend mehr falsch-positive als echte
Korrelationen finden. Nehmen wir zum Beispiel an, ein Algorithmus zur Identifizierung von Terrorismus wäre zu
99,99 Prozent genau - das heißt, er würde eine unschuldige Person fälschlicherweise nur als Terrorist
identifizieren.
0,01 Prozent der Zeit. Auf die allgemeine Bevölkerung der Vereinigten Staaten von etwa 330.000.000 Personen
angewandt, würde es etwa 33.000 Personen als Terroristen identifizieren. Wenn nur zehn dieser Personen
tatsächlich Terroristen wären, wäre ein solcher Algorithmus in 99,97 Prozent der Fälle immer noch falsch!
Die Art von Algorithmus, die Terroristen finden soll, ist von der Art, die als Mustererkennung oder
Mustervergleich bekannt ist. Die Idee ist, dass Sie einem tiefgreifenden Lernprogramm viele Beispiele dafür
zeigen, wonach Sie suchen (und nicht suchen). Es findet Muster, die es dann auf neue Fälle anwendet, indem es
nach Korrelationen zwischen Input und Output sucht. Was könnte möglicherweise schief gehen?
Paradoxerweise macht es die Dinge eher schlechter als besser, wenn man aus einer Menge von Daten lernen
kann ("große Daten"). Je mehr Daten Sie dem Algorithmus zur Analyse geben, desto mehr wird er zufällige,
falsche Korrelationen finden. Und wenn Sie nicht die Metrik identifiziert und gesammelt haben, die tatsächlich
kausal ist, hilft keine Datenmenge. (Aus diesem Grund ist die Vorstellung, dass Algorithmen die Wissenschaft
selbst umgehen, so fehlgeleitet - die Wissenschaft beinhaltet viel mehr als das Auffinden von Korrelationen in
vorhandenen Daten. Das grundlegende Ziel der Wissenschaft ist es, kausale Zusammenhänge zu finden - und
dazu gehört oft die Erfindung neuer Instrumente, Werkzeuge und Materialien, um neue Beobachtungen und
Messungen durchzuführen, die von neuen Einsichten und neuen Ideen geleitet werden).
In vielen Fällen ist das, was wir von dem Algorithmus erwarten, völlig unvernünftig. Nachdem beispielsweise
einige Leute die kürzlich von Facebook eingeführte Live-Funktion zum Streamen von Videos über schreckliche
Verbrechen, die gerade begangen werden, genutzt haben, dachte Facebook offenbar, sie könnten einen
Algorithmus entwickeln, der alle Streaming-Videos scannen und automatisch in Echtzeit bestimmen könnte, was
gezeigt wird. Vermutlich würde dies auch die Fähigkeit einschließen, z.B. zwischen einem tatsächlichen Mord
und einem Highschool-Stück, das einen solchen darstellt, zu unterscheiden.13 Es sollte niemanden überraschen
(außer vielleicht Mark Zuckerberg), dass diese Bemühungen nicht erfolgreich waren. Facebook hat dies
aufgegeben und 3.000 Menschen - echte Menschen! - eingestellt, um die Live-Feeds zu prüfen und ihr
Urteilsvermögen zu nutzen.
Wenn nicht Videos, wie sieht es dann mit Standbildern aus? Die Bildsuchfunktion von Google ist äußerst
beeindruckend - sie ist in allem, was man sich vorstellen kann, zu finden, und Hunderte oder Tausende von Fotos
und anderen Grafiken - die meisten, aber nicht alle, werden sofort zurückgegeben. Verfügt Google tatsächlich
über einen Algorithmus, der jedes Foto und jede Grafik im Web scannen und herausfinden kann, was darin
enthalten ist?
Nun, nein. Googles Bildsuchalgorithmus beruht auf zwei Methoden:
- Fast alle Fotos und anderen Bilder im Internet haben Dateinamen und anderen zugehörigen Text.
- Die Leute erhalten ein paar Pfennige pro Bild, um sie anzuschauen und Tags hinzuzufügen (durch Einrichtungen
wie Amazon's Mechanical Turk).
Mit anderen Worten, die Bildsuche ist eigentlich nur eine Textsuche, die Bilder zurückgibt. Wenn Sie eine
Bildsuche durchführen, indem Sie auf ein tatsächliches Foto zeigen oder es hochladen, sucht Google nach einer
Datei, die identische (oder sich überschneidende) Daten enthält.

Nur wenn es eine solche Übereinstimmung findet, kann es herausfinden, was das Foto tatsächlich darstellt,
indem es sich den zugehörigen Text ansieht. Dies alles ist sehr nützlich und bequem und beeindruckend, aber es
gibt keinen Zauberer (oder Algorithmus) hinter dem Vorhang. (Wenn es keinen findet, macht Google eine
extrem allgemeine Vermutung. Laden Sie zum Beispiel ein Foto eines hölzernen Webstuhls hoch, und Google
vermutet, dass es sich um ein Möbelstück handelt).
Vor dem Aufkommen des Internets und des sich ständig verändernden World Wide Web wurde in der Regel
verlangt, dass ein neues Computerprogramm umfassend (wenn auch nicht erschöpfend) getestet wird. In
einigen Fällen ist dies immer noch der Fall. Wenn Sie zum Beispiel jemals einen Fehler beim Ausfüllen eines
Online-Formulars gemacht haben, wissen Sie, dass Ihre Eingabe gegen das erwartete Format geprüft wird - eine
Telefonnummer besteht beispielsweise aus zehn Ziffern. Bevor dieses Formular in Betrieb genommen wurde,
hat die Qualitätssicherungsabteilung zweifellos jedes Feld getestet, um festzustellen, ob sie schlechte Eingaben
ordnungsgemäß zurückgewiesen und gute Eingaben ordnungsgemäß verarbeitet hat. Eine entscheidende
Messgröße für die Qualität eines Testaufwands ist die Abdeckung - der Anteil der Testfälle an allen möglichen
Eingaben (oder Arten von Eingaben), normalerweise ausgedrückt als Prozentsatz. (Wenn möglich, wird das
Testen automatisiert - für jeden Testfall werden der Input und der entsprechende Output spezifiziert).
Heutzutage, wenn man sagt, man hat eine Algorithmus sagt fast gar nichts aus.
Aber in vielen Fällen ist diese Art des umfassenden Testens nicht einmal denkbar. Zum Beispiel bestand die
Eingabe in frühe künstliche neuronale Netze (eine Art Mustererkennungsalgorithmus) typischerweise aus einem
binären Gitter von 8 mal 8 Zellen – in mit anderen Worten, ein Schachbrett, bei dem jedes Feld gefüllt (1) oder
leer (0) sein könnte. Selbst ein so einfaches Array hat 18.446.744.073.709.551.616 verschiedene
Eingabemöglichkeiten.14 Solche künstlichen neuronalen Netze wurden typischerweise mit einigen hundert
Trainingsfällen programmiert und dann mit einigen Hundert mehr getestet, bevor man sich an die Arbeit machte
und Aktien oder Rennpferde auswählte. Selbst mit tausend Trainingsfällen und weiteren tausend Testfällen liegt
die Abdeckung in der Größenordnung von 0,00000000000000000001 Prozent.

Moderne Bildverarbeitungsprogramme verarbeiten Dateien, die astronomisch groß sind. Eine moderne
Digitalkamera nimmt Fotos mit Millionen von Pixeln auf, von denen jedes eine Million oder mehr mögliche
Werte aufnehmen kann. Die Anzahl der möglichen Eingaben ist wesentlich größer als die Anzahl der
Quantenteilchen im Universum. Ihr Bildbearbeitungsprogramm wird fast immer erstaunlich gut funktionieren,
aber eines Tages kann es plötzlich zu einem Blitzabsturz kommen.
Heutzutage bedeutet die Aussage, dass Sie einen Algorithmus haben, fast gar nichts mehr zu sagen. Außerhalb
des engen Feldes abstrakter Probleme der reinen Mathematik angewandt, impliziert das Wort Algorithmus eine
Reinheit, eine Integrität, eine Korrektheit, die einfach unerreichbar in der realen Welt. -•