Genießen Sie von Millionen von eBooks, Hörbüchern, Zeitschriften und mehr - mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testversion. Jederzeit kündbar.

Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung
Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung
Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung
eBook976 Seiten4 Stunden

Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Dieses Buch konzentriert sich auf die Anwendung von modernen Methoden der

Statistik zur Modellierung und Analyse von Prozessmodellen der Verfahrenstechnik.

Beispiele für moderne Methoden sind Matrixansätze, im Gegensatz zu

manuellen Berechnungen, sowie das Konzept orthogonaler Basen. Diese Ansätze

ermöglichen eine computergestützte Analyse von Versuchsplänen.

Zunächst werden die wichtigsten Aspekte und Methoden der Statistik und Prozessanalysevorgestellt. Auf dieser

Grundlage werden anschließend komplexere Methoden für die Anwendung

erarbeitet. Hierbei legen die Autoren großen Wert auf eine kurze, jedoch umfassende

und konsistente Darstellung.

Zur Erleichterung der Implementierung werden detaillierte Vorgehensweisen für

die relevanten Konzepte vorgestellt und anhand geeigneter Beispiele vorgestellt.

    

Die Beispiele sind so gewählt, dass sie mit vorhandenen Softwarewerkzeugen (Matlab, Excel) nachgebildet werden können. Für diesen Zweck werden Excel-Vorlagen und

MATLAB-Programme bereitgestellt. Ein ausführliches deutsch-englisches Glossar

ist ebenfalls enthalten.


SpracheDeutsch
HerausgeberSpringer Vieweg
Erscheinungsdatum5. Juli 2021
ISBN9783662616260
Methoden der Statistik und Prozessanalyse: Eine anwendungsorientierte Einführung
Vorschau lesen

Ähnlich wie Methoden der Statistik und Prozessanalyse

Ähnliche E-Books

Ähnliche Artikel

Verwandte Kategorien

Rezensionen für Methoden der Statistik und Prozessanalyse

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Methoden der Statistik und Prozessanalyse - Yuri Shardt

    © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2021

    Y. Shardt, H. WeißMethoden der Statistik und Prozessanalysehttps://doi.org/10.1007/978-3-662-61626-0_1

    1. Einführung in die Statistik und Datenvisualisierung

    Yuri A. W. Shardt¹   und Heiko Weiß²  

    (1)

    Technische Universität Ilmenau, Erfurt, Deutschland

    (2)

    Technische Universität Ilmenau, Hirschbach (Schleusingen), Deutschland

    Yuri A. W. Shardt (Korrespondenzautor)

    Email: yuri.shardt@tu-ilmenau.de

    Heiko Weiß

    Email: heiko_weiss_@gmx.de

    Εἰκὸς γὰρ γίνεσθαι πολλὰ καὶ παρὰ τὸ εἰκός.

    Es ist wahrscheinlich, dass etwas Unwahrscheinliches passiert.

    Aristoteles, Poetik, 1456a, 24

    1.1 Grundlagen der deskriptiven Statistik

    1.1.1 Lagemaße

    1.1.2 Streuungsmaße

    1.1.3 Andere statistische Größen

    1.2 Datenvisualisierung

    1.2.1 Balkendiagramme und Histogramme

    1.2.2 Kreisdiagramme

    1.2.3 Liniendiagramme

    1.2.4 Kastengrafiken

    1.2.5 Streudiagramme

    1.2.6 Wahrscheinlichkeitsdiagramme

    1.2.7 Tabellen

    1.2.8 Profildiagramme

    1.2.9 Andere Darstellungsformen

    1.3 Beispiel: Reibungsfaktor in Rohren

    1.3.1 Erläuterungen zu den Datensätzen

    1.3.2 Statistische Größen

    1.3.3 Datenvisualisierung

    1.3.4 Anmerkungen

    Weiterführende Literatur

    Elektronisches Zusatzmaterial

    Die elektronische Version dieses Kapitels enthält Zusatzmaterial, das berechtigten Benutzern zur Verfügung steht https://​doi.​org/​10.​1007/​978-3-662-61626-0_​1.

    Obwohl es üblicherweise den Anschein hat, dass mit Statistik versucht wird, Unsicherheiten und unwahrscheinliche Ereignisse auszudrücken und zu kategorisieren, handelt es sich tatsächlich um ein viel breiteres und allgemeineres Feld. Statistik ist die Wissenschaft des Sammelns, Analysierens, Interpretierens und Darstellens von Daten auf objektive Art und Weise. Basierend auf der Wahrscheinlichkeitsrechnung wurden die Anwendungsgebiete der Statistik erweitert, um Themen wie Kurvenanpassung, Spieltheorie und Vorhersagen zu berücksichtigen. Die Ergebnisse werden in vielen verschiedenen Bereichen genutzt. Dazu gehören Biologie, Marktforschung, Umfragen, Wirtschaft, Kryptografie, Chemie und Verfahrenstechnik.

    Grundlegende statistische Methoden können bis in die früheste Vergangenheit zurückverfolgt werden, wie etwa für einen Bauern das Sammeln von Informationen über das Vieh, die Menge, Qualität und Art des Getreides in den Getreidespeichern oder für damalige Astronomen die Analyse der Mondphasen. Mit diesen einfachen Datensätzen konnten Diagramme erstellt, statistische Werte berechnet, Muster erkannt und verwendet werden. Griechische Philosophen, wie Aristoteles (384–322 v. Chr.), referierten über die Bedeutung der Wahrscheinlichkeit und ihre unterschiedlichen Erscheinungen. In der Zwischenzeit entwickelten antike Astronomen wie Ptolemäus (ca. 90–168 n. Chr.) und Al-Biruni (973–1048) Methoden, um mit den zufälligen und systembedingten Fehlern ihrer astronomischen Messungen umzugehen. Zu Beginn des späten Mittelalters um 1300 wurden unvollständige Ansätze der Wahrscheinlichkeitsrechnung entwickelt und für die Erzeugung von Verschlüsselungscodes verwendet. Zu Beginn des 17. Jahrhunderts wurden, angetrieben durch ein allgemeines Interesse an Glücksspielen, die Grundlagen der Wahrscheinlichkeitsrechnung von Abraham de Moivre (1667–1754), Blaise Pascal (1623–1662) und Jacob Bernoulli (1655–1705) entwickelt. Diese Wissenschaftler versuchten, optimale Strategien für Glücksspiele zu lösen und zu bestimmen. Auch die entstehenden Nationalstaaten interessierten sich verstärkt für die Sammlung und Interpretation ökonomischer und demografischer Zusammenhänge. Tatsächlich leitet sich das Wort Statistik, das der deutsche Philosoph Gottfried Achenwall (1719–1772) 1749 erstmals verwendete, vom neolateinischen Begriff statisticum collegium ab, was so viel wie Staatsrat bedeutet. Es bezieht sich auf die Tatsache, dass schon damals die primäre Verwendung der gesammelten Informationen darin bestand, Einsicht über den Nationalstaat zu gewähren (Varberg 1963). Im frühen 19. Jahrhundert führten Arbeiten u. a. von Johann Carl Friedrich Gauß (1777–1855), Pierre-Simon Laplace (1749–1827) und Thomas Bayes (1701–1761) zur Entwicklung neuer theoretischer und praktischer Gedanken. Die Begründung der Wahrscheinlichkeitstheorie, insbesondere die Entwicklung der Gaußverteilung, ermöglichte viele praktische Einsatzmöglichkeiten, wie beispielsweise die Kurvenanpassung und lineare Regression. Nachfolgende Arbeiten von Forschern wie Andrej Kolmogoroff (1903–1987) und Andrej Markoff (1856–1922) verfestigten die theoretischen Grundlagen und entwickelten neue Methoden zum besseren Verständnis von Zufälligkeit und dessen Verhalten. Ausgehend von diesen Grundlagen entwickelten Karl Pearson (1857–1936) und Ronald Fisher (1890–1962) den Hypothesentest, die χ²-Verteilung, die Hauptkomponentenanalyse, die statistische Versuchsplanung, die Varianzanalyse und die Maximum-Likelihood-Methode, die bis heute angewendet werden. In der Folge wurden diese Ideen von George Box (1919–2013), Gwilym Jenkins (1932–1982) und Lenart Ljung (1946–) genutzt, um erweiterte stochastische Modelle für Anwendungszwecke in den Bereichen Wirtschaft, Biologie und Prozesskontrolle zu entwickeln. Mit der Entwicklung von Computern lassen sich viele der bisher entwickelten Methoden effizient und schnell umsetzen, um enorme Datenmengen zu analysieren. Darüber hinaus hat die zunehmende Verfügbarkeit von Computern dazu geführt, dass neue Methoden wie Monte-Carlo-Simulationen und Bootstrapping zum Einsatz kommen.

    Auch wenn die Statistik nach wie vor hauptsächlich in der Volkswirtschaftslehre und Demografie angewandt wird, hat sie ihren Anwendungsbereich auf nahezu alle menschlichen Tätigkeiten ausgedehnt. Einige der ersten modernen Anwendungen waren die Planung und Analyse von Versuchsreihen in der Landwirtschaft, um zu zeigen, welche Düngemittel und Bewässerungsmethoden trotz unkontrollierbarer Umweltunterschiede, wie z. B. Sonneneinstrahlung oder lokale Bodenverhältnisse, besser sind. Später wurden diese Methoden erweitert, um verschiedene genetische Experimente zu analysieren. Gegenwärtig können mithilfe leistungsfähiger Computer unerwartete statistische Zusammenhänge in einem Datensatz mit vielen Tausend Variablen verarbeitet und ans Licht gebracht werden. So ist es für Werbetreibende beispielsweise möglich, Veränderungen im Verbraucherverhalten auf der Grundlage ihrer Einkäufe über einen bestimmten Zeitraum genau vorherzusagen.

    Ein weiterer Bereich, in dem die Statistik in hohem Maße genutzt wird, ist die Verfahrenstechnik. Diese ist dadurch gekennzeichnet, dass große Datenmengen aus einem bestimmten (oft chemischen) Prozess erfasst und interpretiert werden, um eine sicherere, umweltfreundlichere und rentablere Anlage zu erhalten. Die Prozessindustrie nutzt ein breites Spektrum an statistischen Ansätzen, die von einfachen deskriptiven Methoden über lineare Regressionen bis hin zu komplexen Themen wie Systemidentifikation und Data-Mining reichen. Um die fortgeschrittenen Methoden zu nutzen, ist es notwendig, die Grundlagen der Statistik gründlich zu verstehen. Daher wird dieses Kapitel mit einigen grundlegenden Zusammenhängen in der statistischen Analyse von Datensätzen beginnen, verbunden mit einer gründlichen Erläuterung der verschiedenen Methoden zur Visualisierung bzw. Darstellung von Daten. Die darauffolgenden Kapitel werden theoretische und komplexe Ansätze behandeln, die immer wieder auf die hier vorgestellten Methoden zurückkommen werden. Schließlich soll als Randbemerkung erwähnt werden, dass der Schwerpunkt dieses Buches auf der Darstellung von Methoden liegt, die mit heutiger Computertechnik gelöst werden können. Aus diesen Gründen werden Matrizen und verallgemeinerte Lösungsansätze im Vordergrund stehen. Abgesehen von den letzten beiden Kapiteln, in denen MATLAB® und Excel® einbezogen werden, wird jedoch so gut wie kein Schwerpunkt auf eine bestimmte Software als Berechnungswerkzeug gelegt. Vielmehr sollen die theoretischen und Implementierungsaspekte eingehend untersucht werden

    1.1 Grundlagen der deskriptiven Statistik

    Der grundlegendste Schritt in der statistischen Analyse eines Datensatzes besteht darin, ihn aussagekräftig zu beschreiben, d. h. die mit dem Datensatz verknüpften Eigenschaften zu berechnen und darzustellen. Ein Datensatz besteht aus einer endlichen Anzahl von Datenwerten bzw. Datenpunkten. In diesem Buch wird ein Datensatz entweder mit einer Mengen-Notation {

    $$x_{1} ,x_{2} , \ldots ,x_{n}$$

    } oder einer Vektor-Notation

    $$\vec{x} = \left\langle {x_{1} ,x_{2} , \ldots ,x_{n} } \right\rangle$$

    beschrieben. Die Mengen-Notation ist nützlich zum Auflisten der Elemente eines Datensatzes, während die Vektor-Notation für die mathematische Manipulation sinnvoll ist. Die Größe des Datensatzes ist dabei gleich n. Zu den häufigsten verwendeten statistischen Größen gehören Lage- und Streuungsmaße.

    1.1.1 Lagemaße

    Lagemaße liefern Informationen über den zentralen oder typischen Wert eines Datensatzes. Zu den grundlegenden Lagemaßen gehören der Mittelwert, Modus und Median. Eine Zusammenfassung der grundlegenden Eigenschaften der Lagemaße ist in Tab. 1.1 enthalten.

    Tab. 1.1

    Zusammenfassung der Haupteigenschaften der Lagemaße

    Der Mittelwert ist ein Maß für den zentralen Wert einer Menge von Zahlen und wird üblicherweise mit einem Querstrich ( ../images/329633_1_De_1_Chapter/329633_1_De_1_Figa_HTML.png ) über einer Variablen gekennzeichnet. Zum Beispiel wird der Mittelwert von $$\vec{x}$$ als $$\bar{x}$$ geschrieben. Die übliche Mittelwertbildung besteht aus der Summe aller Werte dividiert durch die Gesamtzahl der Datenpunkte n:

    $$\bar{x} = \frac{{\sum\limits_{i = 1}^{n} {x_{i} } }}{n}.$$

    (1.1)

    Alternativ kann auch ein gewichteter Mittelwert berechnet werden, wobei jedem Wert ein Gewicht w zugeordnet wird:

    $$\bar{x} = \frac{{\sum\limits_{i = 1}^{n} {w_{i} x_{i} } }}{{\sum\limits_{i = 1}^{n} {w_{i} } }}.$$

    (1.2)

    Der gewichtete Mittelwert kann verwendet werden, wenn die Genauigkeit einiger Werte geringer ist als die anderer. Obwohl der Mittelwert ein häufig verwendetes Lagemaß ist, handelt es sich nicht unbedingt um eine robuste Größe. Das heißt, der Mittelwert kann aufgrund von wenigen Werten, die sich signifikant von den anderen unterscheiden, stark verzerrt sein. Wenn man z. B. den Datensatz von drei Zahlen {2; 3; 4} hat, deren Mittelwert $$\bar{x}$$  = 3 ist, und die 4 durch 10 ersetzt, wird der Mittelwert zu $$\bar{x}$$  = 5, der größer als die beiden anderen Zahlen ist.

    Der Modus stellt den häufigsten Wert in einem bestimmten Datensatz dar. Es kann mehrere Modi geben, wobei der Datensatz dann als multimodal¹ bezeichnet wird. Für den Datensatz {2; 4; 5; 5; 5; 6; 7; 10; 10; 10; 11} gibt es zwei Modi, und zwar 5 und 10, da beide genau dreimal vorkommen. Obwohl der Modus im Allgemeinen weniger empfindlich auf geringfügige Änderungen im Datensatz reagiert, ist es immer noch relativ einfach, die Ergebnisse zu verzerren, indem man zu viele identische Werte hinzufügt, um einen neuen modalen Wert zu erzeugen. Außerdem muss der häufigste Eintrag in keiner Weise die Eigenschaften des Datensatzes beschreiben. Dies kann insbesondere dann der Fall sein, wenn einer der Extremwerte etwas häufiger auftritt als die anderen Zahlen und somit zum Modalwert wird.

    Der Median stellt den mittleren Wert eines geordneten Datensatzes dar. Wenn die Anzahl der Datenpunkte ungerade ist, dann ist der mittlere Wert der Median. Andererseits, wenn die Anzahl der Datenpunkte gerade ist, dann wird der Median aus dem Mittelwert der beiden mittleren Werte berechnet. Es kann auch vorkommen, dass der Medianwert einem Wert aus dem Datensatz entspricht, was jedoch nicht immer der Fall sein muss. Für die als {2; 4; 5; 10; 14; 14; 16; 17} angegebene Menge ist der Median 12 (= 0,5(10 + 14)). Der Hauptvorteil des Medians besteht darin, dass er den mittleren Wert einer gegebenen Menge repräsentiert und robust gegenüber einzelnen Extremwerten ist.

    1.1.2 Streuungsmaße

    Streuungsmaße sollen Aufschluss darüber geben, wie die Werte in einem gegebenen Datensatz verteilt sind, d. h. ob die Werte konzentriert oder in einem großen Zahlenbereich liegen. Zu den grundlegenden Streuungsmaßen gehören Spannweite, Standardabweichung bzw. Varianz, Schiefe und Median der absoluten Abweichungen (MAD). Eine Zusammenfassung der grundlegenden Eigenschaften dieser Größen ist in Tab. 1.2 angegeben.

    Tab. 1.2

    Zusammenfassung der Haupteigenschaften der Streuungsmaße

    Die Spannweite eines Datensatzes ist definiert als die Differenz zwischen dem größten und kleinsten Wert eines Datensatzes. Es ist auch möglich, die Spannweite als die beiden Extremwerte des Datensatzes anzugeben. Die Spannweite bietet eine einfache, aber nicht sehr aussagekräftige Interpretation der Streuung der Werte. Denn je größer der Bereich, desto größer ist scheinbar die Streuung der Werte. Offensichtlich wird die Spannweite durch große Extremwerte stark beeinflusst, da sie direkt in die Berechnung eingehen.

    Die Standardabweichung σ und die Varianz σ² sind zwei zusammenhängende Größen, die sich auf die Streuung des Datensatzes beziehen. Die Varianz ist immer gleich dem Quadrat der Standardabweichung. Je größer die Standardabweichung, desto größer ist die Streuung des Datensatzes. Die Varianz kann wie folgt berechnet werden:

    $$\hat{\sigma }^{2} = \frac{{\sum\limits_{i = 1}^{n} {\left( {x_{i} - \bar{x}} \right)^{2} } }}{n - 1}.$$

    (1.3)

    Die Standardabweichung kann dann durch Ziehen der Quadratwurzel des mit Gl. (1.3) erhaltenen Wertes berechnet werden. Der Zirkumflex ( ../images/329633_1_De_1_Chapter/329633_1_De_1_Figb_HTML.png ) über einer Größe bedeutet, dass diese aus einem Datensatz geschätzt bzw. berechnet wird und nicht einem theoretischen Wert entstammt. Beispielsweise ist in der Gl. (1.3) $$\hat{\sigma }^{2}$$ der Schätzwert für die tatsächliche Varianz σ² des Datensatzes.

    Die Verwendung unterschiedlicher Datenpunkte kann zu einer gewissen Variation des berechneten Wertes führen. Es kann festgestellt werden, dass die Varianz empfindlich gegenüber Extremwerten ist. Gelegentlich wird die Varianz auch als Funktionsvariable var bezeichnet, z. B. var(x) als Varianz von x.

    Eine Methode zur Vermeidung der Empfindlichkeit der Standardabweichung gegenüber Extremwerten ist die Berechnung des Medians der absoluten Abweichung (MAD), welche als σMAD bezeichnet wird. Dabei wird der Mittelwert durch den robusten Median ersetzt, sodass sich folgende Berechnungsgleichung ergibt:

    $$\hat{\sigma }_{{\text{MAD}}} = {\text{median}}\left( {\left| {x_{i} - \bar{x}_{\text{median}} } \right|} \right),$$

    (1.4)

    wobei median die Funktion zur Bestimmung des Medians eines Datensatzes und $$\bar{x}$$ median der Medianwert des Datensatzes sind. Es ist möglich, $$\hat{\sigma }_{{\text{MAD}}}$$ in eine robuste Schätzung der Standardabweichung umzuwandeln. Für die Berechnung wird ein Umrechnungsfaktor benötigt, der jedoch die Kenntnis der zugrunde liegenden Verteilung voraussetzt. Für eine Normalverteilung lautet die robuste Schätzung der Standardabweichung wie folgt:

    $$\hat{\sigma } = 1{,}4826\hat{\sigma }_{{\text{MAD}}} .$$

    (1.5)

    Die Schiefe γ gibt die Asymmetrie einer Verteilung an. Die Schiefe wird durch die Gruppierung der Extremwerte des Datensatzes bestimmt. Wenn mehr Daten in der Nähe der kleinsten Werte liegen, dann ist die Verteilung rechtsschief. Wenn sich der Datensatz andererseits in Richtung der größten Werte bündelt, dann ist die Verteilung linksschief. Die Schiefe eines Datensatzes kann wie folgt berechnet werden:

    $$\hat{\gamma } = \frac{{\frac{1}{n}\sum\limits_{i = 1}^{n} {\left( {x_{i} - \bar{x}} \right)^{3} } }}{{\left( {\frac{1}{n}\sum\limits_{i = 1}^{n} {\left( {x_{i} - \bar{x}} \right)^{2} } } \right)^{1,5} }}.$$

    (1.6)

    Grafisch ist die Schiefe aus einem Histogramm ersichtlich, welches die Frequenz einer Größe in Abhängigkeit von dieser selbst darstellt. Beispiele für links- und rechtsschiefe Verteilungen sind in Abb. 1.1 dargestellt.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig1_HTML.png

    Abb. 1.1

    Rechtsschiefer (links) und linksschiefer (rechts) Datensatz

    1.1.3 Andere statistische Größen

    Neben den Lage- und Streuungsmaßen gibt es weitere Möglichkeiten, einen bestimmten Datensatz zu quantifizieren. In diesem Abschnitt werden zwei wichtige Größen kurz vorgestellt: Quantile und Ausreißer.

    1.1.3.1 Quantile

    Ein Quantil ist eine Möglichkeit, basierend auf einer geordneten Rangfolge, den Datensatz in Segmente zu unterteilen. Gewöhnliche Quantile sind der Median (zwei Segmente mit einer Trennung der Daten bei 50 %), Quartile (vier Segmente bei 25, 50 und 75 %), Quintile (fünf Segmente bei 20, 40, 60 und 80 %) und Perzentile (100 Segmente). Um eine sinnvolle Einteilung zu ermöglichen, sollten mindestens so viele verschiedene Datenpunkte vorhanden sein wie Segmente.

    Die Aufteilung eines Datensatzes in Quantile kann in folgenden Schritten durchgeführt werden:

    1.

    Ordnen des Datensatzes vom kleinsten bis zum größten Wert.

    2.

    Ermitteln eines Schätzwertes der Grenzen für jedes der Segmente mithilfe der folgenden Formel (Hyndman und Fan 1996):

    $$\begin{aligned} h &= \left( {n - 1} \right)p + 1, \\ Q_{p} &= x_{\left\lfloor h \right\rfloor } + \left( {h - \left\lfloor h \right\rfloor } \right)\left( {x_{\left\lfloor h \right\rfloor + 1} - x_{\left\lfloor h \right\rfloor } } \right), \\ \end{aligned}$$

    (1.7)

    wobei n die Anzahl der Datenpunkte ist, $$p=k/q $$ , k und q sind als k-tes q-til definiert, $$x_{i}$$ ist der i-te Wert des vorhandenen Datensatzes und $$\lfloor . \rfloor$$ die Abrundungsfunktion, die eine beliebige Zahl auf ihre nächste ganze Zahl abrundet. Wenn p = 1, dann ist beispielsweise $$Q_{p}=x_{n}$$ .

    Verschiedene Formulierungen für die Berechnung des Stichprobenquantils können durch Änderung der Gleichung für h erhalten werden:

    1.

    Exklusive Formulierung:h = (n + 1)p + 1 mit p und $$Q_{p}$$ , die auf die gleiche Weise wie zuvor berechnet werden.

    2.

    Formulierung der linearen Interpolation:h = np + 0,5 mit p und $$Q_{p}$$ , die auf die gleiche Weise wie zuvor berechnet werden.

    Die Unterschiede der berechneten Werte sind zumeist sehr gering. Ein Vergleich der zuvor genannten Methoden ist in Tab. 1.6 im Zusammenhang mit einem Beispiel dargestellt (siehe Abschn. 1.3.3).

    Es sei angemerkt, dass in allen Versionen von Excel® die in Gl. (1.7) definierte Methode verwendet wird (entweder als Funktion quartile oder quartile.inkl). Neuere Versionen von Excel® (2010 oder neuer) unterstützen auch die Variante der exklusiven Formulierung (als quartile.exkl). Alle Versionen von MATLAB® greifen auf die Variante der linearen Interpolation zurück.

    1.1.3.2 Ausreißer

    Ausreißer sind Datenpunkte, die sich scheinbar deutlich von den umgebenden Werten und dem erwarteten Verhalten unterscheiden. Ausreißer können durch viele verschiedene Faktoren verursacht werden. Dies betrifft z. B. Fehler bei der Dateneingabe und -erfassung oder durch systembedingte Zufälligkeiten. Immer wenn ein Datenwert als Ausreißer vermutet wird, ist es nützlich zu überprüfen, ob er korrekt erfasst und gespeichert worden ist. Die Beurteilung, ob es sich um einen Ausreißer handelt, ist letztlich subjektiv und beruht auf Erfahrung. Gemeinsame Regeln für die Bestimmung von Ausreißern sind u. a. (Lin et al. 2007):

    1.

    Visuelle Tests: Eine visuelle Überprüfung, um festzustellen, welche Werte sich weit entfernt von der Mehrheit der Daten befinden. Beispielsweise kann in der Menge {1; 2; 1; 1; 2; 2; 3; 0; 2; −10} −10 als Ausreißer betrachtet werden. Die Darstellung von Datenwerten mithilfe von Diagrammen bzw. Graphen kann sehr nützlich sein. Meist sind Abbildungen wie die Kastengrafik, Liniendiagramme und Punktdiagramme gut für die Bestimmung von Ausreißern geeignet.

    2.

    3σ-Regel: Datenpunkte, deren Z-Wert groß ist (>3), wobei der Z-Wert wie folgt angegeben wird:

    $$Z_{i} = \frac{{x_{i} - \bar{x}}}{\sigma }.$$

    (1.8)

    Dabei sind xi der interessierende Datenpunkt, Zi der entsprechende Z-Wert, $$\bar{x}$$ der Mittelwert und σ die Standardabweichung des Datensatzes. Dieser Ansatz funktioniert nur, wenn davon ausgegangen werden kann, dass der Datensatz normalverteilt ist. Er ist nicht sehr robust.

    3)

    Hampel-Test (Davies und Gather 1993): Mit dem Hampel-Test wird überprüft, ob Daten außerhalb des Bandes xmedian ± 3 $$\hat{\sigma }_{{\text{rob}}}$$ liegen, wobei $$\hat{\sigma }_{{\text{rob}}}$$ definiert ist als

    $$\hat{\sigma }_{{\text{rob}}} = 1{,}4826\,{\cdot}\,{\text{median}}\left( {\left| {x_{i} - x_{\text{median}} } \right|} \right).$$

    (1.9)

    und median die Funktion ist, die den Median des angegebenen Datensatzes ermittelt. Diese Gleichung stellt den Median der absoluten Abweichungen dar und ist eine robuste Methode zur Schätzung der Datenstreuung. Die Konstante ist so gewählt, dass $$\hat{\sigma }_{{\text{rob}}}$$ bei einer Normalverteilung σ entspricht. Das heißt, dass bei vorliegender Normalverteilung der Hampel-Test und die 3σ-Regeln die gleichen Ergebnisse liefern.

    1.2 Datenvisualisierung

    Die Datenvisualisierung ermöglicht, Informationen anschaulich darzustellen. Dabei geht es nicht nur darum, die relevanten Informationen korrekt, sondern auch optisch ansprechend zu visualisieren. Es gibt viele verschiedene Möglichkeiten zur Darstellung eines bestimmten Datensatzes, z. B. Grafiken und Tabellen. Jede Methode hat ihre Vor- und Nachteile. Im Allgemeinen können die folgenden Kriterien herangezogen werden, um festzustellen, welche Darstellungsform am besten geeignet ist:

    1.

    Informationsdichte: Wie viele Informationen sollen gezeigt werden? Gibt es nur wenige Aspekte, die es zu erfassen gilt oder gibt es mehrere Punkte, die zu berücksichtigen sind?

    2.

    Vergleich: Welchen Nutzen hat die Visualisierung der Werte? Welche Zusammenhänge zwischen den Daten sind hervorzuheben?

    3.

    Effektivität: Welche Methode verdeutlicht die gewünschten Zusammenhänge am besten? Wie gut werden die Informationen wiedergegeben? Sind die gewünschten Zusammenhänge deutlich erkennbar?

    4.

    Art der Darstellung: Welche Darstellungsform wird benötigt? Müssen verschiedene Farben verwendet werden? Wenn ja, wie viele? Müssen mehrere verschiedene Symbole verwendet werden? Wenn ja, welche? Können diese in der Abbildung leicht unterschieden werden? Was passiert, wenn die Abbildung in Schwarz-weiß gedruckt werden soll? Welche Art von Skala wird verwendet: linear oder logarithmisch?

    Unabhängig von der gewählten Methode ist es wichtig, dass die folgenden Informationen, soweit zutreffend, enthalten sind:

    1.

    Titel/Überschriften: Jede Abbildung oder Gruppe von Abbildungen sollte einen eindeutigen Titel oder eine Überschrift haben, die die Informationen in der Abbildung kurz erklärt.

    2.

    Beschriftungen: Geeignete Beschriftungen sollten hinzugefügt werden. Diese sollten gegebenenfalls die vollständige Bezeichnung des dargestellten Inhalts, Abkürzungen und Einheiten enthalten. Alle Achsen und Legendenüberschriften sind zu berücksichtigen. Eine akzeptable und sehr nützliche Vorgehensweise für die Achsbeschriftung ist die Verwendung der folgenden Form: „Vollständiger Name, Abkürzung (Einheiten)", z. B. „Temperatur, T (°C)". Eine Legende sollte hinzugefügt werden, wenn mehrere Informationen in ein und demselben Graphen dargestellt sind.

    3.

    Darstellungsform: Sind die verwendeten Symbole klar unterscheidbar? Zu bedenken ist, dass viele Abbildungen in Schwarz-Weiß-Publikationen verwendet werden. Das bedeutet, dass es schwierig werden kann, wenn unterschiedliche Farben verwendet werden, um verschiedene Merkmale zu zeigen. Außerdem sollten Datenpunkte nicht grundlos durch Linien verbunden werden. Das bedeutet, dass experimentelle Daten als Einzelpunkte und theoretische Größen mit einer einzigen durchgehenden Linie darzustellen sind.

    Gute Erläuterungen zur Datenvisualisierung sowie einige Gedanken und deren Umsetzung findet man in den Büchern von Edward Tufte (1997, 2001).

    1.2.1 Balkendiagramme und Histogramme

    Ein Balkendiagramm ist ein Diagramm mit vertikalen oder horizontalen Balken, dessen Länge proportional zu einem bestimmten Wert ist. Grundsätzlich werden Balkendiagramme verwendet, um diskrete Informationen darzustellen. Eine Achse enthält die Kategorie oder das diskrete Element, während auf der anderen Achse die Daten abgetragen werden. Typische Balkendiagramme sind in Abb. 1.2 dargestellt. Obwohl auch 3-D-Balkendiagramme möglich sind, bieten sie keinen Vorteil für eine genauere und effizientere Darstellung der Informationen.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig2_HTML.png

    Abb. 1.2

    Vertikales (links) und horizontales (rechts) Balkendiagramm

    Ein Histogramm zeigt, ähnlich einem Balkendiagramm, die Häufigkeit von Werten eines Datensatzes. Im Gegensatz dazu stellt ein Histogramm kontinuierliche Daten dar. Ein Histogramm wird erstellt, indem zunächst Klassen oder Zahlenbereiche angelegt werden. Als nächstes wird die Anzahl der Fälle, in denen ein Wert aus dem Datensatz in jedem der Bereiche liegt, ermittelt. Danach kann ein vertikales Balkendiagramm erzeugt werden, wobei die Klassen mit ihrer entsprechenden Häufigkeit dargestellt werden. Es soll angemerkt werden, dass die Klassen normalerweise so angeordnet werden, dass sie die gleiche Größe haben (mit Ausnahme der beiden Endpunkte) und stetig sind. Das bedeutet, dass sich zwei benachbarte Klassen den gleichen Endpunkt teilen. Beispielsweise können vier Klassen mit x < 3; 3 ≤ x < 5; 5 ≤ x < 7 und x ≥ 7 gegeben sein. Ein typisches Histogramm ist in Abb. 1.3 zu sehen. Nicht jede Software bietet Methoden zur direkten Erstellung eines Histogramms. In manchen Fällen ist es notwendig, die Daten manuell zu klassifizieren und anschließend das entsprechende Histogramm zu erstellen.

    ../images/329633_1_De_1_Chapter/329633_1_De_1_Fig3_HTML.png

    Abb. 1.3

    Typisches Histogramm

    1.2.2 Kreisdiagramme

    Ein Kreisdiagramm ist durch einen Kreis gekennzeichnet, der in verschiedene Stücke aufgeteilt wurde. Es wird auch als Tortendiagramm bezeichnet, da es wie eine zugeschnittene Torte aussieht. Kreisdiagramme können dazu eingesetzt werden, um die Beziehungen von Teilen im Verhältnis zum Ganzen darzustellen, z. B. die Komponenten eines Finanzbudgets. Zu viele verschiedene Elemente in einem Kreisdiagramm können jedoch zu Schwierigkeiten bei der effektiven Darstellung der Elemente führen, da die Anzahl der verfügbaren Farben und der Platz begrenzt sein kann. Außerdem benötigt ein Kreisdiagramm tendenziell mehr Platz als idealerweise für die Darstellung der Informationen benötigt wird. Ein typisches Kreisdiagramm ist in Abb. 1.4