Grundlagen der Statistik

2.1 Deskriptive Statistik


Die deskriptive Statistik ist ein grundlegender Bereich der Statistik, der sich mit der Beschreibung und Zusammenfassung von Datensätzen befasst. Sie zielt darauf ab, aus Rohdaten sinnvolle Informationen zu extrahieren und diese verständlich darzustellen. Deskriptive Statistik verwendet verschiedene Maßzahlen und grafische Darstellungen, um die Hauptmerkmale eines Datensatzes zu beschreiben. Die wichtigsten Aspekte der deskriptiven Statistik umfassen:

Darstellung von Daten:

  • Scatter Plot (Punktwolke):
    • Ein Scatter Plot wird verwendet, um die Verteilung von Datenpunkten in einem zweidimensionalen Koordinatensystem darzustellen.
    • Es ist nützlich, um Beziehungen oder Muster zwischen zwei Variablen zu visualisieren, beispielsweise zur Identifizierung von Korrelationen.
    • Er ist nützlich um Grenzwerte oder Eingriffsgrenzen mit zu deklarieren bei einer doppelten Hypothesentestung.
  • Histogramm:
    • Ein Histogramm zeigt die Verteilung einer einzelnen numerischen Variablen durch die Darstellung von Daten in Balken oder Säulen.
    • Es hilft bei der Identifizierung von Häufigkeitsverteilungen, wie Normalverteilungen oder schiefen Verteilungen.
  • Boxplot (Box-Whisker-Plot):
    • Ein Boxplot zeigt die Verteilung einer Variablen in einem kompakten Diagramm und enthält Informationen über Quartile, Ausreißer und Median.
    • Es hilft bei der Identifizierung von Ausreißern und der Beurteilung von Datenstreuung und Zentralität.
  • Heatmap:
    • Eine Heatmap ist eine grafische Darstellung von Daten in Form einer Matrix, bei der Farben verwendet werden, um Werte in einer Tabelle hervorzuheben.
    • Es wird oft verwendet, um Korrelationen zwischen Variablen in großen Datensätzen visuell darzustellen.
    • Wird häufig zum Vergleichen von Regionen zu visualisieren.
  • Confusion Matrix (Verwirrungsmatrix):
    • Eine Confusion Matrix wird in der Klassifikation verwendet, um die Leistung eines Modells bei der Vorhersage von Kategorien zu bewerten.
    • Sie zeigt die Anzahl der korrekten und falschen Vorhersagen, einschließlich True Positives, True Negatives, False Positives und False Negatives.
  • ROC-Kurve (Receiver Operating Characteristic):
    • Die ROC-Kurve wird zur Bewertung der Leistung von Klassifikationsmodellen verwendet.
    • Sie stellt die Abhängigkeit zwischen der True Positive Rate (TPR) und der False Positive Rate (FPR) in verschiedenen Schwellenwerten dar.
  • Pareto-Diagramm:
    • Ein Pareto-Diagramm ist eine Kombination aus einem Balkendiagramm und einer Linie und wird verwendet, um die relative Bedeutung von Kategorien in absteigender Reihenfolge darzustellen.
    • Es hilft bei der Priorisierung von Ursachen oder Problemen nach ihrer signifikanten Auswirkung.
  • Sankey-Diagramm:
    • Ein Sankey-Diagramm visualisiert den Fluss von Ressourcen oder Daten zwischen verschiedenen Kategorien oder Entitäten.
    • Es ist nützlich, um komplexe Systeme und Prozesse zu verstehen und zu optimieren.
    • Es findet häufig Anwendung um Inkonsistenzen in Flüssen und Daten zu finden.

Diese Darstellungsformen sind wichtige Werkzeuge in der Data Science, um Daten zu visualisieren, Muster zu erkennen und Modelle zu evaluieren. Je nach Aufgabe und Daten können auch andere Visualisierungen und Darstellungsformen relevant sein.

Standardisierungen:

In der Datenanalyse und im maschinellen Lernen spielen Standardisierungsmethoden eine entscheidende Rolle bei der Vorbereitung von Daten für die Modellierung und Analyse. Diese Methoden zielen darauf ab, die Skalierung und Verteilung von Daten so zu transformieren, dass sie für bestimmte Anwendungen besser geeignet sind. Dies ermöglicht eine einheitliche Vergleichbarkeit und verbessert die Leistung von Modellen. In diesem Zusammenhang sind verschiedene Standardisierungsmethoden verfügbar, die je nach den Eigenschaften der Daten und den spezifischen Anforderungen der Analyse ausgewählt werden können. Im Folgenden werden einige gängige Standardisierungstechniken vorgestellt, die bei der Datenvorbereitung und -analyse verwendet werden, um Daten in eine geeignete Form zu bringen.

1. Z-Transformation (Standardisierung):

  • Beschreibung: Die Z-Transformation, auch bekannt als Standardisierung, ist eine häufig verwendete Methode, um Daten auf einen Mittelwert von null und eine Standardabweichung von eins zu standardisieren.

2. Min-Max-Skalierung (Normalisierung):

  • Beschreibung: Die Min-Max-Skalierung transformiert Daten in einen festgelegten Bereich, normalerweise zwischen 0 und 1.

3. Robuste Skalierung:

  • Beschreibung: Robuste Skalierung verwendet den Interquartilbereich (IQR), um Daten zu standardisieren, wodurch sie weniger anfällig für Ausreißer werden.

4. Log-Transformation:

  • Beschreibung: Log-Transformation wird verwendet, um Daten zu transformieren, die stark schief verteilt sind, um sie näher an einer Normalverteilung auszurichten.

5. Skalierung auf Einheitsvektor (Einheitsvektor-Normalisierung):

  • Beschreibung: Diese Methode wird oft in der Textanalyse und im maschinellen Lernen angewendet, um Vektoren auf die Länge eins zu skalieren.

6. Max-Absolutwert-Skalierung:

  • Beschreibung: Diese Methode skaliert Daten auf den größten absoluten Wert.

7. Quantil-Transformation:

  • Beschreibung: Quantil-Transformation transformiert Daten so, dass sie einer bestimmten Verteilung folgen, z.B. einer Normalverteilung.
  • Es gibt verschiedene Arten von Quantil-Transformationen, darunter die Rank-basierte und die Normalverteilungs-Transformation.

Die Wahl der Standardisierungsmethode hängt von den spezifischen Anforderungen und den Eigenschaften der Daten ab. Es ist wichtig, die Methode sorgfältig auszuwählen, um sicherzustellen, dass die Daten für die geplante Analyse oder Modellierung angemessen vorbereitet sind.

Maßzahlen der zentralen Tendenz:

  • Mittelwert (Durchschnitt): Die Summe aller Werte geteilt durch die Anzahl der Werte. Der Mittelwert gibt einen zentralen Wert des Datensatzes an.
  • Median: Der mittlere Wert in einem geordneten Datensatz. Der Median teilt den Datensatz in zwei Hälften und ist weniger anfällig für Ausreißer als der Mittelwert.
  • Modus: Der am häufigsten vorkommende Wert in einem Datensatz. Bei Datensätzen mit mehreren Modi spricht man von einer multimodalen Verteilung.

Streumaße:

  • Varianz: Misst, wie stark die Datenpunkte im Durchschnitt vom Mittelwert abweichen. Die Varianz ist das Quadrat der Standardabweichung.
  • Standardabweichung: Die Wurzel aus der Varianz. Sie gibt an, wie stark die Werte um den Mittelwert streuen.
  • Spannweite (Range): Die Differenz zwischen dem höchsten und dem niedrigsten Wert im Datensatz.

Verteilungsformen:

  • Schiefe: Ein Maß dafür, wie asymmetrisch die Verteilung der Daten ist. Eine Verteilung kann rechtsschief, linksschief oder symmetrisch sein.
  • Kurtosis: Beschreibt, wie spitz oder flach die Verteilung im Vergleich zu einer Normalverteilung ist.

Quartile und Perzentile:

  • Quartile: Teilen die Daten in vier gleich große Teile. Das wichtigste Quartil ist der Median (2. Quartil) aber auch die anderen finden z,B, bei Verteilungsanalysen eine gute Anwendung. Sie sind Praktisch, da sie die Anzahl und nicht nur die Höhe des Messwertes mit berücksichtigen.
  • Perzentile: Ähnlich wie Quartile, teilen sie die Daten in hundert gleiche Teile. Sie sind nützlich, um die Position eines Wertes im Verhältnis zum gesamten Datensatz zu bestimmen.

Umgang mit Ausreißern:

  • Erkennung und Analyse von Ausreißern, da diese die Ergebnisse der deskriptiven Statistik erheblich verzerren können. Jedoch ist in dieser Bereich mit großer Vorsicht zu genießen, da eine Entfernung von Messpunkten ein Verschiebung der Modelle Verursachen kann.
  • Bei echten und relevanten Ausreißern ist es wichtig, ihre Ursache zu verstehen und sie nicht einfach zu eliminieren.

Die deskriptive Statistik bietet einen ersten Einblick in die Daten und ist oft der Ausgangspunkt für weiterführende statistische Analysen. Sie hilft dabei, komplexe Datenmengen auf einfache, verständliche Weise zu beschreiben und ist ein wesentliches Werkzeug in vielen wissenschaftlichen und geschäftlichen Anwendungen.

2.2 Inferenzstatistik

Inferenzstatistik, auch schließende oder induktive Statistik genannt, ist ein Bereich der Statistik, der es ermöglicht, von einer Stichprobe auf die zugrunde liegende Gesamtheit (Population) zu schließen. Im Gegensatz zur deskriptiven Statistik, die Daten beschreibt und zusammenfasst, verwendet die Inferenzstatistik Methoden, um Hypothesen zu testen, Beziehungen zu untersuchen und Vorhersagen zu treffen. Hier sind die Hauptkonzepte und Techniken der Inferenzstatistik:

Stichproben und Population:

  • Stichprobe: Eine kleinere, aber repräsentative Gruppe von Daten, die aus einer größeren Population ausgewählt wird.
  • Population: Die Gesamtheit aller möglichen Individuen, Ereignisse oder Messungen, die für eine bestimmte Fragestellung von Interesse sind.

Schätzung:

  • Punktschätzung: Einzelner Wert, der als Schätzung für einen unbekannten Parameter der Population dient (z.B. Mittelwert der Stichprobe als Schätzung des Populationsmittelwerts).
  • Intervallschätzung: Ein Bereich von Werten, der mit einer gewissen Wahrscheinlichkeit den wahren Wert des Populationsparameters enthält (z.B. Konfidenzintervalle).

Hypothesentests:

  • Nullhypothese (H0): Eine Hypothese, die normalerweise einen Zustand der Nichtveränderung oder keinen Effekt Postuliert. Sie kann häufig auch andersherum verwendet werden in der Modellierung indem die entgegengesetzte Hypothese verwendet wird.
  • Alternativhypothese (H1): Die Hypothese, die geprüft wird, und die eine Veränderung, einen Effekt oder einen Unterschied darstellt. Sie wird in Einseitige-, Zweiseitige- und Richtungsunabhängige- alternativhypothese eingeteilt.
  • Fehlerarten: Typ I-Fehler (fälschliche Ablehnung der Nullhypothese) und Typ II-Fehler (fälschliches Nichtablehnen der Nullhypothese). kann je nach Fragestellung unterschiedlich sein. Bei Lebensnotwendigen Systemen wird er zur Fehlerminimierung verwendet bei der Schätzung von Kundenverhalten eher zur Gewinnoptimierung.

Tests in der Datenmodellierung:

  • Genauigkeit (Accuracy):
    • Die Genauigkeit misst das Verhältnis der korrekten Vorhersagen (True Positives und True Negatives) zur Gesamtanzahl der Vorhersagen.
    • Genauigkeit = (TP + TN) / (TP + TN + FP + FN)
  • Präzision (Precision):
    • Die Präzision misst das Verhältnis der korrekten positiven Vorhersagen zur Gesamtanzahl der positiven Vorhersagen.
    • Präzision = TP / (TP + FP)
  • Rückruf (Recall):
    • Der Rückruf misst das Verhältnis der korrekten positiven Vorhersagen zur Gesamtanzahl der tatsächlich positiven Instanzen.
    • Rückruf = TP / (TP + FN)
  • True-Negative-Rate (TNR):
    • TNR misst das Verhältnis der korrekten negativen Vorhersagen zur Gesamtanzahl der tatsächlich negativen Instanzen.
    • TNR = TN / (TN + FP)
  • Falsch-Positiv-Rate (FPR):
    • FPR misst das Verhältnis der falsch positiven Vorhersagen zur Gesamtanzahl der tatsächlich negativen Instanzen.
    • FPR = FP / (TN + FP)
  • Falsch-Negativ-Rate (FNR):
    • FNR misst das Verhältnis der falsch negativen Vorhersagen zur Gesamtanzahl der tatsächlich positiven Instanzen.
    • FNR = FN / (TP + FN)
  • Area Under the Receiver Operating Characteristic Curve (AUC-ROC):
    • Die AUC-ROC ist eine Metrik, die die gesamte Leistung eines Modells anhand seiner Fähigkeit zur Unterscheidung zwischen den Klassen (positiv und negativ) bewertet.
    • Ein höherer AUC-ROC-Wert zeigt an, dass das Modell bessere Trennfähigkeiten aufweist.
  • Area Under the Precision-Recall Curve (AUC-PR):
    • Die AUC-PR ist eine Metrik, die die gesamte Präzisions-Rückruf-Leistung eines Modells bewertet und insbesondere bei unbalancierten Klassen nützlich ist.
    • Ein höherer AUC-PR-Wert zeigt eine bessere Fähigkeit des Modells zur Identifizierung der positiven Klasse.

Signifikanztests und p-Wert:

  • p-Wert: Misst die Wahrscheinlichkeit, die beobachteten Daten (oder extremere) zu erhalten, wenn die Nullhypothese wahr ist. Ein niedriger p-Wert deutet darauf hin, dass die Nullhypothese unwahrscheinlich ist.
  • Signifikanzniveau: Eine vorab festgelegte Schwelle (üblicherweise 0,05), unterhalb derer die Nullhypothese abgelehnt wird.

Regression:

Die Regression ist eine statistische Methode, die verwendet wird, um die Beziehung zwischen einer abhängigen (Ziel-)Variable und einer oder mehreren unabhängigen (erklärenden) Variablen zu untersuchen. Hier sind die wichtigsten Punkte zur Regression:

  • Ziel der Regression:
    • Das Hauptziel der Regression besteht darin, den Zusammenhang zwischen den Variablen zu modellieren und Vorhersagen für die abhängige Variable zu treffen.
  • Lineare Regression:
    • Die lineare Regression ist eine häufig verwendete Methode, um eine lineare Beziehung zwischen den Variablen zu modellieren. Sie verwendet eine lineare Gleichung, um Vorhersagen zu treffen.
  • Multiple Regression:
    • Die multiple Regression erweitert die lineare Regression auf mehrere unabhängige Variablen, um komplexe Zusammenhänge zu modellieren.
  • Koeffizienten und Anpassung:
    • In der Regression werden Koeffizienten geschätzt, die die Stärke und Richtung des Zusammenhangs zwischen den Variablen angeben.
    • Die Qualität der Anpassung des Modells wird oft anhand von Maßen wie dem Bestimmtheitsmaß (R^2) bewertet.
  • Anwendungen:
    • Regression wird in vielen Bereichen wie Wirtschaft, Sozialwissenschaften, Gesundheitswesen und Ingenieurwissenschaften verwendet, um Beziehungen zu untersuchen und Vorhersagen zu treffen.

Korrelationsanalyse:

Die Korrelationsanalyse ist eine statistische Methode, die verwendet wird, um den Grad und die Richtung der Beziehung zwischen zwei oder mehr Variablen zu bewerten. Hier sind die wichtigsten Punkte zur Korrelationsanalyse:

  • Korrelationskoeffizient:
    • Der Korrelationskoeffizient (z.B. Pearson-Korrelationskoeffizient) ist eine Metrik, die die Stärke und Richtung der linearen Beziehung zwischen zwei Variablen quantifiziert.
    • Er variiert zwischen -1 (perfekte negative Korrelation) und +1 (perfekte positive Korrelation), wobei 0 keine Korrelation darstellt.
  • Korrelationsmatrix:
    • In einer Korrelationsmatrix werden die Korrelationskoeffizienten zwischen allen Kombinationen von Variablen dargestellt.
    • Sie ermöglicht es, mehrere Beziehungen gleichzeitig zu analysieren.
  • Nicht-lineare Korrelation:
    • Die Korrelationsanalyse ist speziell auf lineare Beziehungen ausgerichtet und erfasst keine nicht-linearen Beziehungen zwischen den Variablen.
  • Anwendungen:
    • Korrelationsanalysen werden in verschiedenen Bereichen wie Finanzwesen, Medizin, Biologie und Sozialwissenschaften verwendet, um Beziehungen und Muster zwischen Variablen zu identifizieren.

Zusammengefasst dient die Regression dazu, Beziehungen zwischen Variablen zu modellieren und Vorhersagen zu treffen, während die Korrelationsanalyse dazu verwendet wird, den Grad und die Richtung der Beziehung zwischen Variablen zu bewerten, insbesondere in Bezug auf lineare Zusammenhänge. Beide Methoden sind wertvolle Werkzeuge in der statistischen Analyse und Dateninterpretation.

Varianzanalyse (ANOVA):

ANOVA ist eine statistische Methode, die verwendet wird, um Unterschiede zwischen den Mittelwerten von mehr als zwei Gruppen oder Bedingungen zu analysieren. Es zielt darauf ab, festzustellen, ob es signifikante Unterschiede zwischen den Gruppen gibt, indem es die Variation in den Daten in verschiedene Komponenten aufteilt. Hier sind die wichtigsten Punkte zur ANOVA:

  • Hauptziel:
    • Das Hauptziel der ANOVA besteht darin, festzustellen, ob es signifikante Unterschiede zwischen den Gruppen gibt, die auf eine unabhängige Variable zurückzuführen sind.
  • Gruppen und Bedingungen:
    • ANOVA wird verwendet, wenn Sie Daten aus mehreren Gruppen oder Bedingungen haben, die Sie vergleichen möchten. Diese Gruppen werden als Faktoren bezeichnet.
  • Annahmen:
    • ANOVA basiert auf bestimmten Annahmen, darunter die Annahme von normalverteilten Daten und Homogenität der Varianzen. Es ist wichtig sicherzustellen, dass diese Annahmen erfüllt sind, bevor Sie ANOVA durchführen.
  • F-Vergleich:
    • In ANOVA wird ein F-Vergleich verwendet, um festzustellen, ob die Variation zwischen den Gruppen signifikant größer ist als die Variation innerhalb der Gruppen.
  • Signifikanzniveau:
    • Sie legen ein Signifikanzniveau (oft als Alpha bezeichnet) fest, um zu entscheiden, ob die Unterschiede zwischen den Gruppen statistisch signifikant sind. Ein übliches Signifikanzniveau ist 0,05 (5%).
  • Arten von ANOVA:
    • Es gibt verschiedene Arten von ANOVA, darunter:
      • Einfaktorielle ANOVA: Vergleicht Mittelwerte zwischen zwei oder mehr Gruppen für eine unabhängige Variable.
      • Zweifaktorielle ANOVA: Berücksichtigt zwei unabhängige Variablen und deren Interaktion.
      • Mehrfaktorielle ANOVA: Berücksichtigt mehr als zwei unabhängige Variablen und deren Interaktionen.
  • Post-hoc-Tests:
    • Wenn ANOVA einen signifikanten Unterschied zwischen den Gruppen feststellt, können Post-hoc-Tests durchgeführt werden, um herauszufinden, welche Gruppen sich genau voneinander unterscheiden.
  • Interpretation:
    • Die Interpretation von ANOVA beinhaltet die Überprüfung der F-Wert-Statistik und die Feststellung, ob die Unterschiede zwischen den Gruppen signifikant sind. Falls ja, wird festgestellt, welche Gruppen sich unterscheiden.

ANOVA ist ein leistungsstarkes Werkzeug zur Untersuchung von Unterschieden zwischen mehreren Gruppen und wird in vielen wissenschaftlichen Disziplinen, darunter Psychologie, Biologie, Wirtschaft und Sozialwissenschaften, eingesetzt, um Hypothesen zu testen und Forschungsfragen zu beantworten.

  1. Nichtparametrische Methoden:
  1. Verwendet, wenn die Daten nicht den Annahmen parametrischer Tests entsprechen, wie z.B. bei nicht-normalverteilten Daten.

Inferenzstatistik ist ein mächtiges Werkzeug, das es ermöglicht, auf der Grundlage von Stichproben Informationen über größere Populationen zu gewinnen. Sie bildet die Basis für viele Entscheidungen in Wissenschaft, Technik, Medizin, Wirtschaft und anderen Feldern, indem sie statistisch fundierte Schlussfolgerungen ermöglicht.

SIMCA (Soft Independent Modeling of Class Analogy) – Zusammenfassung:

SIMCA ist eine multivariate statistische Methode und ein Modellierungstool, das in der Chemie, der Lebensmittelindustrie, der Medizin und anderen Bereichen der Datenanalyse und Qualitätskontrolle eingesetzt wird. Es wurde entwickelt, um komplexe Daten aus verschiedenen Klassen oder Gruppen zu analysieren und Muster oder Abweichungen zwischen diesen Klassen zu erkennen. Hier sind die wichtigsten Punkte zur SIMCA:

  • Klassenbasierte Modellierung:
    • SIMCA basiert auf einer klassenbasierten Modellierungstechnik, bei der Daten in verschiedene Klassen oder Gruppen aufgeteilt werden. Diese Klassen können beispielsweise verschiedene Produktchargen oder Qualitätsstufen repräsentieren.
  • Mehrklassenanalyse:
    • SIMCA ermöglicht die Analyse von mehreren Klassen oder Gruppen gleichzeitig. Dies bedeutet, dass Sie mehrere Modelle erstellen können, um Muster und Unterschiede zwischen den Klassen zu identifizieren.
  • Explorative Datenanalyse:
    • SIMCA wird oft für explorative Datenanalysen eingesetzt, um Muster, Trends oder Anomalien in den Daten zu erkennen. Es kann verwendet werden, um herauszufinden, wie sich verschiedene Klassen voneinander unterscheiden.
  • Hauptkomponentenanalyse (PCA):
    • Eine zentrale Komponente von SIMCA ist die Hauptkomponentenanalyse (PCA), die dazu verwendet wird, die Dimensionalität der Daten zu reduzieren und wichtige Variablen oder Eigenschaften zu identifizieren, die die Klassen am besten unterscheiden.
  • Klassenmodelle:
    • SIMCA erstellt für jede Klasse ein separates Modell, das die charakteristischen Muster und Variationen dieser Klasse darstellt. Diese Modelle dienen zur Klassifizierung neuer Datenpunkte in die entsprechenden Klassen.
  • Kontroll- und Qualitätsprüfung:
    • SIMCA wird häufig in der Qualitätskontrolle eingesetzt, um sicherzustellen, dass Produkte oder Prozesse den gewünschten Standards entsprechen. Es kann auch zur Überwachung von Abweichungen und zur frühzeitigen Erkennung von Qualitätsproblemen verwendet werden.
  • Visualisierung und Interpretation:
    • SIMCA ermöglicht die Visualisierung von Klassentrennungen und Abweichungen in multivariaten Daten durch Scatterplots und andere grafische Darstellungen. Dies erleichtert die Interpretation der Ergebnisse.
  • Kontextabhängige Anwendung:
    • SIMCA kann in verschiedenen Anwendungsbereichen eingesetzt werden, in denen Klassenbildung und Mustererkennung wichtig sind, wie z.B. in der Prozesskontrolle, der Produktsicherheit, der chemischen Analyse und der Qualitätssicherung.

SIMCA ist ein leistungsstarkes Werkzeug für die Analyse und das Verständnis von komplexen multivariaten Daten und wird häufig in Situationen angewendet, in denen es wichtig ist, Muster zwischen verschiedenen Klassen oder Gruppen von Daten zu identifizieren und zu interpretieren.

2.3 Wahrscheinlichkeitsrechnung

In der Wahrscheinlichkeitsrechnung, einem zentralen Aspekt der Data Science, werden mathematische Methoden verwendet, um die Wahrscheinlichkeit des Eintretens verschiedener Ereignisse zu analysieren und zu berechnen. Die Wahrscheinlichkeitsrechnung ist die Grundlage für viele Methoden in der Statistik und im maschinellen Lernen. Hier sind einige wichtige Konzepte und Anwendungen der Wahrscheinlichkeitsrechnung in der Data Science:

  1. Grundlegende Wahrscheinlichkeitskonzepte:
    • Zufallsexperimente: Experimente oder Prozesse, bei denen das Ergebnis nicht vorhersehbar ist.
    • Ereignisse: Bestimmte Ausgänge eines Zufallsexperiments.
    • Wahrscheinlichkeit: Ein Maß dafür, wie wahrscheinlich ein Ereignis ist, ausgedrückt als Zahl zwischen 0 (unmögliches Ereignis) und 1 (sicheres Ereignis).
  2. Bedingte Wahrscheinlichkeit und Unabhängigkeit:
    • Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis bereits eingetreten ist.
    • Unabhängige Ereignisse: Zwei Ereignisse sind unabhängig, wenn das Eintreten des einen Ereignisses die Wahrscheinlichkeit des anderen nicht beeinflusst.
  3. Wahrscheinlichkeitsverteilungen:
    • Diskrete Verteilungen: Wie die Binomialverteilung und die Poisson-Verteilung, die in Situationen mit einer endlichen Anzahl von Ergebnissen verwendet werden.
    • Stetige Verteilungen: Wie die Normalverteilung, die Exponentialverteilung und die Uniformverteilung, die bei einer unendlichen Anzahl von möglichen Ergebnissen Anwendung finden.
  4. Bayes’sches Theorem:
    • Eine Methode, um die Wahrscheinlichkeit eines Ereignisses basierend auf Vorwissen oder vorherigen Beobachtungen zu aktualisieren. Dies ist besonders nützlich in der Datenanalyse und im maschinellen Lernen.
  5. Zufallsvariablen und Erwartungswerte:
    • Zufallsvariable: Eine Variable, deren Wert vom Ergebnis eines Zufallsexperiments abhängt.
    • Erwartungswert: Der Durchschnittswert einer Zufallsvariable über viele Durchgänge des Experiments.
  6. Gesetz der großen Zahlen und Zentraler Grenzwertsatz:
    • Gesetz der großen Zahlen: Besagt, dass sich die durchschnittlichen Ergebnisse eines Zufallsexperiments der erwarteten Wahrscheinlichkeit annähern, wenn das Experiment viele Male wiederholt wird.
    • Zentraler Grenzwertsatz: Eine fundamentale Theorie, die besagt, dass die Verteilung der Summe einer großen Anzahl von unabhängigen, identisch verteilten Variablen annähernd normalverteilt ist, unabhängig von der Form der ursprünglichen Verteilung.
  7. Anwendungen in Data Science:
    • Wahrscheinlichkeitsrechnung wird in vielen Bereichen der Data Science verwendet, einschließlich der Entwicklung von Algorithmen für maschinelles Lernen, bei der Datenanalyse, in der Vorhersagemodellierung und bei der Entscheidungsfindung unter Unsicherheit.

Die Wahrscheinlichkeitsrechnung ermöglicht es Data Scientists, Muster und Beziehungen in Daten zu verstehen und zu modellieren, Unsicherheiten zu quantifizieren und fundierte Vorhersagen und Entscheidungen zu treffen.

2.4 Hypothesentests


Hypothesentests sind ein zentrales Verfahren in der Inferenzstatistik, das in der Data Science angewendet wird, um auf der Basis von Stichprobendaten Schlussfolgerungen über Populationen zu ziehen. Ziel eines Hypothesentests ist es, aufgrund der in einer Stichprobe gefundenen Daten eine Entscheidung über die Gültigkeit einer Annahme (Hypothese) bezüglich der gesamten Population zu treffen. Hier sind die Schlüsselkonzepte und Schritte bei der Durchführung eines Hypothesentests:

  1. Aufstellung der Hypothesen:
    • Nullhypothese (H0): Eine Hypothese, die normalerweise einen Zustand der Nichtveränderung oder keinen Effekt behauptet. Sie wird als wahr angenommen, bis Beweise das Gegenteil zeigen.
    • Alternativhypothese (H1 oder Ha): Die Hypothese, die getestet wird und die eine Veränderung, einen Effekt oder einen Unterschied darstellt.
  2. Wahl des Signifikanzniveaus (α):
    • Das Signifikanzniveau, oft auf 0,05 (5%) festgelegt, ist die Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen (die Nullhypothese fälschlicherweise abzulehnen).
  3. Daten sammeln und Teststatistik berechnen:
    • Sammeln von Stichprobendaten und Berechnen einer Teststatistik, die abhängig von der Art des Tests und der Datenverteilung ist (z.B. t-Statistik, z-Statistik).
  4. Bestimmen des Ablehnungsbereichs:
    • Basierend auf dem gewählten Signifikanzniveau und der Teststatistik wird der kritische Wert oder der Ablehnungsbereich bestimmt. Liegt die Teststatistik innerhalb dieses Bereichs, wird die Nullhypothese abgelehnt.
  5. Entscheidung und Interpretation:
    • Vergleich der Teststatistik mit dem kritischen Wert: Liegt die Teststatistik im Ablehnungsbereich, wird die Nullhypothese abgelehnt, andernfalls wird sie nicht abgelehnt.
    • Interpretation des Ergebnisses im Kontext der Studie.
  6. Typen von Fehlern:
    • Typ-I-Fehler: Die Nullhypothese wird fälschlicherweise abgelehnt, obwohl sie wahr ist.
    • Typ-II-Fehler: Die Nullhypothese wird fälschlicherweise nicht abgelehnt, obwohl die Alternativhypothese wahr ist.
  7. Leistungsfähigkeit des Tests (Power):
    • Die Wahrscheinlichkeit, eine korrekte Entscheidung zu treffen, wenn die Alternativhypothese wahr ist. Ein mächtiger Test reduziert das Risiko eines Typ-II-Fehlers.
  8. Anwendungsbereiche:
    • Hypothesentests werden in einer Vielzahl von Bereichen angewendet, um zu beurteilen, ob ein beobachteter Effekt statistisch signifikant ist, z.B. in der medizinischen Forschung, im Marketing, in der Qualitätskontrolle und in der Umfrageforschung.

Hypothesentests sind ein wesentliches Werkzeug für Data Scientists und Statistiker, um evidenzbasierte Schlussfolgerungen über Daten zu ziehen und zu entscheiden, ob ein beobachtetes Muster oder ein Effekt auf Zufall beruht oder eine reale Grundlage hat.