Varianzanalyse (ANOVA)

Beschreibung

Die Varianzanalyse, oder ANOVA (engl. analysis of variance), beschreibt eine Gruppe von datenanalytischen und strukturprüfenden Verfahren mit einer Vielzahl unterschiedlicher Anwendungsmöglichkeiten. Ihre Gemeinsamkeit liegt in der Berechnung von Varianzen und Prüfgrößen. Diese ist auf die Ermittlung der Gesetzmäßigkeiten, welche sich hinter den Daten verbergen, ausgerichtet.

Die Varianz einer oder mehrerer Zielvariable(n) wird durch den Einfluss einer oder mehrerer Einflussvariablen (Faktoren) erklärt. In ihrer einfachsten Form stellt die Varianzanalyse eine Alternative zum t-Test dar, die Vergleiche zwischen mehr als zwei Gruppen ermöglicht.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Unterscheidung

In Abhängigkeit der Anzahl der Zielvariablen werden zwei Formen der Varianzanalyse unterschieden:

  • Univariate Varianzanalyse (ANOVA)
  • Multivariate Varianzanalyse (multivariate analysis of variance; MANOVA)

Zudem unterscheidet man zwischen einfaktorieller (einfacher) und mehrfaktorieller (mehrfacher) Varianzanalyse, abhängig davon, ob ein oder mehrere Faktoren vorliegen.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Begriffe

Zielvariable

Die Zielvariable (abhängige Variable) ist eine metrische Zufallsvariable, deren Wert durch die kategorialen Variablen erklärt werden soll. Die abhängige Variable enthält Messwerte.

Intervall- und Verhältnisskala werden zur sogenannten Kardinalskala zusammengefasst. Merkmale auf dieser Skala werden dann als metrisch bezeichnet. Nominal- oder ordinalskalierte Merkmale hingegen werden auch als kategorial bezeichnet.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Einflussvariable

Die Einflussvariable (Faktor bzw. unabhängige Variable) ist eine kategoriale Variable (Faktor), die von den Gruppen vorgegeben wird und deren Einfluss untersucht werden soll. Die Kategorien eines Faktors werden als Faktorstufen bezeichnet.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Grundidee

Die Verfahren der Varianzanalyse untersuchen, ob (und unter Umständen wie) sich die Erwartungswerte der metrischen Zufallsvariablen in verschiedenen Gruppen/Klassen unterscheiden. Anhand der Prüfgrößen wird anschließend getestet, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. Dies gibt Aufschluss über die Sinnhaftigkeit der Gruppeneinteilung und beurteilt, ob sich die Gruppen signifikant unterscheiden oder nicht.

Falls sich Gruppen signifikant unterscheiden sollten, wird in der Regel angenommen, dass in den Gruppen unterschiedliche Gesetzmäßigkeiten wirken. Ist beispielsweise die Varianz der ersten Gruppe bereits auf Ursachen (Varianzquellen) zurückgeführt, so ist bei Varianzgleichheit davon auszugehen, dass in der anderen Gruppe keine neue Wirkungsursache hinzukam.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Bedeutung

In der Wissenschaft spielt die Varianzanalyse eine wesentliche Rolle, da sie als wissenschaftlich fundierte Form der Ursachenbeschreibung angesehen werden kann; das Alltagsdenken wird in konsequenter Form fortgesetzt. Eine große Anzahl multivariater Verfahren setzt das Alltagsdenken nicht fort, da sie auf künstlich entwickelten Modellaufnahmen basieren.

Anwendungsbeispiele für die Varianzanalyse wären beispielsweise die Untersuchung der Wirksamkeit von Medikamenten oder den Einfluss von Düngemitteln auf den Ertrag von landwirtschaftlichen Anbauflächen.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Voraussetzungen

Die Anwendung der Varianzanalyse ist an Voraussetzungen gebunden, die vor jeder Berechnung geprüft werden müssen. Die Ergebnisse sind unbrauchbar, falls die Datensätze die geforderten Voraussetzungen nicht erfüllen. Die Voraussetzungen unterscheiden sich je nach Anwendung, allgemein jedoch gelten folgende:

  • Varianzhomogenität der Stichprobenvariablen
  • Normalverteilung der Stichprobenvariablen

Üblicherweise erfolgt die Überprüfung mit anderen Tests außerhalb der Varianzanalyse. Falls die geforderten Voraussetzungen nicht erfüllt werden können, sollte man auf verteilungsfreie, nicht-parametrische Verfahren zurückgreifen.

  • Für zwei Stichproben (t-Test-Alternativen):
    • Gepaarte Stichproben: Wilcoxon-Vorzeichen-Rang-Test
    • Unabhängige Stichproben: Mann-Whitney-U-Test
  • Für drei oder mehr Stichproben:
    • Gepaarte Daten: Friedman-Test, Quade-Test
    • Ungepaarte Daten: Kruskal-Wallis-Test, Jonckheere-Terpstra-Test, Umbrella-Test
    • Zur mehrfaktoriellen Analyse: Scheirer-Ray-Hare-Test[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Einfaktorielle ANOVA

Einleitung

Bei der einfaktoriellen Varianzanalyse wird der Einfluss einer unabhängigen Variable (Faktor) mit k verschiedenen Stufen (Gruppen) auf die möglichen Ausprägungen einer Zufallsvariable untersucht. Es werden die Mittelwerte der Ausprägungen (in der Anzahl k) für die Gruppen verglichen. Genauer gesagt: die Varianz zwischen den Gruppen wird mit der Varianz innerhalb der Gruppen verglichen. Die einfaktorielle ANOVA ist ebenfalls die Verallgemeinerung des t-Tests im Falle von mehr als 2 Gruppen und ist für k=2 äquivalent mit dem t-Test.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Ziele:

Voraussetzungen

Die Fehlerkomponenten müssen normalverteilt sein, denn sie bezeichnen die jeweiligen Varianzen (Gesamt-, Treatment- und Fehlervarianz). Demzufolge müssen die Messwerte der jeweiligen Grundgesamtheit normalverteilt sein. Zudem müssen die Fehlervarianzen zwischen den Gruppen (den k Faktorstufen) gleich bzw. homogen, sowie die Messwerte/Faktorstufen voneinander unabhängig sein.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Hypothesen

Es sei μi der Erwartungswert der abhängigen Variable in der i. Gruppe. Die Nullhypothese einer einfaktoriellen Varianzanalyse lautet somit:

H0: μ1 = μ2 = ... = μk

Die Alternativhypothese lautet:

HA: ∃i,j: μi ≠ μj

Die Nullhypothese sagt aus, dass zwischen den Erwartungswerten der einzelnen Gruppen kein Unterschied besteht; die Alternativhypothese hingegen besagt, dass zwischen mindestens zwei Erwartungswerten ein Unterschied besteht.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Vorgehensweise

1. Festlegen der Zielgröße (Y) und des Einflussfaktors (X), sowie der Faktorstufen (X1, X2, …, Xn)

Als Faktoren werden die unabhängigen Variablen bezeichnet. Ihre einzelnen Ausprägungen sind als Faktorstufen bekannt. Die Anzahl der Faktoren bestimmt die Einteilung der beiden Typen der Varianzanalyse:

  • Ein Faktor: Einfaktorielle Varianzanalyse
  • Zwei Faktoren: Zweifaktorielle Varianzanalyse

2. Aufstellen des Modells

  • Xij: Zielvariable; annahmegemäß in den Gruppen normalverteilt
  • k: Anzahl der Faktorstufen des betrachteten Faktors
  • ni: Stichprobenumfänge für die einzelnen Faktorstufen
  • μ: arithmetisches Mittel der Erwartungswerte in den Gruppen
  • αi: Effekt der i-ten Faktorstufe
  • εij: Störvariablen, unabhängig und normalverteilt mit Erwartungswert 0 und gleicher (unbekannter) Varianz σ2

3. Berechnungen durchführen

Basis für die Varianzanalyse ist die Varianzzerlegung:
Gesamtvariation = erklärte Variation + nicht erklärte Variation

Falls die erklärte Streuung (zwischen den Faktorstufen) signifikant größer ist als die nicht erklärte Streuung (innerhalb der Faktorstufen), so geht man davon aus, dass dieser Faktor einen signifikanten Einfluss auf die Zielgröße (auf das Ergebnis) hat.[^ Meran, Renata, John, Alexander, Staudter, Christian u.a.: Six Sigma+Lean Toolset: Mindset zur erfolgreichen Umsetzung von Verbesserungsprojekten. Berlin Heidelberg. 2012, S. 217 ^]

Analysieren der Ergebnisse

  • Überprüfung der Signifikanz der Faktoren
    • Die Wirkung und Interaktion der Faktorstufen kann unter der Verwendung der Haupteffekte und Wechselwirkungsdiagramme visualisiert werden
    • Überprüfung der statistischen Signifikanz und Analyse der p-Werte
  • Überprüfung des Anteils der erklärten Variation
    • Wie viel der Variation innerhalb der Daten kann durch das Modell erklärt werden?
    • Erklärte Variation wird zur Gesamtvariation ins Verhältnis gesetzt
    • Das Bestimmtheitsmaß (R²) kann alle Werte zwischen 0% und 100% annehmen; je größer R², desto größer der Anteil an der Gesamtvariation, der sich durch das Modell erklären lässt; sollten Werte unter 80% liegen, so benötigt man für eine bessere Erklärung der Variation weitere Faktoren
  • Überprüfung der Fehlerterme (Residuen)
  • Überprüfung folgender Voraussetzungen

Zweifaktorielle ANOVA

Einleitung

Im Gegensatz zur einfaktoriellen Varianzanalyse berücksichtigt die zweifaktorielle Varianzanalyse zwei Faktoren (Faktor A und Faktor B) zur Erklärung der Zielvariablen.[^ http://de.wikipedia.org/wiki/Varianzanalyse (26.4.2012) ^]

Ziele:

Hypothesen

Vorgehensweise

1. Festlegen der Zielgröße (Y) und des Einflussfaktors (X), sowie der Faktorstufen (X1, X2, …, Xn)

Als Faktoren werden die unabhängigen Variablen bezeichnet. Ihre einzelnen Ausprägungen sind als Faktorstufen bekannt. Die Anzahl der Faktoren bestimmt die Einteilung der beiden Typen der Varianzanalyse:

  • Ein Faktor: Einfaktorielle Varianzanalyse
  • Zwei Faktoren: Zweifaktorielle Varianzanalyse

2. Aufstellen des Modells

  • Xijk: Zielvariable; annahmegemäß in den Gruppen normalverteilt
  • I: Anzahl der Faktorstufen des ersten Faktors (A)
  • J: Anzahl der Faktorstufen des zweiten Faktors (B)
  • K: Anzahl der Beobachtungen pro Faktorstufe (hier für alle Kombinationen von Faktorstufen gleich)
  • αi: Effekt der i-ten Faktorstufe des Faktors A
  • βj: Effekt der j-ten Faktorstufe des Faktors B
  • (αβ)ij: Interaktion (Wechselwirkung) der Faktoren auf der Faktorstufenkombination (i,j).

3. Durchführen der Berechnungen

Zunächst wird die Berechnung der Varianzen für die einzelnen Faktoren sowie die Varianz für die Wechselwirkung von A und B berechnet.[^ Meran, Renata, John, Alexander, Staudter, Christian u.a.: Six Sigma+Lean Toolset: Mindset zur erfolgreichen Umsetzung von Verbesserungsprojekten. Berlin Heidelberg. 2012, S. 221-222 ^]

Analysieren der Ergebnisse

Wenn die Prüfgröße F größer ist als das Quantil, ablesbar in einschlägigen Tabellen, so wird H0 verworfen. Dies bedeutet, dass eine Wechselwirkung zwischen den Faktoren A und B besteht.[^ Meran, Renata, John, Alexander, Staudter, Christian u.a.: Six Sigma+Lean Toolset: Mindset zur erfolgreichen Umsetzung von Verbesserungsprojekten. Berlin Heidelberg. 2012, S. 224 ^]

Vor- und Nachteile

Vorteile der einfaktoriellen Varianzanalyse

Nachteile der einfaktoriellen Varianzanalyse

Vorteile der zweifaktoriellen Varianzanalyse