Regressionsanalyse

Unter Regressionsanalyse wird eine Anzahl von statistischen Analyseverfahren verstanden. Es ist eine Methode der empirischen Forschung, die untersucht die lineare Abhängigkeit zwischen einer metrisch skalierten abhängigen Variablen und einer oder mehreren metrisch skalierten unabhängigen Variablen. Sie wendet die Methode der kleinsten Quadrate an und wird insbesondere eingesetzt um:

  • Zusammenhänge zwischen abhängigen und einer oder mehreren unabhängige Variablen zu erkennen und zu erklären
  • Werte der abhängigen Variablen zu schätzen bzw. zu prognostizieren

Geschichte

Der Begriff „Regression“ 1885 (früher: Reversion, 1877) kommt von dem britischen Wissenschaftler Francis Galton, der dieses Wort zum ersten Mal verwendet hat. Damit bezeichnete er den, in einer 1886 veröffentlichen Studie, Zusammenhang zwischen der Körperlänge von erwachsenen Kindern und deren Eltern.
Der dabei resultierende Effekt (Regression), mit nur einer biologischen Bedeutung für Galton, wurde von Udny Yule und Karl Pearson in einem statistischen Kontext verallgemeinert. Sie gingen davon aus, dass es sich bei der gesamten Verteilung der abhängigen und der unabhängigen Variablen, um eine normale Verteilung handelte.
R.A. Fisher begrenzte später diese Annahme. Er voraussetzt, dass die bedingte Verteilung der abhängigen Variable normalverteilt ist, und die gemeinsame Verteilung jedoch nicht unbedingt. [^http://de.wikipedia.org/wiki/Regressionsanalyse#Geschichte (Stand 29.05.12)^]
Es ist in zwei Typen von Regressionsanalyse zu unterscheiden: die lineare Regressionsanalyse und die nicht-lineare Regressionsanalyse.

Lineare Regressionsanalyse

Sie befasst sich mit der einfachen und der multiplen Regressionsanalyse

Grundprinzipien

  • Man kennt den Ausprägungsgrad einer Variable und möchte den Ausprägungsgrad einer anderen bestimmen
  • Die vorherzusagende Variable (z.B. X) ist die abhängige Variable (Kriterium)
  • Die zur Vorhersage dienende Variable (z.B. Y) ist die unabhängige Variable (Prädiktor)
  • Es soll für die optimale Beschreibung des Zusammenhangs zwischen X und Y eine lineare Funktion gefunden werden

Diese Grundprinzipien gelten nur für die einfache lineare Regressionsanalyse. Als Ergänzung für die multiple Regressionsanalyse müssen:

  • die Ausprägungsgrade mehrerer Variablen bekannt sein
  • Prädikatoren vorhanden sein
  • eine Korrelation zwischen der Variablen X und Y existieren

Vorgehensweise

Sowohl bei der linearen Regressionsanalyse als auch multiplen Regressionsanalyse wird i.d.R. in einer bestimmten, der Methode entsprechenden Schrittfolge vorgegangen:

  • Zunächst geht es darum die sachlichen zugrunde liegenden Ursache-Wirkungs-Modelle zu bestimmen. D.h. den Wert definieren, den Sie messen wollen sowie den Wert, den Sie mit der Messung vorhersagen wollen.
  • Im Anschluss daran wird die Regressionsfunktion geschätzt. D.h. im Koordinaten-System werden die Werte der unabhängigen Variablen auf der X-Achse abgelesen und verwendet um die Werte der abhängigen Variablen zu bestimmen. Diese braucht man für die Erstellung der Gleichung der Regressionsanalyse.
  • In einem dritten Schritt wird schließlich die Regressionsfunktion im Hinblick auf den Beitrag zur Erreichung des Untersuchungsziels geprüft.

Einfache lineare Regressionsanalyse

Die einfache lineare Regressionsanalyse ermöglicht eine Darstellung der grundlegenden Prinzipien der Regressionsanalyse. Die mathematische Funktion zur Vorhersage ist eine lineare Gleichung, die wie folgt beschrieben wird: Y = a.X + b

Y= Geschätzter Wert der Variable Y
a= Regressionskoeffizient a = Steigung (slope) der Linie zur Vorhersage von Y
X= Wert der Variablen X für den der Y-Wert geschätzt wird
b= Geschätzter Wert der Variablen Y wenn X = 0 ist ( = additive Konstante ) [^http://www2.jura.uni-hamburg.de/instkrim/kriminologie/Mitarbeiter/Enzmann/Lehre/StatIKrim/Regression.pdf (Stand 30.05.12)^]

Regressionsgerade (einfache Regressionsanalyse)

Der Ansatz der multiplen Regressionsanalyse erfolgt bei der Untersuchung von nicht zwei sondern mehreren Variablen. Die mathematische Funktion ist: Y = a1.X1 + a2.X2 + b

Y = Geschätzter Wert der Variable Y
a1, a2 = Regressionskoeffizienten
X1, X2 = Wert der Variablen X für den der Y-Wert geschätzt wird
b = Geschätzter Wert der Variablen Y wenn X = 0 ist ( = additive Konstante )

Regressionsgerade (multiple regressionsanalyse)

Nicht-lineare Regressionsanalyse

Die nicht-lineare Regressionsanalyse wird genutzt um die Beziehung zwischen den Werten einer Gruppe von unabhängigen Variablen und einer abhängigen Variable, die durch ein mathematisches Modell möglichst gut beschreibbar sind, zu behandeln. Die Methode wird sowohl zum Testen von Hypothesen als auch für explorative Untersuchungen verwendet. Gegenstände die mit multipler Regression und Varianzanalyse zu lösen sind, unter der Voraussetzung dass die Variablen eine lineare Beziehung haben, können auch durch eine freie Definition der Modellgleichung gelöst werden. Somit kann man sich die nicht-lineare Regressionsanalyse als eine Verallgemeinerung dieser Verfahren vorstellen. [^ http://www.statsoft.de/glossary/N/NonlinearEstimation.html (Stand 29.05.12)^]

Ansatz zur Modellierung

  1. Identifikation einer möglichen nichtlinearen Beziehung ¨
  2. Spezifikation einer nichtlinearen Funktion und KQ-Schätzung der Parameter
  3. Uberprüfung der nichtlinearen Spezifikation (t-oder F-Test bzgl. relevanter Modellparameter)
  4. Graphische Darstellung der nichtlinearen Regressionsfunktion
  5. Schätzung des Effektes einer Änderung eines Regressors auf Y [^http://trenkler.vwl.uni-mannheim.de/fileadmin/user_upload/trenkler/evwl/slides7.pdf(Stand 29.05.12)^]

Mathematische Funktion: Y= a0 + a1.X + a2.X2 + ... + an.Xn

Y= Geschätzter Wert der Variable Y
a= Regressionskoeffizient a = Steigung (slope) der Linie zur Vorhersage von Y
X= Wert der Variablen X für den der Y-Wert geschätzt wird
b= Geschätzter Wert der Variablen Y wenn X = 0 ist ( = additive Konstante )
n= Ordnung des Regressionsmodells

Nicht lineare Regressionsgerade

Vor- und Nachteile

Vorteile

  • Es ist die einzige Methode zur Identifikation der Variable X bei einem operativen Prozess, welcher nicht experimentell ist.
  • Schnelle Berechnung der Ergebnisse
  • Modellierung von Zusammenspiel verschiedener Variablen
  • Problemstellung der Varianz- oder Diskriminanzanalyse damit auch lösbar
  • Lineare Ansätze liefern eine hinreichend gute Anpassung an die Daten
  • Lineare Ansätze sind i.d.R. mit geringem Rechenaufwand verbunden

Nachteile

  • Probleme bei der Regressionsgleichung
  • Die Erfassung komplexer, nichtlinearer Zusammenhänge mittels Regressionsanalysen erweist sich häufig als schwierig

Beispiel

Ausführliche Beispiele für die praktische Anwendung der Regressionanalyse finden Sie in diesen Büchern: