Multivariate Analyse

Multivariate Analysenmethoden sind statistische Verfahren zur Analyse der Beziehungsstruktur mehrerer Variablen. Sie betrachten mehrdimensionale Daten und helfen dabei, mehrere statistische Variablen oder Zufallsvariablen gleichzeitig zu untersuchen. Das wesentliche Ziel dieser Methode ist die Reduzierung der Anzahl der Variablen eines Datensatzes, ohne Verlust der enthaltenen Informationen. [1] 

Je nach Art der eingehaltenen Vorschriften bei der Messung einer Variable, lässt sich in verschiedene Stufen der Skalierbarkeit unterscheiden:[2] 

  • Die nicht metrischen Skalen (Nominalskala und Ordinalskala) und
  • Die metrischen Skalen (Intervalskala und Verhältnisskala)

Bei den Multivariaten Analysenmethoden kann in zwei Verfahren unterschieden werden: die strukturprüfenden Verfahren und die strukturentdeckenden Verfahren. Im Folgenden werden die 12 wichtigsten Verfahren der Multivariaten Analysemethoden behandelt. Diese sind die Regressions-, Varianz-, Diskriminanz-, Kontingenz-, Faktoren-, Cluster-, Korrespondenz- und logistische Regressionsanalyse sowie das Conjoint Measurement, die Multidimensionale Skalierung, die Strukturgleichungsmodelle (AMOS) und die Neuronalen Netze [3] 

  • Strukturprüfende Verfahren, deren Einsatz erfolgt, um einen vermuteten Zusammenhang zwischen Merkmalen zu überprüfen und dessen Größe einzuschätzen
  • Strukturentdeckende Verfahren, deren Einsatz erfolgt, um einen möglichen Zusammenhang zwischen Merkmalen zu extrahieren[4] 
StrukturprüfendeStrukturentdeckende
Conjoint MeasurementClusteranalyse
DiskriminanzanalyseFaktorenanalyse
KontingenzanalyseKorrespondenzanalyse
Logische RegressionMultidimensionale Skalierung
RegressionsanalyseNeuronale Netze
Strukturgleichungsmodelle 
Varianzanalyse 

Verfahren der Multivariate Analyse [5] 

Merkmale der einzelnen Verfahren

Strukturprüfende Verfahren

Conjoint Measurement

Die Kernfrage des Verfahrens lautet: "Welchen Nutzenbeitrag liefern die verschiedenen Beschreibungsmerkmale eines Objektes zu dessen Präferenzstellung im Vergleich zu anderen Objekten?" Bei diesem Verfahren wird die abhängige Variable häufig auf ordinalem Skalenniveau gemessen. Insbesondere zu analysieren sind die ordinal gemessenen Präferenzen und auch Auswahlentscheidungen. Die Conjoint Analyse wird z.B. angewendet für die Gestaltung neuer Produkte. Mit dem Ziel: Das Herausfinden des Beitrags einzelner Merkmale von Produkten oder sonstigen Objekten zum Gesamtnutzen bzw. zur Kaufentscheidung bzgl. dieser Objekte.[6] 

Es muss also von den Forschern vorab festgelegt werden, welche Merkmale in welchen Ausprägungen zu berücksichtigen sind. Die wesentlichen Grundzüge der Conjoint Analyse sind also:

  • Ein dekompositionelles Vorgehen
  • Es werden multiattribute Urteile verlangt
  • Das Gesamturteil ist das Resultat einer additiven Verknüpfung von Einzelurteilen
  • Die abhängige Variable kann sowohl metrisches als auch ordinales oder nominales Skalenniveau aufweisen
  • Die geschätzten Parameter (Nutzenwerte) sind i.d.R. (approximativ) intervallskaliert
  • Für Objekte lassen sich Gesamtnutzenwerte bestimmen, die zur Prognose von Wahl- / Marktanteilen dienen können

Damit bildet die Conjoint Analyse eine Kombination aus Erhebungs- und Analyseverfahren.

Diskriminanzanalyse

Die Kernfrage des Verfahrens lautet: "Welche Variablen können gegebene Objektgruppen signifikant voneinander unterscheiden?" Die Diskriminanzanalyse wird angewendet, wenn die abhängige Variable nominal skaliert ist und die unabhängigen Variablen ein metrisches Skalenniveau besitzen. Es ist ein Verfahren zur Analyse von Gruppenunterschieden und zur Klassifizierung von Elementen.
Die Ablaufschritte einer Diskriminanzanalyse unterteilen sich in sechs Teilschritte:

  1. Definition der Gruppen
  2. Formulierung der Diskriminanzfunktion
  3. Schätzung der Diskriminanzfunktion
  4. Prüfung der Diskriminanzfunktion
  5. Prüfung der Merkmalsvariablen
  6. Klassifizierung von neuen Elementen [7] 

Kontingenzanalyse

Die Kernfrage des Verfahrens lautet: "Besteht ein statistisch signifikanter Zusammenhang zwischen zwei nominal-skalierten Variablen?"
Es wird eine Kontingenztabelle angewendet, über die man zwei Merkmale X und Y in Beziehung bringen kann, um die Zusammenhänge der Merkmalsausprägungen strukturiert als Häufigkeiten darstellen zu können. Es ist ein Verfahren zur Analyse von Beziehungen zwischen ausschließlich nominalen Variablen zur Untersuchung der Abhängigkeit einer nominalen Variable von mehreren nominalen Einflussgrößen.
Die Ablaufschritte einer Kontingenzanalyse unterteilen sich in sieben Teilschritte:

  1. X und Y mit natürlichen Zahlen kodieren 
  2. Absolute Häufigkeiten aller Kombinationen von X und Y Werten in die Kontingenztafel eintragen
  3. Randsumme berechnen
  4. Unter Annahme der Unabhängigkeit der beiden Merkmale die erwartete Häufigkeit berechnen
  5. ggf. zur Übersichtlichkeit die absoluten Werte in %-Werte umrechnen
  6. Prüfen der statistischen Unabhängigkeit
  7. Prüfung der Stärke des Zusammenhangs [8] 

Logische Regression

Die Kernfrage des Verfahrens lautet: "Mit welcher Wahrscheinlichkeit können Objekte einer bestimmten Gruppe zugeordnet werden?"
Dieses Verfahren hat eine verwandtschaftliche Beziehung zur Diskriminanzanalyse und zur Regressionsanalyse. Es wird angewendet wenn die abhängige Variable Y nur eine diskrete Ausprägung annehmen kann, oder wenn die lineare Regression nicht angewendet werden kann. Es ist ein Verfahren zur Bestimmung der Wahrscheinlichkeit der Zugehörigkeit zu einer Gruppe in Abhängigkeit von einer oder mehrerer unabhängigen Variablen. Die Ablaufschritte einer logischen Regression unterteilen sich in fünf Teilschritte:

  1. Modellformulierung
  2. Schätzung der logischen Regressionsfunktion
  3. Interpretation der Regressionskoeffizienten
  4. Prüfung des Gesamtmodells
  5. Prüfung der Merkmalsvariablen [9] 

Strukturgleichungsmodelle

Die Kernfrage des Verfahrens lautet: "Wie stark ist der Zusammenhang zwischen latenten Variablen (hypothetischen Konstrukten), die sich einer direkten Messbarkeit entziehen?"
In einem Strukturgleichungsmodell wird eine Regressionsanalyse und mindestens zwei Faktoranalysen kombiniert. Die Strukturgleichungsmodelle ermöglichen die Untersuchung von Abhängigkeiten zwischen Merkmalen, die empirisch beobachtbar (messbar) sind und Merkmale, die hypothetische Konstrukte (latenter Variablen) darstellen. Ein Beispiel im Falle eines Kraftfahrzeuges: die Herstellkosten haben einen direkten Einfluss auf den Verkaufspreis. Diese Abhängigkeit ist sicher direkt messbar. [10] 
Wie wirkt sich aber die Einstellung des Kunden zur Automarke auf das Kaufverhalten aus (hypothetisches Konstrukt)? Eine Antwort ist möglich mit dem Ansatz der Strukturgleichungsmodelle, dabei geht man folgendermaßen vor:

  1. Hypothesenbildung
  2. Pfaddiagram und Modellspezifikation
  3. Identifikation der Modellstriktur
  4. Parameterschätzungen
  5. Beurteilung der Schätzergebnissen
  6. Modifikation der Modellstruktur
  7. Simultanvergleich von Modellen [11] 

Strukturentdeckende Verfahren

Clusteranalyse

Die Kernfrage des Verfahrens lautet: "Wie können Objekte, die durch verschiedene Merkmale beschrieben sind, zu homogenen Gruppen zusammenfasst werden?"
Unter Clusteranalyse versteht man im Wesentlichen eine Gruppierung von ungeordneten Daten. Eine Voraussetzung für die Clusteranalyse ist die Gruppeneinteilung. Das Verfahren steht somit vor der Varianz- und Diskriminanzanalyse. Über die Clusteranalyse werden Gruppen innerhalb von Beobachtungen identifiziert, so dass die Objekte in einer Gruppe möglichst ähnlich und die Gruppen untereinander möglichst unähnlich sind. Die Zielsetzungen der Cluster sind: Eine vereinfachte übersichtliche Struktur zu schaffen. Die Daten zu reduzieren und Zusammenhänge zu erkennen.
Der Ablauf einer Clusteranalyse findet prinzipiell über zwei Schritte statt:

  1. Bestimmung der Ähnlichkeit
  2. Bestimmung der Clusteranzahl [12] 

Faktorenanalyse

Die Kernfrage des Verfahrens lautet: "Kann ein vermuteter Zusammenhang zwischen latenten Variablen empirisch bestätigt werden?"
Die Faktorenanalyse wird gebraucht, um viele verschiedene Variablen zu einer bestimmten Fragestellung, auf wenige Variablen zu reduzieren. Von Bedeutung ist dann die Frage, ob sich möglicherweise sehr zahlreiche Merkmale, die zu einem bestimmten Sachverhalt erhoben wurden, auf einige wenige "zentrale Faktoren" zurückführen lassen. Die Faktorenanalyse verfolgt im Allgemeinen drei Ziele: Die Reduktion der Variablenanzahl, die Ermittlung verlässlicher Messgrößen und die analytische Zielsetzung.
Dabei geht man folgendermaßen vor:

  1. Erstellen der (standardisierten) Ausgangsdatenmatrix
  2. Errechnen der Korrelationsmatrix
  3. Schätzung der Kommunalitäten und Faktorextraktion
  4. Bestimmung der Faktorenzahl
  5. Faktoreninterpretation Faktoreninterpretation und Rotation
  6. Bestimmung der Faktorwerte [13] 

Korrespondenzanalyse

Die Kernfrage des Verfahrens lautet: "Wie können Kreuztabellen visualisiert werden?"
Diese Methode wird angewendet mit dem Ziel: Visualisierung des Zusammenhangs in wenigen Dimensionen mit geringst möglichen Informationsverlust. Ähnlich zur Faktorenanalyse und zur multidimensionalen Skalierung dient die Korrespondenzanalyse zur Visualisierung komplexer Daten. Damit wird es möglich die Zeilen und Spalten einer zweidimensionalen Kreuztabelle (Kontingenztabelle) grafisch in einem gemeinsamen Raum darzustellen. Im Gegenteil zur Faktorenanalyse spielt die Anordnung von Elementen in den Spalten oder in den Zeilen hier keine Rolle. Dieses Verfahren kommt auch bei der Quantifizierung qualitativer Daten zum Einsatz, da diese sich leichter erheben lassen. Die Vorgehensweise ist:

  1. Kreuztabellierung der Ausgangsdaten
  2. Standardisierung der Ausgangsdaten
  3. Extraktion der Dimension
  4. Normalisierung der Koordinaten [14] 

Multidimensionale Skalierung

Die Kernfrage des Verfahrens lautet: "Wie lassen sich Objekte im Wahrnehmungsraum von Personen positionieren, und wie lauten die Dimensionen dieses Raumes?"
Zwischen der multidimensionalen Skalierung und der Conjoint-Analyse bestehen sowohl inhaltlich als auch methodisch Ähnlichkeiten. Sie analysieren ordinale Daten und psychische Sachverhalte. Ein gewichtiger Unterschied von beiden besteht hingegen darin, dass der Forscher bei Anwendung der Conjoint-Analyse bestimmte Merkmale auszuwählen hat. Als Hauptanwendungsbereich der MDS ist die Positionierungsanalyse zu nennen, dabei werden nur wahrgenommene globale Ähnlichkeiten zwischen den Objekten erfragt. Die Vorgehenweise ist:

  1. Messung von Ähnlichkeiten/Unähnlichkeiten
  2. Wahl des Distanzmodells
  3. Ermittlung der Konfiguration
  4. Zahl und Interpretation der Dimension
  5. Aggregation von Personen

Neuronale netze

Die Kernfrage des Verfahrens lautet: "Wie können aufgrund von Erfahrungsdaten (Lerndaten) Gruppen gebildet oder unterschieden werden sowie nichtlineare Zusammenhänge zwischen Variablen entdeckt werden?"
Neuronale Netze sind heutzutage zufolge ihrer Möglichkeit, Probleme von hoher Komplexität mit einfachen Mitteln zu lösen, in der Praxis viel eingesetzt. Zudem finden sind sie auch in den Fällen, in den die klassischen Methoden versagen, Anwendung. Für die Approximation von beliebigen Daten stößt man mit anderen Methoden an deren Grenzen. Einige Anwendungsgebiete sind:

  • Klassifikationen von Objekten
  • Prognosen von Zuständen
  • Realisierung von digitalen Zusammenhängen
  • Probleme der Gruppenbildung

Insofern bestehen hinsichtlich der Aufgabenstellungen Ähnlichkeiten zur Diskriminanzanalyse und zur Clusteranalyse. Hierbei geht man aber folgendermaßen vor:

  1. Organisation in Schichten von Nervenzellen als Grundelemente der Informationsverarbeitung
  2. Verbindung von jedem Neuron mit denen der nachgelagerten Schicht
  3. Modellierung von komplexen und nichtlinearen Zusammenhängen
  4. Trainingsphase
  5. Konfiguration des Netzes [15] 

Vor- und Nachteile

Vorteile

  • Mit multivariaten Analyseverfahren lassen sich komplexe Strukturen entdecken und prüfen.
  • Zusammenhänge zwischen statistischen Einheiten können aufgezeigt werden.
  • Die Dekompositionsmethode kann zur Dekomposition des Problems in kleinere Teilprobleme benutzt werden.[16] 

Nachteile

  • meist geringe Geschwindigkeit bis zum Endergebnis wegen höhen Aufwand [17] 
  • komplizierte Interpretierbarkeit

 

Quellennachweise

1.  Multivariate Analyse http://www.multivariate.de Stand 04.05.12 [↑]

2.  Multivariate Analyse http://de.wikipedia.org/wiki/Multivariate_Verfahren Stand 04.05.12 [↑]

3.  Multivariate Analyse http://www.faes.de/Basis/Basis-Lexikon/Basis-Lexikon-Multivariate/basis-lexikon-multivariate.html Stand 04.05.12 [↑]

4.  Multivariate Analyse http://www.mendeley.com/research/multivariate-analysemethoden/ Stand 04.05.12 [↑]

5.  http://www2.uni-jena.de/oeko/SS%202012/Forschungsprojekt/OeK_A2_SS12_Stat5b%20%5BKompatibilitaetsmodus%5D [↑]

6.  Conjoint Measurement http://www.conjointanalysis.net/CANet/Einfuehrung.html Stand 04.05.12 [↑]

7.  Diskriminanzanalyse http://members.tripod.com/lena_hess/data/skripte/Diplomarbeit.pdf Stand 04.05.12 [↑]

8.  Kontingenzanalyse http://www.fnmueller.de/content/papers/fnmuellerde_kontingenzanalyse_pres.pdf Stand 04.05.12 [↑]

9.  Logische Regression http://www.methodenberatung.uzh.ch/datenanalyse/zusammenhaenge/lreg.html Stand 04.05.12 [↑]

10.  Strukturgleichungsmodelle http://www.strukturgleichungsmodellierung.de/ [↑]

11.  Strukturgleichungsmodelle - http://homepage.univie.ac.at/martin.arendasy/Strukturgleichungsmodelle%20Handout.pdf Stand 04.05.12 [↑]

12.  Clusteranalyse http://www.crgraph.de/Clusteranalyse.pdf Stand 04.05.12 [↑]

13.  Faktorenanalyse http://www2.uni-jena.de/oeko/Lehrangebot/Lehrangebot_WS_08_09/HpS%20Forschungsprojekt%202/HpsFoProj0809_Stat9.pdf Stand 04.05.12 [↑]

14.  Korrespondenzanalyse http://www2.uni-jena.de/oeko/Lehrangebot/Lehrangebot_WS_08_09/HpS%20Forschungsprojekt%202/HpsFoProj0809_Stat11.pdf Stand 04.05.12 [↑]

15.  Neuronale Netze http://www.neuronales-netz.de/ Stand 04.05.12 [↑]

16.  http://www.phaydon.de/marktforschung-quantitativ-methoden_multivariate-analyseverfahren.html Stand 04.05.12 [↑]

17.  http://www.prudsys.de/Service/Downloads/files/DMC2004_Thess.pdf Stand 04.05.12 [↑]