Desktop-Version

Start arrow Betriebswirtschaft & Management arrow Erfolgsfaktoren für Innovation in Unternehmen

< Zurück   INHALT   Weiter >

5.4.9 Imputation von fehlenden Daten

Auch wenn bereits alle Items aus der Datenbasis entfernt wurden, bei denen eine größere Zahl an Antworten fehlt, musste dennoch entschieden werden, wie mit den fehlenden Datenpunkten ungegangen werden sollte. Prinzipiell konnten Datensätze mit fehlenden Informationen komplett ausgeschlossen werden. Es würden einfach nur die kompletten Sätze betrachtet. Die Schwierigkeit dabei ist, dass erstens die Datenbasis reduziert würde und zweitens die Gefahr bestünde, dass systematisch Befragte einzelne Fragen nicht ausgefüllt haben. Ein Beispiel hierfür ist bei Umfragen die Frage nach dem Gehalt. Diese wird deutlich häufiger von Personen mit hohem Einkommen nicht beantwortet. Wenn nun alle Datensätze nicht betrachtet werden, die diese Frage nicht beantwortet haben, dann entsteht ein deutlicher Bias. Daher sollten die fehlenden Daten auf Basis eines Imputationsverfahrens geschätzt werden. Das in der Psychologie anerkannteste ist dabei die Imputation basierend auf dem Expectation-Maximization (EM) Algorithmus, kurz: EM-Imputation.

Bei der EM-Imputation wird der wahrscheinlichste Wert für den fehlenden auf Basis der vorhandenen Datenpunkte errechnet. Dabei wird nicht der Mittelwert der anderen Items gebildet, sondern dem Grundprinzip gefolgt, dass jeder fehlende Wert durch einen möglichst „plausiblen“ Wert ersetzt wird. Dadurch kann der Varianzverlust minimiert werden und beobachtete Informationen werden genutzt, um den fehlenden Wert möglichst präzise zu schätzen.

Die Voraussetzungen für die EM-Imputation, dass keine Datensätze mehr als 30% fehlende Werte haben und dass es sich ausschließlich um numerische Variablen handelt, sind beide erfüllt. Die Methode kann also angewendet werden.

Zur Imputation wurde das Tool NORM verwendet. Zuerst wurden die Datenbasis aus SPSS importiert und die fehlenden Werte und die Rundungsoptionen definiert. Danach wurden die Mittelwerte und Standardabweichungen der Variablen überprüft und im Anschluss der EM-Algorithmus ausgeführt. Nach 34 Iterationen kam es zur Konvergenz (Konvergenzkriterium: 0,0001). Um sicher zu gehen, dass die Ergebnisse eine hohe Qualität haben, wurden die Schätzungen der Varianzen, der Kovarianzen sowie der Korrelationen gecheckt. Aus den EM-Parametern, der Varianz- und Kovarianzmatrix wurden nun die fehlenden Werte imputiert und zum Abschluss die Mittelwerte und die Standardabweichungen der imputierten Grundgesamtheit mit der Ausgangsbasis verglichen. Nachdem dieser finale Test zur Zufriedenheit verlaufen ist, wurde fortan die imputierte Datenbasis verwendet.

Nachdem die relevanten Items selektiert und die Datensätze vervollständigt wurden, soll nun nach potentiellen Dimensionen der Innovation in Unternehmen gesucht werden.

 
< Zurück   INHALT   Weiter >

Related topics