In Teil 3 macht sich Prof. Schaffner mit uns gemeinsam an die empirische Arbeit. Haben Sie Teil 1 und 2 schon gelesen? Falls nicht: Am Ende des Artikels sind alle bereits erschienen Beiträge der Reihe verlinkt.
Unter empirischer Arbeit wird die methodisch-systematische Sammlung von Daten und die regelgeleitete Erkenntnisgewinnung verstanden. Daten können qualitativ (nicht-numerisch) oder quantitativ sein (mess- oder zählbar). Kennzahlenarbeit ist zunächst einmal quantitative Empirie (z.B. Umsatz, Fehlerquote, Wiederverwendungsquote). Im Controlling können aber auch qualitative Phänomene überwacht werden (z.B. Qualität, Termintreue, Kundenzufriedenheit), die hierfür messbar gemacht werden müssen (Operationalisierung). Diese Korrespondenz zwischen nicht-messbaren Phänomenen mit messbaren Indikatoren muss geschickt geschehen (vgl. auch Teil 2).
Die Qualität einer redaktionellen Arbeit rein über die Anzahl orthografischer Fehler zu bestimmen (weil vielleicht problemlos messbar), ist beispielsweise wenig geschickt (vgl. Beispiel in Teil 1). Weitere Kennzahlen wären hilfreich (z.B. Verständlichkeitsindizes, Terminologiefehler, Rückmeldungen aus der Übersetzung, Kundenreklamationen zur Technischen Dokumentation). Es muss zudem sichergestellt sein, dass die notwendigen Daten verfügbar sind. Damit gewinnen die Metadaten in den CCMS-/CAT-Systemen sowie Feedbacks an Bedeutung.
Eine Leitfrage könnte zum Beispiel sein: Welche Informationen sind über Metadaten verfügbar? Dies kann und sollte durchaus auch ein Kriterium für eine Systementscheidung sein. Einige CCMS-Hersteller stellen jedoch fest, dass controlling-relevante Metadaten von Kunden noch gar nicht nachgefragt werden. Auch Rückmeldungen aus internen und externen Quellen sollten als Quellen für ein Kennzahlengerüst herangezogen werden.
Vollerhebung oder Stichprobe?
Im Controlling wird in aller Regel quantitativ und qualitativ empirisch gearbeitet (Mixed-Methods). Zur Wahrung der Glaubwürdigkeit und Nachvollziehbarkeit sind daher auch Gütekriterien der quantitativen und qualitativen empirischen Forschung zu berücksichtigen. Doch zunächst widmen wir uns der Datenerhebung.
Die Auswertung von empirischen Messwerten erfolgt statistisch. In der deskriptiven Statistik werden eindimensionale Datenreihen (x1, x2, x3, … xn) anhand von Maßzahlen (Mittelwerte, Streuungsmaße) untersucht und die Zusammenhänge zwischen mehrdimensionalen Datenreihen (z.B. 2-dim: xi und yi) bezüglich Korrelation und Kausalität ermittelt (vgl. Teil 3). [i]
Die deskriptive Statistik beschäftigt sich mit Methoden zur Beschreibung und Auswertung von Daten (mittels Graphiken, Tabellen, Mittelwerten, Streuungsmaßen, Korrelationskoeffizienten). Mit der deskriptiven Statistik werden Aussagen zum Datensatz selbst gemacht. Um Schlussfolgerungen, ausgehend von einer Stichprobe, für eine Grundgesamtheit treffen zu können, kommen Verfahren der induktiven Statistik zum Einsatz.
Werden aus Kosten- oder Zeitgründen lediglich Teilerhebungen durchgeführt (Stichproben), dient die induktive (oder schließende) Statistik der Übertragung von Befunden aus der (Zufalls-)Stichprobe auf die zugehörige Grundgesamtheit [ii]. Dies geschieht mit mathematischen Verfahren der Wahrscheinlichkeitsrechnung.
Kann von einer Stichprobe (z.B. Anzahl Terminologiefehler in einer 1-Promille-Stichprobe) auf die Grundgesamtheit hochgerechnet werden, wird von Repräsentativität gesprochen. Bei den Stichprobenerhebungen kann zwischen zwei Verfahren unterschieden werden: [iii]
- Zufalls-Stichprobe: Jedes Element der Grundgesamtheit hat die Chance, in der Stichprobe zufällig gezogen zu werden.
- Verfahren der bewussten Auswahl: Die bewusste Auswahl von Elementen für eine Stichprobe erfolgt auf eine Weise, bei der die Häufigkeitsverteilung relevanter Merkmale in der Stichprobe mit der Grundgesamtheit übereinstimmt. Dies setzt allerdings die Kenntnis über die Merkmalsverteilung in der Grundgesamtheit voraus.
Bei einer Zufallsstichprobe werden z.B. über einen Zufallszahlengenerator bestimmte Elemente aus der Grundgesamtheit gezogen. Bei 100.000 Textbausteinen und einer 1-Promille-Stichprobe für einen Qualitätscheck müssten dann 100 IDs zufallsgestützt generiert und gezogen werden. Dies ist ein relativ einfaches Ziehungsverfahren, dass aber stochastische Kenntnisse für den Schluss auf die Grundgesamtheit erfordert.
Jeden tausendsten Text-Baustein zu ziehen, wäre eine bewusste Auswahl von Elementen. Dabei müsste aber sichergestellt sein, dass die Häufigkeitsverteilungen auswertungsrelevanter Merkmale (z.B. verantwortlicher Redakteur, Kunde, Textart) in der Stichprobe und der Grundgesamtheit identisch sind. Dies ist aufgrund von projekt-induzierten Verdichtungseffekten aber nicht immer der Fall.
Idealerweise könnte mit dem Quotenauswahlverfahren gearbeitet werden. Dabei werden Merkmale definiert und deren Quoten (Häufigkeiten) ermittelt, von denen ausgegangen wird, dass sie mit dem Untersuchungsgegenstand korrelieren (z.B. Modulgröße, Redakteur, Sprache). Die Stichprobe dann aber so zu wählen, dass sie einen modellgerechten Miniaturquerschnitt der zu untersuchenden Grundgesamtheit darstellt, ist eine nicht-triviale Aufgabe. Über Metadaten könnte eine entsprechende Auswahl getroffen werden, doch oft fehlen entweder die Metadaten oder die technischen Möglichkeiten im Redaktionssystem. Wird die Auswahl einem Menschen überlassen, könnten subjektive Auswahleffekte das Ergebnis verfälschen.
Gütekriterien
Kommen wir zurück auf die Gütekriterien der quantitativen und qualitativen Empirie [iv]. Bei der Erhebung (Messung) quantitativ-empirischer Daten wird klassisch nach den folgenden Hauptkriterien unterschieden: [v]
- Validität
- Reliabilität
- Objektivität
Die Validität (Gültigkeit) gibt den Grad der Genauigkeit an, mit dem eine Untersuchung das erfasst (misst oder zählt), was sie erfassen soll (im Sinne: keine systematischen Fehler). Dies wird meist sehr stark von den Messmöglichkeiten beeinflusst (z.B. über die Qualität der Metadaten). Und gerade bei Indikatoren, die nicht direkt messbare Phänomene repräsentieren, sind nicht selten Unschärfen festzustellen. Beispielsweise: Mit welchen Maßzahlen kann kundenseitig das Textverständnis gemessen werden (z.B. skalenbasierte Einzelfragen)?
Die Reliabilität (Zuverlässigkeit) gibt die Zuverlässigkeit einer Messmethode an, bei der eine wiederholte Untersuchung unter denselben Bedingungen und an denselben Gegenständen zu demselben Ergebnis kommt (im Sinne: keine zufälligen Fehler). Die Reproduzierbarkeit setzt voraus, dass keine äußeren Einflüsse die Messung verfälschen (z.B. die Ur-Daten werden zufällig von einem bestimmten Verursacher beeinflusst, z.B. einem Praktikanten). Reliabilität ist gerade bei Einbezug von Menschen als Erhebungsquelle (z.B. Befragung) aus psychologischen Gründen nicht gegeben (Wird die tatsächliche Meinung geäußert?).
Objektivität bedeutet, dass ein Untersuchungsergebnis in Erhebung, Auswertung und Interpretation nicht von den Durchführenden beeinflusst wird und verschiedene Experten bei der Nachvollziehung zu identischen Ergebnissen kommen (auch Intersubjektivität genannt). Wird zum Beispiel die Stichprobe manipuliert oder lassen Interpretationen Spielräume zu, sind die Erkenntnisse nicht objektiv belastbar.
Bei Controlling-Prozessen ist zusätzlich zu empfehlen, sich an den Gütekriterien für die qualitative Forschung zu orientieren, um Plausibilität zu gewährleisten: [vi]
- Verfahrensdokumentation
- argumentative Interpretationsabsicherung
- Regelgeleitetheit
- Nähe zum Gegenstand
- kommunikative Validierung
- Triangulation
Wertlos sind aus wissenschaftlicher Sicht Erkenntnisse, deren Erhebungsverfahren nicht dokumentiert sind (Mangel an Nachvollziehbarkeit). Hierzu gehören beispielsweise die Controlling-Logik, die Erhebungsmethode, Formelberechnungen, die Verknüpfung mit Assistenzdaten oder Interpretationen.
Belegen die empirischen Daten nicht unmittelbar offensichtliche (evidente) Sachverhalte und müssen interpretiert werden, sind diese Interpretationen argumentativ zu begründen. Hierzu gehören beispielsweise die Klärung eines gemeinsamen Vorverständnisses, die theoriegeleitete Deutung (z.B. anerkannte Gesetzmäßigkeiten) und eine schlüssige Argumentation. Vor allem kritische Widerlegungen oder auch Negativdeutungen lassen dabei die Argumentation authentisch wirken.
Das beschriebene Vorgehen ist systematisch und schrittweise abzuarbeiten. Abweichungen von der Regelgeleitetheit ist denkbar, muss aber begründet und beschrieben werden (z.B. warum ein Kennzahlen-Erhebungszeitpunkt verändert wird).
Bei der Nähe zum Gegenstand wird vorgesetzt, dass die Untersuchung auf realistischen Rahmenbedingungen der Arbeitswelt fußen und keine Labor- oder Experimentalstudien darstellen.
Die Gültigkeit von qualitativen Ergebnissen (z.B. Interpretationen, Interviews) kann durch Rückspiegelung der Ergebnisse sichergestellt werden (kommunikative Validierung). Können die „Beforschten“ die erarbeiteten Ergebnisse bestätigen, kann von einer gewissen Gültigkeit ausgegangen werden.
Die Triangulation ist eine sehr bedeutende Forschungsstrategie. Wenn für die gleiche Fragestellung auf unterschiedlichen Lösungswegen und auf Basis verschiedener Datenquellen vergleichbare oder plausible Ergebnisse erzielt werden können, kann die Aussagekraft verbessert werden.
Fußnoten:
[i] Vgl. Schuldenzucker, U.: Prüfungstraining – Deskriptive Statistik, Stuttgart: Schäffer-Poeschel, S. 22ff und S. 78
[ii] Vgl. wirtschaftslexikon.gabler.de/Archiv/2213/inferenzstatistik-v10.html (zitierfähige URL)
[iii] Vgl. Bleymüller, J. (2012): Statistik für Wirtschaftswissenschaftler, 16. Aufl., München: Vahlen, S. 71
[iv] Vgl. Schaffner, M. (2018): „Vom Wiegen wird die Sau nicht fett!“ Oder: das Kennzahlen-Paradoxon, in: tcworld GmbH (Hrsg.), Proceedings tekom-Frühjahrstagung 2018, S. 96-101, tcworld GmbH, Stuttgart
[v] Vgl. Friedrichs, J. (1990): Methoden empirischer Sozialforschung; 14. Aufl., Opladen: Westdeutscher Verlag, S. 100ff
[vi] Vgl. Flick, U. (2016): Qualitative Sozialforschung- Eine Einführung; 7. Aufl., Reinbeck bei Hamburg: Rowohlt, S. 487ff
Übersicht Beitragsreihe Kennzahlen:
- Schlüssiges Vorgehen (Teil 1)
- Strategische Früherkennung (Teil 2)
- Empirische Arbeit (Teil 3)
- Statistische Logik (Teil 4)