Standardwerte

1. Messung psychologischer Konstrukte

1.1 Einstellungs- und Persönlichkeitstests

Psychologische Tests prüfen mittels Fragebögen Einstellungen, die die Voraussage von Verhalten ermöglichen sollen. Sie unterscheiden sich nur durch den Anspruch, entweder Persönlichkeit als Ganzes oder nur Einstellungen für spezifische Bereiche festzustellen. Persönlichkeitstests versuchen, die Eigenschaften von Menschen auf wenige voneinander unabhängige Dimensionen zurückzuführen. Diese grundlegenden Eigenschaften sind z.B. die sogenannten "Big Five":

Emotionalität
Extraversion
Offenheit für neue Erfahrungen
Verträglichkeit
Gewissenhaftigkeit

Einstellungstests prüfen dagegen nur bestimmte für einen spezifischen Verhaltensbereich relevante Einstellungen, zum Beispiel im Bereich klinischer, schul- oder eignungsdiagnostischer Fragestellungen. Beispiele für Skalen aus Partnerschaftsfragebögen sind z.B.:

Streitverhalten
Kommunikation
Gemeinsamkeit
Problemlöseverhalten
Sexuelle Zufriedenheit

Psychische Merkmale von Personen werden in Fragebögen anhand von Selbsteinschätzungen gewonnen. Merkmale sind psychologische Konstrukte, in deren Ausprägung sich Menschen unterscheiden lassen, d.h. relevant ist ein Merkmal zunächst dann, wenn das Merkmal dazu dienen kann, interpersonelle Unterschiede zu beschreiben. Des weiteren wird vorausgesetzt, dass die Unterschiedlichkeit zu einer Bezugsgruppe zeitlich relativ konstant bleibt, so dass diese unabhängig von den äußeren Umständen bleibt.

Da sich psychologische Konstrukte, wie z.B. Extraversion, eigentlich nicht direkt messen lassen, wurden Hilfskonstruktionen entwickelt, die die Ausprägung des Merkmals bei einer Person als Abweichung von einem Durchschnitt der Bezugsgruppe verstehen. Diese Verteilung des Merkmals in einer größeren Bezugsgruppe (z.B. Frauen zwischen 30 und 40 Jahren oder Verheiratete) dienen als Ausgangspunkt für die Entwicklung von Maßen.

Als Ergebnis einer psychologischen Messung kommen somit immer relative Urteile heraus, die von einer bestimmten Bezugsgruppe ausgehen, z.B. in der Form: "Die Testperson (37 Jahre, Elektroinstallateur) ist extravertierter als 75 % der 25-40jährigen Handwerker in Deutschland." In der Regel werden diese Werte in standardisierte Punktwerte umgerechnet, z.B. in eine Stanine-Skala von 1 bis 9, wobei 75 % einem Punktwert von 6 entspricht.

Man kann also mit einer Testung genau ermitteln, ob die eigene Wahrnehmung den wirklichen Verhältnissen entspricht. Gerade im Bereich der Selbsteinschätzung zeigt sich immer wieder, dass sich Testpersonen völlig falsch beurteilen, weniger weil sie sich zu wenig kennen als dass sie zu wenig Informationen über Ihre Bezugsgruppe haben.

1.2 Normierung

Damit die Ergebnisse eines Tests interpretiert werden können, bedarf es der Umrechnung des Rohwertes in einer Maßeinheit, die man sich auch vorstellen kann. Wenn Sie ein Grundstück kaufen möchten, würden Sie sich wahrscheinlich nicht mit der Information zufrieden geben, dass es die Länge 100 habe. Ohne die Angabe einer Längereinheit wie m oder km, können Sie sich die Größe des Grundstückes nicht vorstellen. Wenn Sie erfahren, dass Sie in einem "Psychotest" einer Frauenzeitschrift 90 Punkte haben, sehen Sie nach, was diese 90 Punkte bedeuten. Trotz einer vielleicht literarisch interessanten Erläuterung bleibt jedoch die Frage offen, was dieser Wert in Bezug auf andere Personen bedeutet. Angenommen, dass in dem "Psychotest" nicht mehr als 100 Punkte erreicht werden können. Lässt sich daraus bereits schließen, dass Sie im Vergleich zu anderen Personen eine besonders hohe Punktzahl haben? Leider nicht, denn ohne Angabe, wie viele Punkte man in dem "Test" erwarten kann, ist der Punktwert nicht aussagekräftig. Es kommt darauf an, wie sich die Ergebnisse von zufällig ausgewählten Testpersonen auf alle möglichen Punktwerte verteilen. Denn es macht einen Unterschied, ob die Wahrscheinlichkeit, in dem "Tests" 90 Punkte zu erreichen 20, 50 oder vielleicht sogar 80 % beträgt. Während es einer Zeitschrift eher auf den Unterhaltenswert eines solchen "Psychotests" ankommt, muss ein Wissenschaftler zunächst die Wahrscheinlichkeiten aller möglichen Punktwerte berechnen, indem er die Aufgaben oder Fragen einer größeren repräsentativen Stichprobe vorgibt. Diese Stichproben bestehen in der Regel aus 500 bis 5000 Personen. Erst dann lässt sich die Verteilung der Rohwerte und ihre jeweilige Wahrscheinlichkeit zuverlässig ermitteln. Da die Angabe einer Wahrscheinlichkeit zu jedem Rohwert nicht sehr handlich ist, wird noch ein weiterer Schritt vollzogen. Die Rohwerte werden so umgerechnet, dass abhängig von der wahren Verteilung eine ähnliche Verteilung entsteht, die jedoch bekannt (standardisiert) ist. Eine solche standardisierte Verteilung ist die sogenannte Normalverteilung. Viele natürliche Merkmale verteilen sich bei genügend großer Stichprobe normal, d.h. symmetrisch und mit einem deutlichen Schwerpunkt in der Mitte (z.B. Schuhgrößen bei Männern). Das heißt, mittlere Werte (Schuhgrößen 41 bis 43) kommen am häufigsten vor, je weiter eine Schuhgröße nach oben oder unten von diesen mittleren Werten abweicht, desto kleiner wird die Anzahl derer, die diese Schuhgröße haben. Normalverteilungen unterscheiden sich nur durch ihre Breite (Streuung) und ihren Schwerpunkt (Mittelwert).

1.2.1 Verteilungen

Es gibt verschiedene Normalverteilungen, die in der Psychologie am häufigsten verwendeten sind für den Intelligenzbereich der Intelligenzquotient und für den Persönlichkeitsbereich die Standard-Nine-Skala (kurz: Stanine) bzw. Standard-Ten-Skala (kurz: Sten). Allen Skalen ist gemeinsam, dass ein willkürlicher mittlerer Wert festgelegt wurde, 100 beim Intelligenzquotienten, fünf bei der Stanine-Skala und 5,5 bei der Sten-Skala. Danach wird die relative Breite der Verteilung festgelegt, die sogenannte Standardabweichung. Diese legt fest, wie viel Prozent der Testpersonen welchen Testwert bekommen sollen. So ist zum Beispiel durch eine Standardabweichung von 15 Punkten beim Intelligenzquotienten festgelegt, dass etwa zwei Drittel der Bevölkerung einen IQ zwischen 85 und 115 haben. Analog dazu führt eine Standardabweichung von 2 Punkten bei der Stanine-Skala dazu, dass etwa zwei Drittel der Testpersonen einen Testwert zwischen drei und sieben erreichen, das restliche Drittel erhält einen, zwei, acht oder neun Punkte. Durch diese Festlegung wird es möglich, ohne Kenntnis der genauen Verteilung der Rohwerte eines Tests abschätzen zu können, ob eine Punktzahl hoch oder niedrig ist.

Für jeden Testwert lässt sich also über den Standardwert sagen, wie häufig er vorkommt, womit die Frage beantwortet ist, wie viel Prozent der Bezugsgruppe den gleichen oder einen niedrigeren Testwert erhalten würden. Der Vorteil des Standardwertes besteht darin, dass dieses Maß unabhängig vom gemessenen Konstrukt, von der Anzahl der Fragen und auch von der Anzahl und Bewertung der vorgegebenen Antwortmöglichkeiten ist. So lassen sich die Ergebnisse einer Person in unterschiedlichen Tests direkt miteinander vergleichen.

In unserer Analogie zu unserem obigen Beispiel lässt sich sagen, dass die Längeneinheit Meter auch unabhängig davon ist, was gemessen wird, sei es die Breite eines Weges oder die Kantenlänge eines Balkens. Die Länge bleibt auch unabhängig davon, ob ich für die Messung einen Zollstock oder ein Maßband nehme. Durch die Standardisierung erfüllen auch psychologische Maße die Forderung nach Eindeutigkeit und Vergleichbarkeit.

1.2.1.1 Standard-Nine-Verteilung

Für die Bezugsgruppe, an der der Test normiert wurde, heißt das, dass wir einfach den 4 % der Personen, die die niedrigsten Test-Rohwerte aufwiesen den Standardwert 1 zugeordnet haben. Den 7 % der Personen, die die nächst höheren Test-Rohwerte hatten, bekamen den Standard-Punktwert 2 u.s.w. bis die übrigen 4 % der Personen mit den höchsten Test-Rohwerten den Standard-Punktwert 9 zugeteilt bekamen. Die Verteilung erfolgte also nach dem folgenden Muster:

20 %


17 %




12 %




7 %


4 %



	1	2	3	4	5	6	7	8	9	Standard- werte
	Niedrige Werte			Mittlere Werte			Hohe Werte

Abb. 1: Standard-Nine-Verteilung

Somit ist international eindeutig festgelegt, was z.B. ein Wert von sechs zu bedeuten hat, unabhängig von dem Test, der diesen Wert gemessen hat.

4 % der Bezugsgruppe haben einen Wert von 1
11 % der Bezugsgruppe haben eine Wert 2 oder kleiner
23 % der Bezugsgruppe haben eine Wert 3 oder kleiner
40 % der Bezugsgruppe haben eine Wert 4 oder kleiner
60 % der Bezugsgruppe haben eine Wert 5 oder kleiner
77 % der Bezugsgruppe haben eine Wert 6 oder kleiner
89 % der Bezugsgruppe haben eine Wert 7 oder kleiner
96 % der Bezugsgruppe haben eine Wert 8 oder kleiner
100 % der Bezugsgruppe haben eine Wert 9 oder kleiner

1.2.1.2 Standard-Ten-Verteilung

Bei dieser Verteilung ergibt sich analog die prozentuale Verteilung der Standardwerte (Sten):

3 % der Bezugsgruppe haben einen Wert von 1
9 % der Bezugsgruppe haben eine Wert 2 oder kleiner
20 % der Bezugsgruppe haben eine Wert 3 oder kleiner
34 % der Bezugsgruppe haben eine Wert 4 oder kleiner
50 % der Bezugsgruppe haben eine Wert 5 oder kleiner
66 % der Bezugsgruppe haben eine Wert 6 oder kleiner
80 % der Bezugsgruppe haben eine Wert 7 oder kleiner
91 % der Bezugsgruppe haben eine Wert 8 oder kleiner
97 % der Bezugsgruppe haben eine Wert 9 oder kleiner
100 % der Bezugsgruppe haben eine Wert 10 oder kleiner

1.2.1.3 Prozentränge

Während die Normalverteilungen idealisiert sind, geben Prozentränge ein genaueres Abbild der wirklichen (empirischen) Verteilung wieder. Hierbei wird nicht der Umweg über Standardwerte gegangen, sondern für jeden möglichen Rohwert in der Normstichprobe wird einzeln berechnet, wie groß der zu erwartende prozentuale Anteil der Werte ist, die kleiner oder gleich hoch sind. Die Gegenwahrscheinlichkeit gibt den Anteil höherer Werte an. Dadurch ergibt sich eine feinere Auflösung der Ergebnisse, so dass auch Asymmetrien erhalten bleiben.

1.3 Wissenschaftlichkeit von Tests

Alle hier verwendeten Tests sind Ergebnis von jahrelanger Forschungsanstrengung der entsprechenden Autoren. Sie sind mit Fragebögen und "Tests" aus Zeitschriften oder Ratgebern nicht vergleichbar, da nur diese unverzichtbare wissenschaftliche Gütekriterien sicherstellen. Diese müssen mathematisch-statistisch bewiesen werden. Die Haupt-Gütekriterien sollen im folgenden kurz beschrieben werden.

1.3.1 Objektivität

Die Tests garantieren Objektivität auf allen Ebenen der Durchführung, der Auswertung und der Interpretation. Objektivität bedeutet, dass jeder testpsychologisch kompetente Anwender mit einem bestimmten Test an der gleichen Person zum selben Ergebnis kommen muss. Als testpsychologisch kompetent sind nur Diplom-Psychologen einzustufen, da nur das Studium der Psychologie solche Kenntnisse vermittelt. Aus diesem Grund sind Psychologische Tests auch nicht frei verkäuflich, sondern nur Psychologen vorbehalten, die bei der Bestellung von Tests das Diplom nachweisen müssen. Einzige Ausnahme davon sind Schultests, die auch an Pädagogen abgegeben werden dürfen.

1.3.2 Reliabilität

Alle Tests erfüllen das Kriterium der Zuverlässigkeit, das heißt, dass die Tests statistisch bewiesen haben müssen, dass der Messwert auch wirklich den Merkmalen der Testperson zuzuschreiben ist und nicht auf andere Einflüsse zurückgeht. Dieses wird in der Regel dadurch bestätigt, dass der Messwert einer Person bei wiederholter Messung unter möglichst unterschiedlichen Bedingungen stabil bleibt.

1.3.3 Validität

Die Validität beschäftigt sich schließlich damit, was Tests eigentlich messen (Gültigkeit). Diese Frage ist nicht so einfach zu beantworten, wie es scheint. Dazu müssen die Tests mit anderen Tests, die ähnliche oder andersartige Konstrukte messen, verglichen werden (Konstuktvalidität). Eine ängstliche Person sollte in verschiedenen Tests, die vorgeben, Ängstlichkeit messen wollen, ähnliche Ergebnisse haben. Da Tests Verhalten voraussagen sollen, sollten die Voraussagen auch mit Außenkriterien in Zusammenhang stehen (Kriteriumsvalidität). Ein Schultest sollte also zum Beispiel einen Teil des schulischen Erfolgs voraussagen können. Schließlich wird von einem Test noch verlangt, dass die Fragen oder Aufgaben inhaltlich repräsentativ für das daraus abgeleitete Konstrukt sind. Ein Test der Intelligenz misst, darf also nicht nur aus Aufgaben zum räumlichen Vorstellungsvermögen bestehen, sondern muss auch alle anderen Intelligenzbereiche mit erfassen, wie zum Beispiel Gedächtnisleistungen.