Woher weiß man, ob ein Test gut oder schlecht ist? Woher weiß man, ob ein selbst erstellter Test genau das erfasst, was man bewerten möchte? Die Antwort liefern die Gütekriterien: Objektivität, Reliabilität und Validität. Diese drei sollte jeder kennen, der beruflich mit Diagnostik zu tun hat.
[Anmerkung zum Text: Ich rede im Text von „Lernern“ und „Lehrern“, gemeint sind damit grundsätzlich alle Geschlechter. Außerdem beziehen sich diese Bezeichnungen nicht nur auf Personen in der Schule, sondern beispielsweise auch auf die Ausbildung und auf alle weiteren Lernumfelder.]
Was sind Gütekriterien und wofür braucht man sie?
Um zu überprüfen, wie gut Ihre Lerner die letzte Unterrichtseinheit verstanden haben, möchten Sie deren Wissen messen. Mit alltäglichen Messgeräten, wie Lineal oder Waage, werden Sie jedoch nicht weit kommen, da das Wissen nicht sichtbar ist. Daher entscheiden Sie sich, einen Test zu erstellen. Ihr selbst erstellter Test sollte dabei genauso gut funktionieren wie ein Lineal. Daher gibt es in der Psychologie Gütekriterien um die Qualität eines Messverfahrens (z.B. eines Tests) zu bestimmen. Die drei Hauptgütekriterien heißen Objektivität, Reliabilität und Validität. Darüber hinaus gibt es noch weitere Nebengütekriterien.
Objektivität – Anwenderunabhängigkeit
Sie möchten wissen wie hoch ein Tisch ist. Um das zu bestimmen nutzen Sie einen Gliedermaßstab. Vermutlich würden Sie erwarten, dass sich Ihr Messergebnis nicht von dem einer anderen Person unterscheidet (vorausgesetzt der Gliedermaßstab ist genormt und Sie haben sich nicht vermessen). Das bedeutet die Messung des Tisches ist anwenderunabhängig – egal, wer den Tisch misst, alle sollten zum gleichen Ergebnis kommen. Dieses Beispiel ist natürlich nicht sehr spektakulär, da Sie, wenn Sie Möbel kaufen, deren Abmaße finden und so entscheiden, ob das Möbelstück in Ihre Wohnung passt. Man fragt sich dabei nicht, ob diese Angaben stimmen.
Bei einem Wissenstest sollte dieses Kriterium jedoch auch zutreffen. Dabei lässt sich die Objektivität noch in drei Unterformen unterscheiden:
- Durchführungsobjektivität: Der Wissenstest sollte vom Testanwender unabhängig sein. Das bedeutet, das Ergebnis Ihrer Lerner im Test sollte sich nicht unterscheiden, egal ob Sie oder ein Kollege den Test durchgeführt haben.
- Auswertungsobjektivität: Auch die Auswertung des Wissenstests sollte nicht vom Testauswerter abhängen. Wenn Sie und ein Fachkollege unabhängig voneinander den gleichen ausgefüllten Wissenstests eines Lerners bewerten, sollten Sie zum gleichen Ergebnis kommen bzw. gleich viele Punkte vergeben. Bei einfachen Richtig-oder-Falsch-Fragen ist das natürlich einfacher als bei komplexen Fragestellungen. Wenn Sie jedoch bei der Erstellung des Wissenstests bereits Kriterien für richtige Antworten formuliert haben und diese dem Kollegen ebenfalls zur Verfügung stehen, sollten Sie auch dann zum gleichen Ergebnis kommen.
- Interpretationsobjektivität: Sie und Ihr Kollege sollten bei dem gleichen Test eines Lerners nicht nur zum gleichen Punktwert kommen, sondern auch zur gleichen Note bzw. Einschätzung der Leistung. Das heißt, auch die Schlussfolgerung aus der erbrachten Leistung des Lerners sollte anwenderunabhängig sein.
Im allgemeinen Sprachgebrauch wird die Objektivität auch oft mit „objektiv vs. subjektiv“ eingesetzt, wie beispielsweise „Ihre Einschätzung ist ja völlig subjektiv!“.
Reliabilität – Messgenauigkeit
Sie möchten nach den Feiertagen wissen, wie viel Sie wiegen. Sie stellen sich auf Ihre Waage und sind erstaunt über die Zahl, die die Waage anzeigt. Daher gehen Sie von der Waage und stellen sich erneut drauf. Das Ergebnis kommt Ihnen immer noch komisch vor und Sie entscheiden sich die Waage auf einen anderen Bodenbelag zu stellen und messen ihr Gewicht erneut. Da auch das zu keiner größeren Veränderung führt, überlegen Sie, ob die Waage vielleicht defekt ist und stellen sich auf eine andere Waage, mit der Sie ebenfalls mehrere Messungen durchführen. Doch auch dabei kommt kein völlig anderes Ergebnis heraus. Verblüfft müssen Sie einsehen, dass Sie über die Feiertage nicht zugenommen haben.
Bei der Reliabilität geht es darum, etwas möglichst genau zu messen. Jeder Messwert besteht jedoch aus dem wahren Wert und einem Messfehler. Zum einen sollte man daher versuchen möglichst genau zu messen, zum anderen können mehrere Messungen helfen, den wahren Wert zu bestimmen. Wie beim Beispiel mit der Waage, kann es daher von Vorteil sein, etwas mehrmals zu wiegen und dann den Mittelwert aus den Ergebnissen zu bestimmen.
Für den Wissenstest bedeutet es, dass jedes Themengebiet bzw. Untergebiet mit mehr als einer Frage abgeprüft werden sollte. So kann man vermeiden, dass der Lerner z.B. die Frage einfach falsch verstanden hat und somit die eine falsche Antwort gegeben hat. Zusätzlich sollte aber auch jede Frage möglichst präzise gestellt werden, um Verwirrung bei den Lernern zu vermeiden.
Validität – Gültigkeit
Sie möchten wissen wie hoch ein kleiner Beistelltisch ist, stellen diesen mehrmals auf die Waage und lassen diesen auch von anderen Personen wiegen. Sie haben nun ein Ergebnis, was sowohl objektiv als auch reliabel ist: 25 kg. Nur leider haben Sie nicht das gemessen, was Sie messen wollten. Sie haben das Gewicht anstatt der Höhe bestimmt. Das Ergebnis ist somit nicht valide.
Auch beim Wissenstest müssen Sie sich daher fragen, ob der Test auch das misst, was er messen soll. Misst der Test das Wissen der letzten Unterrichtsstunden oder grundlegendes Wissen aus den Jahren davor? Sind die Aufgaben eventuell so umfangreich und kompliziert formuliert, dass sie eigentlich die Lesekompetenz der Lerner erfassen, aber nicht die fachlichen Inhalte?
In der Praxis sollte man sich also fragen, ob die gestellten Fragen im Wissenstest tatsächlich die Inhalte der letzten Unterrichtsstunden abbilden. Außerdem könnte man Kollegen fragen, ob sie einzelne Unterthemen genauso gewichten würden wie man selbst. Darüber hinaus sollten die Fragen zum Curriculum oder auch Lehrplan passen. Nicht zuletzt kann man sich auch fragen, welche zukünftige Aussagekraft der Wissenstest hat. Beispielsweise könnte es für einen Lerner, der im Wissenstest zu den Grundlagen schlecht abgeschnitten hat, schwierig werden, darauf aufbauenden Lernstoff zu verstehen.
Zusammenhang von Objektivität, Reliabilität und Validität
Objektivität ist die Voraussetzung für Reliabilität. Objektivität und Reliabilität sind wiederum Voraussetzungen für Validität. (Die Voraussetzungen sind dabei notwendig, aber nicht hinreichend.)
Nebengütekriterien
Hier werden beispielhaft einige Nebengütekriterien kurz vorgestellt:
- Vergleichbarkeit: Ein Test wird in Version A und B in der Lerngruppe verteilt. Dabei sollte eine Version jedoch nicht schwieriger sein als die andere.
- Zumutbarkeit: Ist der Umfang, Länge oder Inhalt eines Tests für einen Lerner körperlich, seelisch oder zeitlich zumutbar?
- Fairness: Benachteiligt der Test eine Gruppe von Lernern systematisch?
Mein Kommentar:
Gütekriterien sind vielleicht nicht das spannendste Thema der Psychologie. Doch jeder, der Diagnostik durchführt (das sind sowohl Psychologen, als auch Lehrer und viele andere Berufsgruppen), sollte sich mit dem Thema auskennen, vor allem wenn er eigene Tests erstellt. Natürlich können nicht alle Gütekriterien bei jedem Test perfekt erfüllt werden. Ziel ist es, diese so optimal wie nur möglich zu gestalten und sich den Gütekriterien bestmöglich anzunähern. Natürlich beansprucht das oft mehr Zeit und Aufwand bei der Konstruktion des Tests. Doch vermutlich hat sich auch jeder schon einmal von einem Test oder dessen Auswertung unfair behandelt gefühlt und jeder weiß, wie viel Ärger das verursachen kann. Gute Tests haben jedoch auch Vorteile für denjenigen, der sie erstellt: Je transparenter Sie Tests und deren Auswertung gestalten (z.B. mithilfe von einem Kriterienkatalog für zugelassene bzw. richtige Antworten), desto schneller können Sie die Tests auswerten und desto klarer können Sie das Testergebnis rechtfertigen.
Quellen:
Döring, N. & Bortz, J. (2016). Datenerhebung (Springer-Lehrbuch). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (S. 321–577). Berlin, Heidelberg: Springer Berlin Heidelberg.
Schwaighofer, M., Heene, M. & Bühner, M. (2019). Grundlagen und Kriterien der Diagnostik. In D. Urhahne, M. Dresel & F. Fischer (Hrsg.), Psychologie für den Lehrberuf (S. 471–491). Berlin, Heidelberg: Springer Berlin Heidelberg.