Informelle Testverfahren im Kontext pädagogischer Evaluation und Qualitätskontrolle
Renate Seebauer, Pädagogische Akademie Wien/Bund
Informelle Testverfahren werden in der deutschsprachigen Literatur
in den siebziger Jahren zahlreich behandelt. War damals ihr Einsatz
oft mit dem Bemühen um Objektivierung der Leistungen der Kinder
verbunden, so gewinnt heute ihr Einsatz im Kontext der "Selbstevaluation
von Schulen" erneut an Bedeutung. Der Autorin war es einerseits
ein Anliegen, Lehrer mit dem notwendigen Rüstzeug zur selbstständigen
Erstellung informeller Tests auszustatten, andererseits auch auf Probleme
und Grenzen dieses Verfahrens hinzuweisen. Ferner soll der Leser auch
für die Problematik des Einsatzes informeller Tests in ihrer
normorientierten Variante - vor allem im Zusammenhang mit der Zensurenvergabe
- sensibilisiert und angehalten werden, die eigene Zensurenpraxis
kritisch zu reflektieren.
Der Studientext gliedert sich in folgende Abschnitte:
1. Einführung
und Standortbestimmung
2. Elemente der Evaluation
3. Vor- und Nachteile kriteriumsbezogener informeller
Tests
4. Zur Konstruktion informeller Tests
4.1. Überblick über Itemtypen
4.1.1. Freie (offene) Aufgabenbeantwortung
4.1.2. Gebundene (geschlossene) Aufgabenbeantwortung
4.1.3. Zwischenformen
4.2. Empfehlungen zur Aufgabenkonstruktion
4.3. Statistische Kurzverfahren zur Itemanalyse
5. Exkurs: Der informelle Test in seiner normorientierten
Variante -
weitere statistische Grundbegriffe
Anregungen
zur individuellen Weiterbearbeitung der Thematik
Literaturangaben
1. Einführung und Standortbestimmung
Wie bereits in anderen
Studientexten skizziert wurde, ist Qualitätskontrolle eine zentrale
Herausforderung an die Schule. Gleichsam als gesamteuropäische
Entwicklung lässt sich erkennen, dass im Zuge der Qualitätssicherung
den Schulen die Aufgabe der Selbstevaluation eröffnet wird. Sie
verhilft dem einzelnen Lehrer dazu, die Qualität des Unterrichts
weiter zu verbessern, sie dient der Entwicklung eines professionellen
Selbstverständnisses im Lehrerteam und profiliert die Schule
gegenüber der Außenwelt.
Evaluation ist heute integraler Bestandteil von Entscheidungsprozessen:
Sie versteht sich als "... organized, structured procedure
designed to produce and analyze data that enables judgements to be
made in the control or improvement of education." (http://www.nova.edu/phe/international/
EVAL/sld003.htm)
Im Schul- und Unterrichtswesen inkludiert Evaluation die Bereiche
der pädagogischen Diagnostik und Leistungsbeurteilung. In diesem
Zusammenhang beschafft Evaluation "nützliche und abgesicherte
Informationen für Auftraggeber, Beteiligte & Betroffene (engl.
stakeholders). Sie unterstützt diese, entweder den bewerteten
Gegenstand schrittweise zu stabilisieren/zu verbessern (formative-/Gestaltungs-Evaluation)
oder zu bewerten (summative/Bilanz-Evaluation)." (http://
www.uni-koeln. de/ew-fak/Wiso/s_def.htm
Wenngleich Evaluation auf das Konzept (insbesondere Zielsetzungen),
die Struktur (gesetzliche Bestimmungen, Ausstattung u.v.m.), den Prozess
(z.B. Ablauf des pädagogischen Geschehens, Reaktionen der Teilnehmenden
darauf) und das Ergebnis (kognitive/affektive Lerneffekte bei den
Zielgruppen bzw. Änderungen ihrer materiellen Situation) gerichtet
sein kann (vgl. http://www.uni-koeln.
de/ew-fak/Wiso/s_def.htm), wird in diesem Studientext auf den
informellen Test als Möglichkeit eines kriteriumorientierten
(im Gegensatz zum normorientierten; vgl. Robert Glaser 1963) Prüfverfahrens
interner Evaluation Bezug genommen.
Obwohl kriteriumsorientierte Prüfverfahren zumeist interindividuelle
Leistungsdifferenzen zwischen Schülern zu Gunsten der Dichotomie
"Lernziel erreicht"/"Lernziel nicht erreicht"
vernachlässigen, öffnen sie den Blick für die Frage
nach dem Unterrichtserfolg: Ein Lehrer, in dessen Klasse nur 30% der
Kinder das Lernziel erreichen, wird sich kaum einreden können,
sein Unterricht sei erfolgreich gewesen. Interessant erscheint auch
die Akzentverschiebung hinsichtlich der Konsequenzen: Bei traditionellen
Schularbeiten würden die Schüler, die negativ abgeschnitten
haben, ermahnt werden, sich mit dem Lernstoff eingehender auseinanderzusetzen,
bei einem ungünstigen Ausgang eines lernzielorientierten Prüfverfahrens,
hat sich hingegen der Lehrer zu fragen, wie er seinen Unterricht erfolgreicher
gestalten kann.
![]()
2. Elemente der Evaluation
Evaluation hat in Nordamerika
eine etwa 70-jährige Tradition und ist fester Bestandteil der
politischen Kultur. In Österreich sind Fragen der Evaluation
im Bereich von Schulen und Universitäten erst in den neunziger
Jahren des 20. Jahrhunderts in den Mittelpunkt der Diskussion getreten.
Wenngleich der "informelle Test" als Instrument einer lernzielorientierten
Überprüfung bereits in den siebziger Jahren in zahlreichen
Publikationen anzutreffen ist (vgl. u.a. Gaude/Teschner 1973; Karas
1978 ), dürfte auf Grund des relativ hohen Arbeitsaufwandes und
der mangelnden testtheoretischen Kompetenzausstattung der Lehrer die
Tendenz bestehen, auf seinen Einsatz - auch im aktuellen Kontext der
internen Evaluation - zu verzichten.
WERNER SCHWENDENWEIN (1993) weist in der Diskussion um das Überprüfen
und Evaluieren darauf hin, dass "die Überprüfungselemente
... von ihrer Funktion her nur dann zu Evaluationselementen"
werden, "wenn sie Konsequenzen nach sich ziehen" und formuliert
folgende Überprüfungs- bzw. Evaluationselemente:
(1) Wer oder was soll überprüft oder getestet werden (Überprüfungsgegenstand
oder Evaluandum)?
(2) Wer ist der Überprüfer (Evaluator oder Tester)?
(3) Über welche Kriteriumsvariable(n) soll das Evaluandum überprüft
oder getestet werden?
(4) Welche mündlich oder schriftlich vorwegdefinierte Erwartung
(Norm, Vorstellung) liegt vor?
(5) Mit welchem Meßinstrument soll die Überprüfung
vorgenommen werden?
(6) Unter welchen Bedingungen bzw. in welcher Situation soll überprüft
werden (Überprüfungsbedingungen oder Testsituation)?
(7) Wie lautet der Überprüfungsbefund (Evaluationsbefund,
Testergebnis oder Diagnose) nach Berücksichtigung der vorwegdefinierten
Erwartung?
(8) Welche evaluativen Konsequenzen (a) als möglicher Handlungsbedarf
und (b) als konkretes Handeln werden aus dem Evaluationsbefund vom
Evaluator (z.B. vom Lerner) oder von anderen Personen (z.B. von Bildungsverantwortlichen)
gezogen?
(Schwendenwein 1993, S. 342)
Pädagogische Produkte
(z.B. kognitive Lernarbeitsergebnisse) und pädagogische Prozesse
(z.B. zunehmender Gebrauch der Zielsprache im Fremdsprachenunterricht)
können nach den oben skizzierten Elementen evaluiert werden.
Bezüglich der Evaluation eines "typisch pädagogischen
Produkts" soll nach SCHWENDENWEIN (1993) "mittels (1) Informellen
Tests (Meßinstrument) (2) bei Lernern (Evaluationsgegenstand)
überprüft werden, ob sie (3) bestimmte existentielle Lernziele
(Evaluationsinhalt) beherrschen. (4) Der Lehrer (Evaluator)
(5) erwartet sich, daß 85% der geprüften Lerner (1.
Kriterium) alle existentiellen Lernziele pattern- bzw. standardmäßig
beherrschen (2. Kriterium). Den Lernern sind die (6) Prüfungsbedingungen
(z.B. Prüfungsdauer, Beurteilungsrichtlinien, zulässige
Hilfsmittel etc.) bekannt. Nach Korrektur der Prüfungsarbeiten
durch den Lehrer zeigt sich, daß (7) 88% der Lerner die existentiellen
Prüfungsaufgaben richtig gelöst haben (Evaluationsbefund).
Aufgrund dieses Ergebnisses besteht (8) kein mit dem Prüfungsergebnis
in Zusammenhang stehender Handlungsbedarf (evaluative Konsequenz)".
(Schwendenwein 1993, S. 345f.)
3. Vor- und Nachteile kriteriumsbezogener
informeller Tests
Informelle Tests verstehen
sich gleichsam als Kompromiss zwischen herkömmlichen Schularbeiten/
Klassenarbeiten und standardisierten (genormten) Schulleistungstests:
Sie werden vom Lehrer selbst erstellt,
orientieren sich an exakt definierten Lernzielen und
liefern Schülern und Lehrern Informationen über
die Zielerreichung.
Ein kriteriumsbezogener (informeller) Test ist nach WANG (1969, S.
14; zit. bei Heller 1984, S. 100) "... ein Leistungstest, der
entwickelt wurde, um das Vorhandensein oder Fehlen eines spezifischen,
durch das Lehrziel beschriebenen Kriteriumsverhaltens zu messen."
Im Gegensatz zur normbezogenen Messung (vgl. 1.), interessieren beim
kriteriumsbezogenen Test die Enden des Messskala:
Das eine Ende markiert die perfekte Beherrschung, das andere die totale
Absenz der betreffenden Fähigkeit.
Kriteriumsbezogene Verfahren weisen gegenüber traditionellen
Schularbeiten im Kontext der Evaluation zahlreiche Vorteile auf:
sie beziehen sich auf ausdrücklich beschriebene
und feststehende Kriterien und vermeiden die Nachteile klassenbezogener
Maßstäbe - wie beispielsweise das Anstreben einer Normalverteilung;
sie entsprechen einem pädagogischen Modell, bei
dem ein Großteil der Kinder erfolgreich war (vgl. das Konzept
des Mastery-Learning bei Bloom, 1970);
sie ermöglichen auf Grund ihrer klaren Aussage
pädagogisch bedeutsame Entscheidungen im Unterrichtsprozess;
sie beurteilen die Lernbemühungen der Kinder nach
ihrer Nähe/Distanz zum Lernziel und nicht nach der Distanz zu
einem bestimmten Mitschüler;
sie beurteilen den Erfolg des Lehrers bei der Vermittlung
definierter Lernziele ...
Kriteriumsbezogene Verfahren
bedürfen jedoch einer sorgfältigen Operationalisierung der
Lernziele; aus diesem Grund haben sie nur einen begrenzten Einsatzbereich.
Es ist auch zu befürchten, dass die Erreichung wichtiger Lernziele,
nur weil sie sich z.T. schwer operationalisieren lassen, nicht überprüft/evaluiert
wird. Das Prüfergebnis "Lernziel erreicht"/"Lernziel
nicht erreicht" steht darüber hinaus im Widerspruch zur
landläufig verbreiteten vier-, fünf- oder sechsstufigen
Benotungspraxis in der Schule.
![]()
4. Zur Konstruktion informeller Tests
Für die Konstruktion
und Auswertung informeller Tests skizziert BERNHARD ROSEMANN (in Heller
1984, S. 162ff.) einige idealtypische Arbeitsgänge:

Ziel des vorliegenden
Studientextes ist es allerdings nicht, Testtheoretiker auszubilden,
sondern LehrerInnen ein einfaches Werkzeug an die Hand zu geben, wie
sie selbst Tests konstruieren und ihren Unterricht evaluieren können.
Aus diesem Grund wird in der Folge auf die häufigsten Itemtypen
eingegangen sowie auf einige einfache Möglichkeiten der Itemanalyse.
Die statistische Analyse von Testverfahren sowie ihre Normierung bleibt
selbstverständlich professionellen Testkonstrukteuren vorbehalten!
![]()
4.1. Überblick über Itemtypen
Unter Items ist nach JOACHIM KRAUTH (1995) ein "Grundbaustein"
eines Tests zu verstehen. "Es handelt sich hierbei um Reize,
auf die man von den Testpersonen eine Reaktion erwartet." (Krauth
1995, S. 23).
In der Folge werden Itemtypen beschrieben wie sie in sogennnten "Papier-Bleistift-Tests"
vorkommen und nach ihren geforderten Antworten kategorisiert; zu jedem
Itemtyp wird ein Beispiel formuliert, Vor- und Nachteile werden aufgezeigt.
|
Freie (offene)
Aufgabenbeantwortung |
Gebundene
(geschlossene)
Aufgabenbeantwortung |
Zwischenformen
|
|
Aufforderung zu freier Äußerung Frage- bzw. Aufforderungsform Ergänzungsantworten (Lückentext, Lückendiktat) Assoziationsform |
Alternativ-Antworten (Zweifachwahlaufgaben) Multiple-choice Aufgaben (Mehrfachwahlaufgaben) Zuordnungsaufgaben Umordnungsaufgaben |
Korrektur- und Verbesserungsaufgaben Interpretationsaufgaben |
4.1.1. Freie (offene) Aufgabenbeantwortung
Kennzeichnend für diese Art von Aufgaben ist, dass der Schüler
die Antwort(en) selbst formulieren muss. Die Problematik solcher Items
liegt weniger in ihrer Konstruktion als in der erreichbaren Objektivität
bei der Bewertung der Antworten.
Gute Beispiele, wie bei offener Aufgabenbeantwortung eine Inhaltsanalyse
mit vorher festgesetzten Kriterien die Objektivität erhöhen
kann, finden sich in der TIMSS-Studie, wo beispielsweise zwischen
richtigen Antworten, teilweise richtigen Antworten, minimalen Antworten
und falschen Antworten differenziert wird (vgl. TIMSS [Hg.], 1997).
4.1.2. Gebundene
(geschlossene) Aufgabenbeantwortung
Antwortmöglichkeiten sind vom Testkonstrukteur bereits vorgegeben.
Der Proband ist angehalten, aus vorgegebenen Alternativen die richtige/beste/am
meisten zutreffende Antwort auszuwählen und zu kennzeichnen.
Der Schüler ist von fast aller Schreibarbeit entbunden; mangelnde
Leistungen in der Rechtschreibung fließen nicht in die Beurteilung
ein. Die Beurteilung ist in höchstem Maße rationalisiert
und objektiviert.
Auf Grund der hohen Ratewahrscheinlichkeit bei "Alternativantworten"
(True-false Items) empfiehlt es sich, diese nur sparsam einzusetzen.
Ein Mehrfachwahl-Item (Multiple choice) setzt sich aus einem
"Stamm" und drei bis sieben vorgegebenen Antwortmöglichkeiten
zusammen. Der "Stamm" kann eine unvollständige Feststellung
oder eine Frage sein. Aus den vorgegebenen Antworten ist dann die
richtige/beste/am ehesten zutreffende Antwort zu identifizieren. Oft
ist es schwierig, geeignete Distraktoren - echte Ablenker - zu finden.
Zuordnungsaufgaben (Matching Items) können nur verwendet
werden, wo zwei Kategorien einander eindeutig zugeordnet werden können,
z.B. Länder - Hauptstädte, Jahreszahlen - Ereignisse, Vokabel
... Bei Umordnungsaufgaben handelt es sich darum, dass bestimmte Objekte,
Sachverhalte ... nach einem bestimmten Kriterium in eine Reihenfolge
gebracht werden: geschichtliche Ereignisse; Probleme der Wortstellung
im Satz (Muttersprache, Fremdsprache), ...

Korrektur- und Verbesserungsaufgaben
sind vor allem im Sprachunterricht gut anwendbar, während Interpretationsaufgaben
der Überprüfung von komplexen Leistungen (schlussfolgerndes
Denken, Problemlösen ...) dienen.

weiter zu: 4.2. Empfehlungen zur Aufgabenkonstruktion