Informelle Testverfahren im Kontext pädagogischer Evaluation und Qualitätskontrolle

Renate Seebauer, Pädagogische Akademie Wien/Bund


Informelle Testverfahren werden in der deutschsprachigen Literatur in den siebziger Jahren zahlreich behandelt. War damals ihr Einsatz oft mit dem Bemühen um Objektivierung der Leistungen der Kinder verbunden, so gewinnt heute ihr Einsatz im Kontext der "Selbstevaluation von Schulen" erneut an Bedeutung. Der Autorin war es einerseits ein Anliegen, Lehrer mit dem notwendigen Rüstzeug zur selbstständigen Erstellung informeller Tests auszustatten, andererseits auch auf Probleme und Grenzen dieses Verfahrens hinzuweisen. Ferner soll der Leser auch für die Problematik des Einsatzes informeller Tests in ihrer normorientierten Variante - vor allem im Zusammenhang mit der Zensurenvergabe - sensibilisiert und angehalten werden, die eigene Zensurenpraxis kritisch zu reflektieren.

Der Studientext gliedert sich in folgende Abschnitte:

1. Einführung und Standortbestimmung
2. Elemente der Evaluation
3. Vor- und Nachteile kriteriumsbezogener informeller Tests
4. Zur Konstruktion informeller Tests
4.1. Überblick über Itemtypen
4.1.1. Freie (offene) Aufgabenbeantwortung
4.1.2. Gebundene (geschlossene) Aufgabenbeantwortung
4.1.3. Zwischenformen
4.2. Empfehlungen zur Aufgabenkonstruktion
4.3. Statistische Kurzverfahren zur Itemanalyse
5. Exkurs: Der informelle Test in seiner normorientierten Variante -
weitere statistische Grundbegriffe

Anregungen zur individuellen Weiterbearbeitung der Thematik
Literaturangaben

 

1. Einführung und Standortbestimmung

Wie bereits in anderen Studientexten skizziert wurde, ist Qualitätskontrolle eine zentrale Herausforderung an die Schule. Gleichsam als gesamteuropäische Entwicklung lässt sich erkennen, dass im Zuge der Qualitätssicherung den Schulen die Aufgabe der Selbstevaluation eröffnet wird. Sie verhilft dem einzelnen Lehrer dazu, die Qualität des Unterrichts weiter zu verbessern, sie dient der Entwicklung eines professionellen Selbstverständnisses im Lehrerteam und profiliert die Schule gegenüber der Außenwelt.
Evaluation ist heute integraler Bestandteil von Entscheidungsprozessen: Sie versteht sich als "... organized, structured procedure designed to produce and analyze data that enables judgements to be made in the control or improvement of education." (http://www.nova.edu/phe/international/ EVAL/sld003.htm)
Im Schul- und Unterrichtswesen inkludiert Evaluation die Bereiche der pädagogischen Diagnostik und Leistungsbeurteilung. In diesem Zusammenhang beschafft Evaluation "nützliche und abgesicherte Informationen für Auftraggeber, Beteiligte & Betroffene (engl. stakeholders). Sie unterstützt diese, entweder den bewerteten Gegenstand schrittweise zu stabilisieren/zu verbessern (formative-/Gestaltungs-Evaluation) oder zu bewerten (summative/Bilanz-Evaluation)." (http:// www.uni-koeln. de/ew-fak/Wiso/s_def.htm
Wenngleich Evaluation auf das Konzept (insbesondere Zielsetzungen), die Struktur (gesetzliche Bestimmungen, Ausstattung u.v.m.), den Prozess (z.B. Ablauf des pädagogischen Geschehens, Reaktionen der Teilnehmenden darauf) und das Ergebnis (kognitive/affektive Lerneffekte bei den Zielgruppen bzw. Änderungen ihrer materiellen Situation) gerichtet sein kann (vgl. http://www.uni-koeln. de/ew-fak/Wiso/s_def.htm), wird in diesem Studientext auf den informellen Test als Möglichkeit eines kriteriumorientierten (im Gegensatz zum normorientierten; vgl. Robert Glaser 1963) Prüfverfahrens interner Evaluation Bezug genommen.
Obwohl kriteriumsorientierte Prüfverfahren zumeist interindividuelle Leistungsdifferenzen zwischen Schülern zu Gunsten der Dichotomie "Lernziel erreicht"/"Lernziel nicht erreicht" vernachlässigen, öffnen sie den Blick für die Frage nach dem Unterrichtserfolg: Ein Lehrer, in dessen Klasse nur 30% der Kinder das Lernziel erreichen, wird sich kaum einreden können, sein Unterricht sei erfolgreich gewesen. Interessant erscheint auch die Akzentverschiebung hinsichtlich der Konsequenzen: Bei traditionellen Schularbeiten würden die Schüler, die negativ abgeschnitten haben, ermahnt werden, sich mit dem Lernstoff eingehender auseinanderzusetzen, bei einem ungünstigen Ausgang eines lernzielorientierten Prüfverfahrens, hat sich hingegen der Lehrer zu fragen, wie er seinen Unterricht erfolgreicher gestalten kann.


2. Elemente der Evaluation

Evaluation hat in Nordamerika eine etwa 70-jährige Tradition und ist fester Bestandteil der politischen Kultur. In Österreich sind Fragen der Evaluation im Bereich von Schulen und Universitäten erst in den neunziger Jahren des 20. Jahrhunderts in den Mittelpunkt der Diskussion getreten. Wenngleich der "informelle Test" als Instrument einer lernzielorientierten Überprüfung bereits in den siebziger Jahren in zahlreichen Publikationen anzutreffen ist (vgl. u.a. Gaude/Teschner 1973; Karas 1978 ), dürfte auf Grund des relativ hohen Arbeitsaufwandes und der mangelnden testtheoretischen Kompetenzausstattung der Lehrer die Tendenz bestehen, auf seinen Einsatz - auch im aktuellen Kontext der internen Evaluation - zu verzichten.
WERNER SCHWENDENWEIN (1993) weist in der Diskussion um das Überprüfen und Evaluieren darauf hin, dass "die Überprüfungselemente ... von ihrer Funktion her nur dann zu Evaluationselementen"
werden, "wenn sie Konsequenzen nach sich ziehen" und formuliert folgende Überprüfungs- bzw. Evaluationselemente:
(1) Wer oder was soll überprüft oder getestet werden (Überprüfungsgegenstand oder Evaluandum)?
(2) Wer ist der Überprüfer (Evaluator oder Tester)?
(3) Über welche Kriteriumsvariable(n) soll das Evaluandum überprüft oder getestet werden?
(4) Welche mündlich oder schriftlich vorwegdefinierte Erwartung (Norm, Vorstellung) liegt vor?
(5) Mit welchem Meßinstrument soll die Überprüfung vorgenommen werden?
(6) Unter welchen Bedingungen bzw. in welcher Situation soll überprüft werden (Überprüfungsbedingungen oder Testsituation)?
(7) Wie lautet der Überprüfungsbefund (Evaluationsbefund, Testergebnis oder Diagnose) nach Berücksichtigung der vorwegdefinierten Erwartung?
(8) Welche evaluativen Konsequenzen (a) als möglicher Handlungsbedarf und (b) als konkretes Handeln werden aus dem Evaluationsbefund vom Evaluator (z.B. vom Lerner) oder von anderen Personen (z.B. von Bildungsverantwortlichen) gezogen?
(Schwendenwein 1993, S. 342)

Pädagogische Produkte (z.B. kognitive Lernarbeitsergebnisse) und pädagogische Prozesse (z.B. zunehmender Gebrauch der Zielsprache im Fremdsprachenunterricht) können nach den oben skizzierten Elementen evaluiert werden. Bezüglich der Evaluation eines "typisch pädagogischen Produkts" soll nach SCHWENDENWEIN (1993) "mittels (1) Informellen Tests (Meßinstrument) (2) bei Lernern (Evaluationsgegenstand) überprüft werden, ob sie (3) bestimmte existentielle Lernziele (Evaluationsinhalt) beherrschen. (4) Der Lehrer (Evaluator) (5) erwartet sich, daß 85% der geprüften Lerner (1. Kriterium) alle existentiellen Lernziele pattern- bzw. standardmäßig beherrschen (2. Kriterium). Den Lernern sind die (6) Prüfungsbedingungen (z.B. Prüfungsdauer, Beurteilungsrichtlinien, zulässige Hilfsmittel etc.) bekannt. Nach Korrektur der Prüfungsarbeiten durch den Lehrer zeigt sich, daß (7) 88% der Lerner die existentiellen Prüfungsaufgaben richtig gelöst haben (Evaluationsbefund). Aufgrund dieses Ergebnisses besteht (8) kein mit dem Prüfungsergebnis in Zusammenhang stehender Handlungsbedarf (evaluative Konsequenz)". (Schwendenwein 1993, S. 345f.)


3. Vor- und Nachteile kriteriumsbezogener informeller Tests

Informelle Tests verstehen sich gleichsam als Kompromiss zwischen herkömmlichen Schularbeiten/ Klassenarbeiten und standardisierten (genormten) Schulleistungstests:
Sie werden vom Lehrer selbst erstellt,
orientieren sich an exakt definierten Lernzielen und
liefern Schülern und Lehrern Informationen über die Zielerreichung.
Ein kriteriumsbezogener (informeller) Test ist nach WANG (1969, S. 14; zit. bei Heller 1984, S. 100) "... ein Leistungstest, der entwickelt wurde, um das Vorhandensein oder Fehlen eines spezifischen, durch das Lehrziel beschriebenen Kriteriumsverhaltens zu messen." Im Gegensatz zur normbezogenen Messung (vgl. 1.), interessieren beim kriteriumsbezogenen Test die Enden des Messskala:
Das eine Ende markiert die perfekte Beherrschung, das andere die totale Absenz der betreffenden Fähigkeit.
Kriteriumsbezogene Verfahren weisen gegenüber traditionellen Schularbeiten im Kontext der Evaluation zahlreiche Vorteile auf:
sie beziehen sich auf ausdrücklich beschriebene und feststehende Kriterien und vermeiden die Nachteile klassenbezogener Maßstäbe - wie beispielsweise das Anstreben einer Normalverteilung;
sie entsprechen einem pädagogischen Modell, bei dem ein Großteil der Kinder erfolgreich war (vgl. das Konzept des Mastery-Learning bei Bloom, 1970);
sie ermöglichen auf Grund ihrer klaren Aussage pädagogisch bedeutsame Entscheidungen im Unterrichtsprozess;
sie beurteilen die Lernbemühungen der Kinder nach ihrer Nähe/Distanz zum Lernziel und nicht nach der Distanz zu einem bestimmten Mitschüler;
sie beurteilen den Erfolg des Lehrers bei der Vermittlung definierter Lernziele ...

Kriteriumsbezogene Verfahren bedürfen jedoch einer sorgfältigen Operationalisierung der Lernziele; aus diesem Grund haben sie nur einen begrenzten Einsatzbereich. Es ist auch zu befürchten, dass die Erreichung wichtiger Lernziele, nur weil sie sich z.T. schwer operationalisieren lassen, nicht überprüft/evaluiert wird. Das Prüfergebnis "Lernziel erreicht"/"Lernziel nicht erreicht" steht darüber hinaus im Widerspruch zur landläufig verbreiteten vier-, fünf- oder sechsstufigen Benotungspraxis in der Schule.

4. Zur Konstruktion informeller Tests

Für die Konstruktion und Auswertung informeller Tests skizziert BERNHARD ROSEMANN (in Heller 1984, S. 162ff.) einige idealtypische Arbeitsgänge:


Ziel des vorliegenden Studientextes ist es allerdings nicht, Testtheoretiker auszubilden, sondern LehrerInnen ein einfaches Werkzeug an die Hand zu geben, wie sie selbst Tests konstruieren und ihren Unterricht evaluieren können.
Aus diesem Grund wird in der Folge auf die häufigsten Itemtypen eingegangen sowie auf einige einfache Möglichkeiten der Itemanalyse. Die statistische Analyse von Testverfahren sowie ihre Normierung bleibt selbstverständlich professionellen Testkonstrukteuren vorbehalten!


4.1. Überblick über Itemtypen
Unter Items ist nach JOACHIM KRAUTH (1995) ein "Grundbaustein" eines Tests zu verstehen. "Es handelt sich hierbei um Reize, auf die man von den Testpersonen eine Reaktion erwartet." (Krauth 1995, S. 23).
In der Folge werden Itemtypen beschrieben wie sie in sogennnten "Papier-Bleistift-Tests" vorkommen und nach ihren geforderten Antworten kategorisiert; zu jedem Itemtyp wird ein Beispiel formuliert, Vor- und Nachteile werden aufgezeigt.

Freie (offene)
Aufgabenbeantwortung
Gebundene (geschlossene)
Aufgabenbeantwortung
Zwischenformen

Aufforderung zu freier
Äußerung
Frage- bzw.
Aufforderungsform
Ergänzungsantworten
(Lückentext, Lückendiktat)
Assoziationsform

Alternativ-Antworten
(Zweifachwahlaufgaben)
Multiple-choice Aufgaben
(Mehrfachwahlaufgaben)
Zuordnungsaufgaben
Umordnungsaufgaben

Korrektur- und
Verbesserungsaufgaben
Interpretationsaufgaben


4.1.1. Freie (offene) Aufgabenbeantwortung
Kennzeichnend für diese Art von Aufgaben ist, dass der Schüler die Antwort(en) selbst formulieren muss. Die Problematik solcher Items liegt weniger in ihrer Konstruktion als in der erreichbaren Objektivität bei der Bewertung der Antworten.
Gute Beispiele, wie bei offener Aufgabenbeantwortung eine Inhaltsanalyse mit vorher festgesetzten Kriterien die Objektivität erhöhen kann, finden sich in der TIMSS-Studie, wo beispielsweise zwischen richtigen Antworten, teilweise richtigen Antworten, minimalen Antworten und falschen Antworten differenziert wird (vgl. TIMSS [Hg.], 1997).


4.1.2. Gebundene (geschlossene) Aufgabenbeantwortung
Antwortmöglichkeiten sind vom Testkonstrukteur bereits vorgegeben. Der Proband ist angehalten, aus vorgegebenen Alternativen die richtige/beste/am meisten zutreffende Antwort auszuwählen und zu kennzeichnen. Der Schüler ist von fast aller Schreibarbeit entbunden; mangelnde Leistungen in der Rechtschreibung fließen nicht in die Beurteilung ein. Die Beurteilung ist in höchstem Maße rationalisiert und objektiviert.
Auf Grund der hohen Ratewahrscheinlichkeit bei "Alternativantworten" (True-false Items) empfiehlt es sich, diese nur sparsam einzusetzen.
Ein Mehrfachwahl-Item (Multiple choice) setzt sich aus einem "Stamm" und drei bis sieben vorgegebenen Antwortmöglichkeiten zusammen. Der "Stamm" kann eine unvollständige Feststellung oder eine Frage sein. Aus den vorgegebenen Antworten ist dann die richtige/beste/am ehesten zutreffende Antwort zu identifizieren. Oft ist es schwierig, geeignete Distraktoren - echte Ablenker - zu finden.
Zuordnungsaufgaben (Matching Items) können nur verwendet werden, wo zwei Kategorien einander eindeutig zugeordnet werden können, z.B. Länder - Hauptstädte, Jahreszahlen - Ereignisse, Vokabel ... Bei Umordnungsaufgaben handelt es sich darum, dass bestimmte Objekte, Sachverhalte ... nach einem bestimmten Kriterium in eine Reihenfolge gebracht werden: geschichtliche Ereignisse; Probleme der Wortstellung im Satz (Muttersprache, Fremdsprache), ...


4.1.3. Zwischenformen

Korrektur- und Verbesserungsaufgaben sind vor allem im Sprachunterricht gut anwendbar, während Interpretationsaufgaben der Überprüfung von komplexen Leistungen (schlussfolgerndes Denken, Problemlösen ...) dienen.

weiter zu: 4.2. Empfehlungen zur Aufgabenkonstruktion

 

zum Gesamt-Inhaltsverzeichnis