4.2. Empfehlungen zur Aufgabenkonstruktion
Arbeitsanweisungen klar und eindeutig formulieren; schriftliche Testanweisungen sollen für alle
Kinder ohne weitere Erklärungen verständlich sein;
Formulierungen vermeiden, die für die Lösung einer Aufgabengruppe irrelevant sind oder sich
nicht auf das Testkriterium beziehen;
verdeckte Hinweise vermeiden, die die Lösung der Aufgabe begünstigen;
bei Zweifachwahlaufgaben Sätze mit Negationen vermeiden (ungünstig ist z.B. Ich habe noch keinerlei Vorstellungen von meinem Beruf ... ja/nein);
Sätze mit doppelten Verneinungen vermeiden;
zwei gedankliche Inhalte sollen nicht in einem Satz verbunden werden;
"falsche" und "richtige Items" sollen ungefähr gleich lang sein und in annähernd gleicher Häufigkeit vorkommen;
Fragestellungen sollen eindeutig "richtig" oder "falsch" sein und keinen Interpretationsspielraum zulassen;
bei einem Lückentext dürfen die Lücken nicht zu knapp aufeinander folgen, sonst geht der Sinn des Satzes verloren;
Möglichst keine Lücken am Beginn eines Satzes;
Distraktoren vermeiden, die wesentlich über oder unter dem Niveau der Altersgruppe liegen; solche Ablenker werden zumeist gar nicht ins Kalkül gezogen;
bei Mehrfachwahlaufgaben soll vermieden werden, dass die richtige Antwort immer an der gleichen Stelle auftritt (z.B. immer Lösung (a) oder (b) ...), oder nach einem bestimmten Rhythmus (a - b - d - d - b - a - ...) auftritt;
Itemtypen zu "Blöcken" zusammenstellen; Aufgabenstellung nicht permanent wechseln;
Testergebnisse, die aus 10 - 15 Items resultieren, sind mit Vorbehalt zu interpretieren; werden verlässliche Aussagen angestrebt, sollte ein informeller Test 40 - 50 Items aufweisen (vgl. auch Pkt. 5).

4.3. Statistische Kurzverfahren zur Itemanalyse

Nach BERNHARD ROSEMANN (in Heller, 1984, S. 183) hat die Itemanalyse dreierlei Ziele:
"festzustellen, wie schwierig die einzelnen Aufgaben für die Schüler sind (Schwierigkeitsgrad);
festzustellen, ob sich die Aufgaben eignen, zwischen guten und schlechten Schülern zu unterscheiden, also solchen, die den Unterrichtsstoff weitgehend gelernt haben und solchen, die das nicht oder nur in geringerem Ausmaß getan haben (Trennschärfe);
festzustellen, ob bei Mehrfachwahlaufgaben die Distraktoren plausible Alternativen zu richtigen bzw. besten Antworten darstellen (Distraktorenanalyse)."
In der Folge wird lediglich auf die Schwierigkeitsanalyse und die Trennschärfeanalyse eingegangen, die auch ohne Statistikkenntnisse und ohne Zuhilfenahme von Statistikprogrammen (z.B. SPSS) einfach durchzuführen sind (vgl. dazu auch: Rosemann, in: Heller 1984; Lienert G.A./von Eye A. 1994).

Unter dem Schwierigkeitsindex (Pi) eines Items versteht man den Prozentsatz einer bestimmten Stichprobe von Schülern, die die betreffende Aufgabe richtig lösen.
Zur Berechnung ist es günstig, die richtigen bzw. falschen Antworten pro Item und Schüler auszuzählen:


Für den Aufbau eines "Item-Pools" empfiehlt es sich, "leichte" und "schwierige Items" sowie Items von mittlerem Schwierigkeitsgrad zu identifizieren.
Sollen die Ergebnisse eines informellen Tests auch einer Benotung zugeführt werden (vgl. 5) ist es günstig, je 25% leichte und schwierige Items vorzusehen sowie 50% von mittlerem Schwierigkeitsgrad.
Die Trennschärfe eines Items bezeichnet den Grad, mit dem eine Testaufgabe zwischen leistungsstarken und leistungsschwachen Schülern trennen kann. Bei einem hohen Trennschärfeindex beantworten leistungsstarke Schüler das analysierte Item mit relativ größerer Häufigkeit richtig als leistungsschwache Schüler. Ein informeller Test, der viele Items mit Werten um "0" oder mit "negativem Vorzeichen" enthält, ist demnach unbrauchbar.
Die Trennschärfe kann mit Hilfe einer "Vierfeldertabelle" einfach festgestellt werden; dazu ist es wichtig, zwei Merkmale (z.B. Merkmal I: Aufgabe, Merkmal II: Schüler) in jeweils zwei Ausprägungen (z.B. gelöst/nicht gelöst; leistungsfähig/leistungsschwach) zu definieren.

Eine einfache Interpretation (unter Vernachlässigung der Signifikanzniveaus) lässt sich folgendermaßen vornehmen:
Große Trennschärfe: r >0,6; von mittlerer Trennschärfe kann bei Werten zwischen 0,4 und 0,6 gesprochen werden; geringe Trennschärfe weisen Items von r < 0,4 auf (vgl. Seebauer, Skriptum PPS, 1983-85). R. L. EBEL (1979) empfiehlt, Items mit Trennschärfewerten zwischen 0,29 und 0,20 einer Korrektur zu unterziehen; Items mit Werten <0,19 grundsätzlich weg zu lassen.


5. Exkurs: Der informelle Test in seiner normorientierten Variante -
weitere statistische Grundbegriffe

Da der informelle Test von vielen Lehrern in seiner normorientierten Variante benutzt wird, um gegenüber einer herkömmlichen Schularbeit zu objektiveren Ergebnissen zu kommen, sei die Benotung informeller Tests an dieser Stelle problematisiert.
SCHWENDENWEIN (1993) verweist auf das Problem, dass es "kaum allgemein anerkannte und ernst zunehmende praktikable Bewertungsvorschriften für materiale Prüfungsleistungen gibt". Der Lehrer muss sich daher selbst helfen und bei "der Erstellung eines Prüfungsprogrammes zur Abdeckung einer materialen Leistungsdimension auch gleichzeitig die Bewertungsvorschrift festlegen, d.h. er muß sich überlegen, für welche Lösung oder gegebenenfalls Lösungsteile er wieviele Gutpunkte vorsieht." (Schwendenwein 1993, S. 367).
Die Anzahl von Gutpunkten, die ein Schüler bei der Bearbeitung des Tests erhalten kann, definiert den einen Endpunkt der Gutpunkteskala, der andere Endpunkt liegt bei null Gutpunkten.

Die Problematik der Zensurengebung bzw. Benotung soll an einem Beispiel veranschaulicht werden.
Dazu ist es wichtig, die Leistungen der gesamten Schülergruppe darzustellen; dies kann in Form einer Tabelle geschehen oder als graphische Darstellung.

Leistungen der Schüler in einem informellen Test (Tabelle und Zensurenvorschlag von M. Chvál, Karlsuniversität Prag):

Die folgende grafische Veranschaulichung wurde mit Hilfe des Statistikprogramms SPSS erstellt;
die Kurve markiert die Normalverteilung. Sie kann ebenfalls als (optische) Hilfe für die Zensurenvergabe herangezogen werden.

Ein gängiges Rechenverfahren, um Informationen über die Leistungen einer ganzen Klasse zu erhalten, ist die Berechnung des arithmetischen Mittels. Es ergibt sich aus der Summe der ermittelten Maßzahlen (X) gebrochen durch die Anzahl der Messungen aller Fälle N - in unserem Fall beträgt dieser Wert 9,6. Es zeigt sich jedoch, dass dieser Wert gegenüber Extremwerten (im Fall des Beispiels "1" oder "17") anfällig ist. Wie viele Schüler sehr gute oder sehr schwache Leistungen aufweisen, ist nicht mehr festzustellen.
Die Ermittlung der Standardabweichung kann hier Abhilfe schaffen - vorausgesetzt, die Ergebnisse aus dem Test nähern sich einer Normalverteilung an. Die Standardabweichung ist die Wurzel aus dem Durchschnitt der quadrierten Abweichungen (der ermittelten Testwerte) vom Mittelwert; sie beträgt im Fall des angeführten Beispiels 3,753 (vgl. diesbezüglich auch die Grafik). Eine geringe Standardabweichung würde bedeuten, dass sich die ermittelten Leistungen der Kinder um den Mittelwert gruppieren. Im angeführten Beispiel befinden sich also bei einem Mittelwert von 9,6 die Testwerte zwischen 5,847 und 13,353 innerhalb der ersten Standardabweichung (+/-).
Überlegungen, die über die Berechnung von Mittelwert und Standardabweichung eines Testergebnisses zu einer akzeptablen Benotung führen sollen, beruhen auf der Annahme einer "Normalverteilung" der Schülerleistungen, die aber bei herkömmlichen Schülerfrequenzen in den Klassen kaum zu erwarten ist.
WERNER ZIELINSKI (1974) führt im Zusammenhang mit der Benotung von Testleistungen einen auf der Normalverteilung beruhenden "Beurteilungsschlüssel" an, gesteht jedoch ein, dass dieses Zensierungsmodell "nur dann sinnvoll" ist, "wenn die Meßwerte eine genügend große Streuung aufweisen." (Zielinski 1974, S. 898)
Nach diesem Modell ergibt sich:
Note 1: die 10% besten Arbeiten
Note 2: die folgenden 23,3% der Arbeiten
Note 3: die mittleren 33,3% der Arbeiten
Note 4: die folgenden 23,3% der Arbeiten
Note 5: die letzen 10% der Arbeiten
(Vgl. Zielinski 1974, S. 897 sowie das in der Tabelle unten ausgewiesene Beispiel. Spalte
"Zensuren I.)

Die Beurteilung nach dem Modell der Normalverteilung ist - wie sich zeigt - fragwürdig; das Modell zementiert den klasseninternen Bezugsrahmen und macht klassen- oder schulübergreifende Vergleiche unmöglich.

Ein anderer Zugang wäre die Festlegung eines "maximal zulässigen Fehlerquantums"; es kann zwischen 10% und 49% der maximalen Punkteanzahl variieren. Die "positive Ausprägung der Zensurenskala" kann dann in gleiche Intervalle, entsprechend der Zensuren 4, 3, 2, 1 oder in degressive (intervallbreitenabnehmende) Intervalle aufgeteilt werden (vgl. Schwendenwein 1993, S. 369).

Dem Beispiel unter "Zensuren II" in der unten stehenden Tabelle liegt der Ansatz "49% als maximal zulässiges Fehlerquantum" (passing-level 50%) zu Grunde und die Aufteilung der darüber liegenden Punkte in (annähernd) gleich große Intervalle.
Problematisch erscheint hier, dass sich hinter der Zensurenskala (4 bis 1) neun bis siebzehn erreichte Testpunkte verbergen. SCHWENDENWEIN (1993) empfiehlt in diesem Zusammenhang, dass die "Gutpunkteskala mindestens fünfmal zu lang" sein soll ... "wie die in Frage kommende Zensurenskala" (vgl. Schwendenwein 1993, S. 369). Es sollten also mindestens zwanzig Testpunkte zur Verteilung (also die vier Zensuren 4, 3, 2, 1 mal 5) zur Verfügung stehen (vgl. dazu auch Sacher 1994, S. 165ff.).

Die Spalte "Zensuren III" dient zur selbständigen Ergänzung durch den Leser.

SCHWENDENWEIN (1993) nennt folgende Indikatoren für den Einsatz eines bestimmten Beurteilungsmaßstabes:
"(1) Intervallgleiche Beurteilungsmaßstäbe für Prüfungsprogramme sind vom Lehrer immer dann vorzusehen, wenn in einer Großgruppe keine extremen Leistungspolarisierungen bei Lernern beobachtet werden können. (2) Ist dies allerdings der Fall, dann ist ein intervallbreitenabnehmender (degressiver) Beurteilungsmaßstab mit gleichzeitiger Festlegung eines hohen Fehlerquantums anzuwenden. Durch das hohe Fehlerquantum werden (a) einerseits leistungsschwachen Lernern größere Erfolgschancen eingeräumt und (b) andererseits werden durch die Intervallbreitenverringerung leistungsstarke Lerner mehr gefordert, was zur Folge hat, daß auf diese Weise erhaltene überdurchschnittliche Zensuren auch als solche erlebt und nicht subjektiv abgewertet werden." (Schwendenwein 1993, S. 369f.)


Die Verteilungen der Punkte und Möglichkeiten der Transformation in Zensurenskalen

Versteht sich der Lehrer nicht nur als Agent einer "bürokratischen Zuteilungsapparatur von Lebenschancen" (Schelsky), dann drängt sich an dieser Stelle die Frage auf, was mit jenen Kindern zu geschehen hat, deren Arbeiten unterhalb des vorweg definierten Erwartungsbereichs liegen.
War der Test für die Kinder zu schwierig? Haben sich die Kinder nicht ausreichend vorbereitet? War die Aufgabenstellung nicht angemessen? War der vorausgegangene Unterricht nicht ausreichend (quantitativ/qualitativ)? ...
Damit schließt sich der Kreis zum eingangs skizzierten Anwendungsbereich informeller Tests - nämlich zur ihrem Einsatz als Instrument interner Evaluation, zur Kontrolle, wie erfolgreich der Unterricht war und zur pädagogisch bedeutsamen Entscheidungsfindung für den weiteren Unterrichtsprozess.

Anregungen zur individuellen Weiterbearbeitung der Thematik

1. Reflektieren Sie Ihre Handhabung von Tests! Für den Fall, dass Sie selbst einen informellen Test erstellt haben: Wollten Sie erheben, was die Schüler wissen, oder was sie nicht wissen? - Welche Arten von Items haben Sie erstellt? Warum? Bildete das Testergebnis bzw. eine nachfolgende Zensurenvergabe Teil der Semester-/ Jahresbeurteilung? ...)

2. Gibt es an Ihrer Schule ein Modell der Evaluation (intern/extern)? - Welche Rolle spielt im Fall einer internen Evaluation der informelle Test?

3. Stellen Sie für eines Ihrer Unterrichtsfächer nach Wahl einen informellen Test zusammen. Führen Sie nach seiner Durchführung alle im Studientext beschriebenen Verfahren zur Itemanalyse durch und erstellen Sie eine revidierte Fassung.

4. Diskutieren Sie die Abschnitt 5 skizzierten Ansätze der Zensurenvergabe. Versuchen Sie, ein eigenes Modell der Zensurenvergabe zu entwickeln und begründen Sie dieses.

Literaturangaben (Verweis auf tschechische Literatur von M. Chvál, Praha)

Bloom, B.S. Alle Schüler schaffen es, in: betrifft: erziehung, 1970, 3, S. 15 -27.

Byckovský, P. Základy merení výsledku výuky. Tvorba didaktického testu. : Praha : CVUT, 1982.

Child, Dennis, Psychology And The Teacher, Cassel Educational Ltd., 4th ed. London 1993

Chráska, M. Didaktické testy v práci ucitele. Olomouc : KPÚ, 1988.

Chráska, M. Didaktické testy. Brno : Paido, 1999. ISBN 80-85931-68-0.

Dockrell, Brian, Approaches to Educational Assessment, in: Disforges Charles (ed.), An Introduction to Teaching, Blackwell, Oxford UK & Cambridge USA 1997.

Dockrell, Brian, Assessment, Teaching & Learning, in: Disforges Charles (ed.), An Introduction to Teaching, Blackwell, Oxford UK & Cambridge USA 1997.

Ebel, R.L. Essentials of educational measurement, Prentice-Hall, Englewood Cliffs, 1979.

Glaser, Robert F., Instructional technology and the measurement of learning outcomes, deutsch in: Hofer/Weinert (Hg.), Reader zum Funk-Kolleg Pädagogische Psychologie 2, Fischer, Frankfurt 1974.

Heller, Kurt A. (Hg.), Leistungsdiagnostik in der Schule, Verlag Hans Huber, Bern, Stuttgart, Toronto, 4. Auflage, 1984.

Hnilicková, J. - Josífko, M. - Tucek, A. Didaktické testy a jejich statistické zpracování. Praha : SPN, 1972.

Hrabal, V. - Lustigová, Z. - Valentová, L. Testy a testování ve škole. Praha : PedF UK, 1992.

Karas, Edwin, Der informelle Test als Hilfe zur Objektivierung der Leistungsbeurteilung, Sonderdruck aus dem Jahresbericht des Akademischen Gymnasiums Salzburg (Schuljahr 1978/79), Salzburg, o.J.

Lienert, G.A./von Eye, A. Erziehungswissenschaftliche Statistik, Eine elementare Einführung für pädagogische Berufe, Beltz, Weinheim und Basel, 1994.

Rosemann, Bernhard Konstruktion und Auswertung informeller Schulleistungstests (Lernkontrolltests), in: Heller Kurt A. (Hg.), Leistungsdiagnostik in der Schule, Verlag Hans Huber, Bern, Stuttgart, Toronto, 4. Auflage, 1984.

Sacher, Werner, Prüfen - Beurteilen - Benoten, Theoretische Grundlagen und praktische Hilfestellungen für den Primar- und Sekundarbereich, Klinkhardt, Bad Heilbrunn, 1994.

Schwendenwein, Werner, Theorie des Unterrichtens und Prüfens, WUV Universitätsverlag, Wien 1993.

Seebauer, Renate, Der informelle Test, Skriptum zum Seminar "Pädagogische Psychologie", Pädagogische Akademie des Bundes in Wien, Sommersemester 1983/84/85; Manuskript.

Straková, J. - Kašpárková, L. Matematická a prírodovedná gramotnost v tretím mezinárodním výzkumu matematického a prírodovedného vzdelávání. Praha : ÚIV, 1999. ISBN 80-211-0323-X.

TIMSS (Hg.), TIMSS Science Items, Released Set for Population 1 (Third and Fourth Grades), Chestnut Hill, 1997.

Zielinski, Werner, Die Beurteilung von Schülerleistungen, in: Weinert/Graumann/Heckhausen/Hofer (Hg.), S.877 - 900, Pädagogische Psychologie II, Fischer, Frankfurt 1974.

Zielinski, Werner, Verfahren zur Beurteilung des Unterrichts, in: Weinert/Graumann/Heckhausen/ Hofer (Hg.), S. 901 - 954, Pädagogische Psychologie II, Fischer, Frankfurt 1974.

Folgende URL's:
http://www.nova.edu/phe/international/ EVAL/sld003.htm
http:// www.uni-koeln. de/ew-fak/Wiso/s_def.htm


 

zum Gesamt-Inhaltsverzeichnis