4.2. Empfehlungen
zur Aufgabenkonstruktion
Arbeitsanweisungen klar und eindeutig formulieren; schriftliche
Testanweisungen sollen für alle
Kinder ohne weitere Erklärungen verständlich sein;
Formulierungen vermeiden, die für die Lösung
einer Aufgabengruppe irrelevant sind oder sich
nicht auf das Testkriterium beziehen;
verdeckte Hinweise vermeiden, die die Lösung der
Aufgabe begünstigen;
bei Zweifachwahlaufgaben Sätze mit Negationen vermeiden
(ungünstig ist z.B. Ich habe noch keinerlei Vorstellungen von
meinem Beruf ... ja/nein);
Sätze mit doppelten Verneinungen vermeiden;
zwei gedankliche Inhalte sollen nicht in einem Satz
verbunden werden;
"falsche" und "richtige Items" sollen
ungefähr gleich lang sein und in annähernd gleicher Häufigkeit
vorkommen;
Fragestellungen sollen eindeutig "richtig"
oder "falsch" sein und keinen Interpretationsspielraum zulassen;
bei einem Lückentext dürfen die Lücken
nicht zu knapp aufeinander folgen, sonst geht der Sinn des Satzes
verloren;
Möglichst keine Lücken am Beginn eines Satzes;
Distraktoren vermeiden, die wesentlich über oder
unter dem Niveau der Altersgruppe liegen; solche Ablenker werden zumeist
gar nicht ins Kalkül gezogen;
bei Mehrfachwahlaufgaben soll vermieden werden, dass
die richtige Antwort immer an der gleichen Stelle auftritt (z.B. immer
Lösung (a) oder (b) ...), oder nach einem bestimmten Rhythmus
(a - b - d - d - b - a - ...) auftritt;
Itemtypen zu "Blöcken" zusammenstellen;
Aufgabenstellung nicht permanent wechseln;
Testergebnisse, die aus 10 - 15 Items resultieren, sind
mit Vorbehalt zu interpretieren; werden verlässliche Aussagen
angestrebt, sollte ein informeller Test 40 - 50 Items aufweisen (vgl.
auch Pkt. 5).
![]()
4.3. Statistische Kurzverfahren zur Itemanalyse
Nach BERNHARD ROSEMANN
(in Heller, 1984, S. 183) hat die Itemanalyse dreierlei Ziele:
"festzustellen, wie schwierig die einzelnen Aufgaben
für die Schüler sind (Schwierigkeitsgrad);
festzustellen, ob sich die Aufgaben eignen, zwischen
guten und schlechten Schülern zu unterscheiden, also solchen,
die den Unterrichtsstoff weitgehend gelernt haben und solchen, die
das nicht oder nur in geringerem Ausmaß getan haben (Trennschärfe);
festzustellen, ob bei Mehrfachwahlaufgaben die Distraktoren
plausible Alternativen zu richtigen bzw. besten Antworten darstellen
(Distraktorenanalyse)."
In der Folge wird lediglich auf die Schwierigkeitsanalyse und die
Trennschärfeanalyse eingegangen, die auch ohne Statistikkenntnisse
und ohne Zuhilfenahme von Statistikprogrammen (z.B. SPSS) einfach
durchzuführen sind (vgl. dazu auch: Rosemann, in: Heller 1984;
Lienert G.A./von Eye A. 1994).
Unter dem Schwierigkeitsindex
(Pi) eines Items versteht man den Prozentsatz einer bestimmten Stichprobe
von Schülern, die die betreffende Aufgabe richtig lösen.
Zur Berechnung ist es günstig, die richtigen bzw. falschen Antworten
pro Item und Schüler auszuzählen:

Für den Aufbau eines "Item-Pools"
empfiehlt es sich, "leichte" und "schwierige Items"
sowie Items von mittlerem Schwierigkeitsgrad zu identifizieren.
Sollen die Ergebnisse eines informellen Tests auch einer Benotung
zugeführt werden (vgl. 5) ist es günstig, je 25% leichte
und schwierige Items vorzusehen sowie 50% von mittlerem Schwierigkeitsgrad.
Die Trennschärfe eines Items bezeichnet den Grad, mit dem eine
Testaufgabe zwischen leistungsstarken und leistungsschwachen Schülern
trennen kann. Bei einem hohen Trennschärfeindex beantworten leistungsstarke
Schüler das analysierte Item mit relativ größerer
Häufigkeit richtig als leistungsschwache Schüler. Ein informeller
Test, der viele Items mit Werten um "0" oder mit "negativem
Vorzeichen" enthält, ist demnach unbrauchbar.
Die Trennschärfe kann mit Hilfe einer "Vierfeldertabelle"
einfach festgestellt werden; dazu ist es wichtig, zwei Merkmale (z.B.
Merkmal I: Aufgabe, Merkmal II: Schüler) in jeweils zwei Ausprägungen
(z.B. gelöst/nicht gelöst; leistungsfähig/leistungsschwach)
zu definieren.

Eine einfache Interpretation
(unter Vernachlässigung der Signifikanzniveaus) lässt sich
folgendermaßen vornehmen:
Große Trennschärfe: r >0,6; von mittlerer Trennschärfe
kann bei Werten zwischen 0,4 und 0,6 gesprochen werden; geringe Trennschärfe
weisen Items von r < 0,4 auf (vgl. Seebauer, Skriptum PPS, 1983-85).
R. L. EBEL (1979) empfiehlt, Items mit Trennschärfewerten zwischen
0,29 und 0,20 einer Korrektur zu unterziehen; Items mit Werten <0,19
grundsätzlich weg zu lassen.
![]()
5. Exkurs: Der informelle Test in
seiner normorientierten Variante -
weitere statistische Grundbegriffe
Da der informelle Test
von vielen Lehrern in seiner normorientierten Variante benutzt wird,
um gegenüber einer herkömmlichen Schularbeit zu objektiveren
Ergebnissen zu kommen, sei die Benotung informeller Tests an dieser
Stelle problematisiert.
SCHWENDENWEIN (1993) verweist auf das Problem, dass es "kaum
allgemein anerkannte und ernst zunehmende praktikable Bewertungsvorschriften
für materiale Prüfungsleistungen gibt". Der Lehrer
muss sich daher selbst helfen und bei "der Erstellung eines Prüfungsprogrammes
zur Abdeckung einer materialen Leistungsdimension auch gleichzeitig
die Bewertungsvorschrift festlegen, d.h. er muß sich überlegen,
für welche Lösung oder gegebenenfalls Lösungsteile
er wieviele Gutpunkte vorsieht." (Schwendenwein 1993, S. 367).
Die Anzahl von Gutpunkten, die ein Schüler bei der Bearbeitung
des Tests erhalten kann, definiert den einen Endpunkt der Gutpunkteskala,
der andere Endpunkt liegt bei null Gutpunkten.
Die Problematik der
Zensurengebung bzw. Benotung soll an einem Beispiel veranschaulicht
werden.
Dazu ist es wichtig, die Leistungen der gesamten Schülergruppe
darzustellen; dies kann in Form einer Tabelle geschehen oder als graphische
Darstellung.
Leistungen der Schüler
in einem informellen Test (Tabelle und Zensurenvorschlag von M. Chvál,
Karlsuniversität Prag):
Die folgende grafische
Veranschaulichung wurde mit Hilfe des Statistikprogramms SPSS erstellt;
die Kurve markiert die Normalverteilung. Sie kann ebenfalls als (optische)
Hilfe für die Zensurenvergabe herangezogen werden.

Ein gängiges Rechenverfahren,
um Informationen über die Leistungen einer ganzen Klasse zu erhalten,
ist die Berechnung des arithmetischen Mittels. Es ergibt sich aus
der Summe der ermittelten Maßzahlen (X) gebrochen durch die
Anzahl der Messungen aller Fälle N - in unserem Fall beträgt
dieser Wert 9,6. Es zeigt sich jedoch, dass dieser Wert gegenüber
Extremwerten (im Fall des Beispiels "1" oder "17")
anfällig ist. Wie viele Schüler sehr gute oder sehr schwache
Leistungen aufweisen, ist nicht mehr festzustellen.
Die Ermittlung der Standardabweichung kann hier Abhilfe schaffen -
vorausgesetzt, die Ergebnisse aus dem Test nähern sich einer
Normalverteilung an. Die Standardabweichung ist die Wurzel aus dem
Durchschnitt der quadrierten Abweichungen (der ermittelten Testwerte)
vom Mittelwert; sie beträgt im Fall des angeführten Beispiels
3,753 (vgl. diesbezüglich auch die Grafik). Eine geringe Standardabweichung
würde bedeuten, dass sich die ermittelten Leistungen der Kinder
um den Mittelwert gruppieren. Im angeführten Beispiel befinden
sich also bei einem Mittelwert von 9,6 die Testwerte zwischen 5,847
und 13,353 innerhalb der ersten Standardabweichung (+/-).
Überlegungen, die über die Berechnung von Mittelwert und
Standardabweichung eines Testergebnisses zu einer akzeptablen Benotung
führen sollen, beruhen auf der Annahme einer "Normalverteilung"
der Schülerleistungen, die aber bei herkömmlichen Schülerfrequenzen
in den Klassen kaum zu erwarten ist.
WERNER ZIELINSKI (1974) führt im Zusammenhang mit der Benotung
von Testleistungen einen auf der Normalverteilung beruhenden "Beurteilungsschlüssel"
an, gesteht jedoch ein, dass dieses Zensierungsmodell "nur dann
sinnvoll" ist, "wenn die Meßwerte eine genügend
große Streuung aufweisen." (Zielinski 1974, S. 898)
Nach diesem Modell ergibt sich:
Note 1: die 10% besten Arbeiten
Note 2: die folgenden 23,3% der Arbeiten
Note 3: die mittleren 33,3% der Arbeiten
Note 4: die folgenden 23,3% der Arbeiten
Note 5: die letzen 10% der Arbeiten
(Vgl. Zielinski 1974, S. 897 sowie das in der Tabelle unten ausgewiesene
Beispiel. Spalte
"Zensuren I.)
Die Beurteilung nach dem Modell der Normalverteilung ist - wie sich zeigt - fragwürdig; das Modell zementiert den klasseninternen Bezugsrahmen und macht klassen- oder schulübergreifende Vergleiche unmöglich.
Ein anderer Zugang wäre die Festlegung eines "maximal zulässigen Fehlerquantums"; es kann zwischen 10% und 49% der maximalen Punkteanzahl variieren. Die "positive Ausprägung der Zensurenskala" kann dann in gleiche Intervalle, entsprechend der Zensuren 4, 3, 2, 1 oder in degressive (intervallbreitenabnehmende) Intervalle aufgeteilt werden (vgl. Schwendenwein 1993, S. 369).
Dem Beispiel unter "Zensuren
II" in der unten stehenden Tabelle liegt der Ansatz "49%
als maximal zulässiges Fehlerquantum" (passing-level
50%) zu Grunde und die Aufteilung der darüber liegenden Punkte
in (annähernd) gleich große Intervalle.
Problematisch erscheint hier, dass sich hinter der Zensurenskala (4
bis 1) neun bis siebzehn erreichte Testpunkte verbergen. SCHWENDENWEIN
(1993) empfiehlt in diesem Zusammenhang, dass die "Gutpunkteskala
mindestens fünfmal zu lang" sein soll ... "wie die
in Frage kommende Zensurenskala" (vgl. Schwendenwein 1993, S.
369). Es sollten also mindestens zwanzig Testpunkte zur Verteilung
(also die vier Zensuren 4, 3, 2, 1 mal 5) zur Verfügung stehen
(vgl. dazu auch Sacher 1994, S. 165ff.).
Die Spalte "Zensuren III" dient zur selbständigen Ergänzung durch den Leser.
SCHWENDENWEIN (1993)
nennt folgende Indikatoren für den Einsatz eines bestimmten Beurteilungsmaßstabes:
"(1) Intervallgleiche Beurteilungsmaßstäbe für
Prüfungsprogramme sind vom Lehrer immer dann vorzusehen, wenn
in einer Großgruppe keine extremen Leistungspolarisierungen
bei Lernern beobachtet werden können. (2) Ist dies allerdings
der Fall, dann ist ein intervallbreitenabnehmender (degressiver) Beurteilungsmaßstab
mit gleichzeitiger Festlegung eines hohen Fehlerquantums anzuwenden.
Durch das hohe Fehlerquantum werden (a) einerseits leistungsschwachen
Lernern größere Erfolgschancen eingeräumt und (b)
andererseits werden durch die Intervallbreitenverringerung leistungsstarke
Lerner mehr gefordert, was zur Folge hat, daß auf diese Weise
erhaltene überdurchschnittliche Zensuren auch als solche erlebt
und nicht subjektiv abgewertet werden." (Schwendenwein 1993,
S. 369f.)
Die Verteilungen der Punkte und Möglichkeiten der Transformation
in Zensurenskalen

Versteht sich der Lehrer
nicht nur als Agent einer "bürokratischen Zuteilungsapparatur
von Lebenschancen" (Schelsky), dann drängt sich an dieser
Stelle die Frage auf, was mit jenen Kindern zu geschehen hat, deren
Arbeiten unterhalb des vorweg definierten Erwartungsbereichs liegen.
War der Test für die Kinder zu schwierig? Haben sich die Kinder
nicht ausreichend vorbereitet? War die Aufgabenstellung nicht angemessen?
War der vorausgegangene Unterricht nicht ausreichend (quantitativ/qualitativ)?
...
Damit schließt sich der Kreis zum eingangs skizzierten Anwendungsbereich
informeller Tests - nämlich zur ihrem Einsatz als Instrument
interner Evaluation, zur Kontrolle, wie erfolgreich der Unterricht
war und zur pädagogisch bedeutsamen Entscheidungsfindung für
den weiteren Unterrichtsprozess.
![]()
Anregungen zur individuellen Weiterbearbeitung der Thematik
1. Reflektieren Sie Ihre Handhabung von Tests! Für den Fall, dass Sie selbst einen informellen Test erstellt haben: Wollten Sie erheben, was die Schüler wissen, oder was sie nicht wissen? - Welche Arten von Items haben Sie erstellt? Warum? Bildete das Testergebnis bzw. eine nachfolgende Zensurenvergabe Teil der Semester-/ Jahresbeurteilung? ...)
2. Gibt es an Ihrer Schule ein Modell der Evaluation (intern/extern)? - Welche Rolle spielt im Fall einer internen Evaluation der informelle Test?
3. Stellen Sie für eines Ihrer Unterrichtsfächer nach Wahl einen informellen Test zusammen. Führen Sie nach seiner Durchführung alle im Studientext beschriebenen Verfahren zur Itemanalyse durch und erstellen Sie eine revidierte Fassung.
4. Diskutieren Sie die
Abschnitt 5 skizzierten Ansätze der Zensurenvergabe. Versuchen
Sie, ein eigenes Modell der Zensurenvergabe zu entwickeln und begründen
Sie dieses.
![]()
Literaturangaben (Verweis auf tschechische Literatur von M. Chvál, Praha)
Bloom, B.S. Alle Schüler schaffen es, in: betrifft: erziehung, 1970, 3, S. 15 -27.
Byckovský, P. Základy merení výsledku výuky. Tvorba didaktického testu. : Praha : CVUT, 1982.
Child, Dennis, Psychology And The Teacher, Cassel Educational Ltd., 4th ed. London 1993
Chráska, M. Didaktické testy v práci ucitele. Olomouc : KPÚ, 1988.
Chráska, M. Didaktické testy. Brno : Paido, 1999. ISBN 80-85931-68-0.
Dockrell, Brian, Approaches to Educational Assessment, in: Disforges Charles (ed.), An Introduction to Teaching, Blackwell, Oxford UK & Cambridge USA 1997.
Dockrell, Brian, Assessment, Teaching & Learning, in: Disforges Charles (ed.), An Introduction to Teaching, Blackwell, Oxford UK & Cambridge USA 1997.
Ebel, R.L. Essentials of educational measurement, Prentice-Hall, Englewood Cliffs, 1979.
Glaser, Robert F., Instructional technology and the measurement of learning outcomes, deutsch in: Hofer/Weinert (Hg.), Reader zum Funk-Kolleg Pädagogische Psychologie 2, Fischer, Frankfurt 1974.
Heller, Kurt A. (Hg.), Leistungsdiagnostik in der Schule, Verlag Hans Huber, Bern, Stuttgart, Toronto, 4. Auflage, 1984.
Hnilicková, J. - Josífko, M. - Tucek, A. Didaktické testy a jejich statistické zpracování. Praha : SPN, 1972.
Hrabal, V. - Lustigová, Z. - Valentová, L. Testy a testování ve škole. Praha : PedF UK, 1992.
Karas, Edwin, Der informelle Test als Hilfe zur Objektivierung der Leistungsbeurteilung, Sonderdruck aus dem Jahresbericht des Akademischen Gymnasiums Salzburg (Schuljahr 1978/79), Salzburg, o.J.
Lienert, G.A./von Eye, A. Erziehungswissenschaftliche Statistik, Eine elementare Einführung für pädagogische Berufe, Beltz, Weinheim und Basel, 1994.
Rosemann, Bernhard Konstruktion und Auswertung informeller Schulleistungstests (Lernkontrolltests), in: Heller Kurt A. (Hg.), Leistungsdiagnostik in der Schule, Verlag Hans Huber, Bern, Stuttgart, Toronto, 4. Auflage, 1984.
Sacher, Werner, Prüfen - Beurteilen - Benoten, Theoretische Grundlagen und praktische Hilfestellungen für den Primar- und Sekundarbereich, Klinkhardt, Bad Heilbrunn, 1994.
Schwendenwein, Werner, Theorie des Unterrichtens und Prüfens, WUV Universitätsverlag, Wien 1993.
Seebauer, Renate, Der informelle Test, Skriptum zum Seminar "Pädagogische Psychologie", Pädagogische Akademie des Bundes in Wien, Sommersemester 1983/84/85; Manuskript.
Straková, J. - Kašpárková, L. Matematická a prírodovedná gramotnost v tretím mezinárodním výzkumu matematického a prírodovedného vzdelávání. Praha : ÚIV, 1999. ISBN 80-211-0323-X.
TIMSS (Hg.), TIMSS Science Items, Released Set for Population 1 (Third and Fourth Grades), Chestnut Hill, 1997.
Zielinski, Werner, Die Beurteilung von Schülerleistungen, in: Weinert/Graumann/Heckhausen/Hofer (Hg.), S.877 - 900, Pädagogische Psychologie II, Fischer, Frankfurt 1974.
Zielinski, Werner, Verfahren zur Beurteilung des Unterrichts, in: Weinert/Graumann/Heckhausen/ Hofer (Hg.), S. 901 - 954, Pädagogische Psychologie II, Fischer, Frankfurt 1974.
Folgende URL's:
http://www.nova.edu/phe/international/
EVAL/sld003.htm
http://
www.uni-koeln. de/ew-fak/Wiso/s_def.htm