Top 4 Merkmale eines guten Tests

Dieser Artikel beleuchtet die vier wichtigen Merkmale eines guten Tests. Die vier Merkmale sind: 1. Zuverlässigkeit 2. Gültigkeit 3. Objektivität 4. Verwendbarkeit.

Merkmal # 1. Zuverlässigkeit:

Die Wörterbuchbedeutung von Zuverlässigkeit ist Konsistenz, Abhängigkeit oder Vertrauen. In der Messsicherheit ist also die Konsistenz, mit der ein Test das gleiche Ergebnis liefert, was er auch misst. Ein Test-Score wird als zuverlässig bezeichnet, wenn Grund zu der Annahme besteht, dass der Score stabil und vertrauenswürdig ist. Stabilität und Vertrauenswürdigkeit hängen davon ab, inwieweit die Bewertung ein Index für Zeitzuverlässigkeit ist. Zuverlässigkeit kann daher als Konsistenzgrad zwischen zwei Messungen desselben definiert werden.

Zum Beispiel haben wir einen Leistungstest für Gruppe-A durchgeführt und eine mittlere Punktzahl von 55 ermittelt. Nach drei Tagen haben wir denselben Test für Gruppe-A durchgeführt und eine mittlere Punktzahl von 55 ermittelt. Dies zeigt an, dass das Messgerät (Leistungstest) liefert ein stabiles oder zuverlässiges Ergebnis. Wenn der Test in der zweiten Messung dagegen eine mittlere Bewertung um 77 ergibt, können wir sagen, dass die Testergebnisse nicht konsistent sind.

In den Worten von Gronlund und Linn (1995) bezieht sich „Zuverlässigkeit auf die Konsistenz der Messung - dh wie konsistente Testergebnisse oder andere Bewertungsergebnisse von einer Messung zur anderen sind.“

CV Good (1973) hat Zuverlässigkeit als „Wertigkeit definiert, mit der ein Messgerät etwas misst; der Grad, bis zu dem ein Test oder ein anderes Instrument der Bewertung konsequent misst, was tatsächlich gemessen wird. “

Ebel und Frisbie (1991) zufolge bedeutet "Zuverlässigkeit" die Konsistenz, mit der eine Reihe von Testergebnissen das messen, was sie messen. "

Theoretisch wird Zuverlässigkeit als das Verhältnis der wahren Bewertung und der beobachteten Bewertungsvarianz definiert.

Nach Davis (1946) ist "der Grad der relativen Genauigkeit der Messung eines Satzes von Testergebnissen als Zuverlässigkeit definiert."

Somit beantwortet Zuverlässigkeit folgende Fragen:

Gronlund und Linn (1995)

Wie ähnlich sind die Testergebnisse, wenn der Verlust zweimal verabreicht wird?

Wie ähnlich sind die Testergebnisse, wenn zwei äquivalente Testformen verabreicht werden?

Inwieweit werden die Noten eines Aufsatztests bewertet. Unterschied, wenn es von verschiedenen Lehrern bewertet wird?

Es ist nicht immer möglich, vollkommen konsistente Ergebnisse zu erzielen. Denn es gibt verschiedene Faktoren wie körperliche Gesundheit, Gedächtnis, Vermutung, Ermüdung, Vergessen usw., die die Ergebnisse von einer Messung zur anderen beeinflussen können. Diese fremden Variablen können Fehler in unseren Testergebnissen verursachen. Dieser Fehler wird als Messfehler bezeichnet. Bei der Bestimmung der Zuverlässigkeit eines Tests müssen wir daher die Fehlermenge berücksichtigen, die bei der Messung vorhanden ist.

Art der Zuverlässigkeit:

1. Zuverlässigkeit bezieht sich auf die Konsistenz der mit einem Instrument erzielten Ergebnisse, nicht jedoch mit dem Instrument selbst

2. Zuverlässigkeit bezieht sich auf eine bestimmte Interpretation der Testergebnisse. Beispielsweise kann eine Testbewertung, die über einen bestimmten Zeitraum zuverlässig ist, von einem Test zu einem anderen äquivalenten Test nicht zuverlässig sein. Diese Zuverlässigkeit kann daher nicht als allgemeine Merkmale betrachtet werden.

3. Zuverlässigkeit ist ein statistisches Konzept zur Bestimmung der Zuverlässigkeit. Wir führen einen Test einmal oder mehrmals für eine Gruppe durch. Dann wird die Konsistenz in Bezug auf Verschiebungen in der relativen Position einer Person in der Gruppe oder in Bezug auf die erwartete Abweichung in der Punktzahl einer Person bestimmt. Die Verschiebung der relativen Position eines Individuums hängt von einem Korrelationskoeffizienten ab, der als "Zuverlässigkeitskoeffizient" bezeichnet wird, und der Schwankungsbetrag wird als "Standardfehler der Messung" angegeben. Beide Prozesse sind statistisch.

4. Zuverlässigkeit ist notwendig, aber keine ausreichende Bedingung für die Gültigkeit. Ein nicht zuverlässiger Test kann nicht gültig sein. Es ist jedoch nicht so, dass ein Test mit hoher Zuverlässigkeit eine hohe Gültigkeit besitzt. Denn ein sehr konsistenter Test kann etwas anderes als das messen, was wir messen wollen.

Methoden zur Bestimmung der Zuverlässigkeit:

Für die meisten Schulungstests bietet der Zuverlässigkeitskoeffizient den aufschlussreichsten statistischen Qualitätsindex, der normalerweise verfügbar ist. Schätzungen der Zuverlässigkeit des Tests liefern wichtige Informationen, um ihre technische Qualität zu beurteilen und die Bemühungen um deren Verbesserung zu motivieren. Die Konsistenz einer Testergebnisse wird entweder in Verschiebungen der relativen Position einer Person in der Gruppe oder in Form einer Variation in der Bewertung einer Person ausgedrückt.

Aufgrund dieser Einschätzung der Zuverlässigkeit lassen sich zwei allgemeine Einstufungen vornehmen:

(ich) Relative Zuverlässigkeit oder Zuverlässigkeitskoeffizient:

Bei diesem Verfahren wird die Zuverlässigkeit in Form eines als Zuverlässigkeitskoeffizient bekannten Korrelationskoeffizienten angegeben. Daher bestimmen wir die Verschiebung der relativen Position der Bewertung eines Individuums durch den Korrelationskoeffizienten.

(ii) Absolute Zuverlässigkeit oder Standardfehler der Messung:

Bei dieser Methode wird die Zuverlässigkeit als Standardmessfehler angegeben. Es gibt den Grad der Variation der Punktzahl einer Person an.

Methoden zur Bestimmung der relativen Zuverlässigkeit oder des Zuverlässigkeitskoeffizienten:

Um den Zuverlässigkeitskoeffizienten zu bestimmen, müssen wir zwei Sätze von Messungen unter identischen Bedingungen erhalten und dann die beiden Sätze vergleichen. Dies ist jedoch nur eine theoretische Bedingung, da es uns unmöglich ist, zwei Messungen unter genau zwei identischen Bedingungen durchzuführen. So wurden mehrere Methoden entwickelt, um die relative Zuverlässigkeit zu bestimmen.

Sie sind wie folgt (Gronlund und Linn - 1995):

(i) Dieselbe Testform kann der gleichen Personengruppe zweimal verabreicht werden.

(ii) Zwei verschiedene, aber gleichwertige Testformen können denselben Personen verabreicht werden.

(iii) Die Testobjekte eines einzelnen Tests werden in zwei separate Sätze unterteilt und die Bewertungen von zwei Sätzen werden miteinander korreliert.

Die Methoden sind insofern ähnlich, als sie alle zwei Datensätze miteinander korrelieren, die entweder aus demselben Bewertungsinstrument oder aus gleichwertigen Formen desselben Verfahrens stammen. Dieser Zuverlässigkeitskoeffizient muss in Bezug auf die untersuchten Konsistenzarten interpretiert werden.

Unterschiedliche Konsistenztypen werden durch unterschiedliche Methoden bestimmt. Dies sind wie folgt:

1. Konsistenz über einen Zeitraum.

2. Konsistenz über verschiedene Instrumenten.

3. Konsistenz im Instrument selbst

Es gibt vier Methoden zum Bestimmen des Zuverlässigkeitskoeffizienten, z.

(a) Test-Retest-Methode

(b) Äquivalentformulare / Parallelformmethode.

(c) Split-Half-Methode

(d) Rational Equivalence / Kuder-Richardson-Methode.

(a) Test-Retest-Methode:

Dies ist die einfachste Methode zur Bestimmung der Testzuverlässigkeit. Um die Zuverlässigkeit dieser Methode zu bestimmen, wird der Test in derselben Gruppe angegeben und wiederholt. Dann wird die Korrelation zwischen dem ersten Satz von Bewertungen und dem zweiten Satz von Bewertungen erhalten.

Ein hoher Korrelationskoeffizient zeigt eine hohe Stabilität der Testergebnisse an. Mit den Worten von Gronlund werden Stabilitätsmessungen in den 0, 8er- und 90er-Jahren häufig für standardisierte Tests für Gelegenheiten innerhalb desselben Jahres angegeben. Diese Methode weist jedoch einige gravierende Nachteile auf. Zuallererst sollte der Abstand zwischen zwei Verwaltungen sein.

Wenn es innerhalb eines kurzen Intervalls, etwa ein oder zwei Tage, verabreicht wird, ruft der Schüler seine ersten Antworten ab und verbringt seine Zeit mit neuem Material. Sie wird tendenziell ihre Punktzahl in zweiten Verwaltungen erhöhen. Wenn das Intervall zu lang ist, beispielsweise ein Jahr, wirkt sich der Reifungseffekt auf die Retest-Bewertungen aus und erhöht tendenziell die Retest-Bewertungen.

In beiden Fällen neigt es dazu, die Zuverlässigkeit zu verringern. Wie groß der Zeitunterschied zwischen zwei Verwaltungen sein sollte, hängt im Wesentlichen von der Verwendung und Interpretation der Testergebnisse ab. Aufgrund seiner Schwierigkeiten bei der Kontrolle von Bedingungen, die die Wiederholungsprüfungen beeinflussen, wird die Verwendung der Test-Retest-Methode zur Schätzung des Zuverlässigkeitskoeffizienten reduziert.

(b) Methode der äquivalenten Formen / parallelen Formen:

Die Zuverlässigkeit der Testergebnisse kann durch die Methode der gleichwertigen Formen geschätzt werden. Es ist auch als alternative Form oder Parallelformmethode bekannt. Wenn zwei äquivalente Testformen konstruiert werden können, kann die Korrelation zwischen den beiden als Maß für die Selbstkorrelation des Tests genommen werden. In diesem Prozess werden zwei parallele Testformen derselben Gruppe von Schülern in einem kurzen Zeitintervall verabreicht, und dann werden die Bewertungen beider Tests miteinander korreliert. Diese Korrelation liefert den Äquivalenzindex. Bei standardisierten psychologischen und Leistungstests stehen in der Regel die entsprechenden Formen zur Verfügung.

Beide für die Verwaltung ausgewählten Tests sollten in Bezug auf Inhalt, Schwierigkeitsgrad, Format und Länge parallel sein. Wenn eine Zeitlücke zwischen den Verwaltungen von zwei Arten von Tests bereitgestellt wird, liefern die Testkoeffizienten ein Maß für die Zuverlässigkeit und Äquivalenz. Der größte Nachteil dieser Methode besteht jedoch darin, zwei parallele Testformen zu erhalten. Wenn die Tests hinsichtlich Inhalt, Schwierigkeit, Länge und Vergleich der mit diesen Tests erzielten Bewertungen nicht genau gleich sind, kann dies zu fehlerhaften Entscheidungen führen.

(c) Split-Half-Methode:

Es gibt auch Methoden, mit denen die Zuverlässigkeit durch einmalige Verwaltung eines einzelnen Tests ermittelt werden kann. Eine solche Methode ist die Split-Half-Methode. Bei dieser Methode wird einer Gruppe von Schülern auf übliche Weise ein Test unterzogen. Dann wird der Test in zwei äquivalente Werte unterteilt und die Korrelation für diese Halbtests wird ermittelt.

Das übliche Verfahren zum Aufteilen des Tests besteht darin, alle ungeradzahligen Elemente, dh 1, 3, 5 usw., in eine Hälfte und alle geradzahligen Elemente, dh 2, 4, 6, 8 usw., in die andere Hälfte einzuteilen Die Hälften werden mit der Spearman-Brown-Formel korreliert.

Zum Beispiel haben wir durch Korrelieren beider Hälften einen Koeffizienten von 0, 70 gefunden.

Durch die Verwendung der Formel (5.1) können wir den Zuverlässigkeitskoeffizienten für den vollständigen Test erhalten:

Der Zuverlässigkeitskoeffizient 0, 82, wenn der Korrelationskoeffizient zwischen dem halben Test 0, 70 beträgt. Sie gibt an, inwieweit die Stichprobe der Testobjekte eine zuverlässige Stichprobe des zu messenden Inhalts ist - interne Konsistenz.

Gronlund (1995) vertritt die Ansicht, dass "Split-Half-Reliabilitäten tendenziell höher sind als äquivalente Form-Reliabilitäten, da die Split-Half-Methode auf der Verwaltung eines einzelnen Testformulars basiert." Diese Methode löst das Problem der eingeführten Equivalent-Form-Methode aufgrund von Unterschieden von Form zu Form, in Bezug auf Aufmerksamkeit, Arbeitsgeschwindigkeit, Anstrengung, Ermüdung und Testinhalt usw.

(d) Rational Equivalent / Kuder-Richardson-Verfahren:

Die rationale Äquivalenz ist eine weitere Methode zur Bestimmung der Zuverlässigkeit unter Verwendung der von Kuder und Richardson entwickelten Formel. Wie die Split-Half-Methode liefert diese Methode auch ein Maß für die interne Konsistenz. Es erfordert weder die Verabreichung von zwei gleichwertigen Testformen noch die Aufteilung der Tests in zwei gleiche Hälften. Der Zuverlässigkeitskoeffizient wird unter Verwendung der Kuder-Richardson-Formel 20 bestimmt, die auf diese Weise liest.

Diese Methode gibt Auskunft darüber, inwieweit die Testobjekte ähnliche Merkmale messen. Obwohl die Anwendung dieser Methode so einfach ist, dass sie weit verbreitet ist, gibt es einige Einschränkungen.

1. Die Kuder-Richardson-Methode und die Split-Half-Methode sind für Geschwindigkeitstests nicht geeignet.

2. Sowohl die Kuder-Richardson- als auch die Split-Half-Methode messen die Konsistenz der Pupillenreaktion nicht von Tag zu Tag.

3. Die Berechnung der Kuder-Richardson-Methode ist umständlich, wenn nicht bereits Angaben zum Anteil des Bestehens vorliegen.

Methoden zur Bestimmung der absoluten Zuverlässigkeit oder Standardfehler der Messung:

Wenn wir immer wieder einen Test durchführen, werden wir einige Abweichungen in den Bewertungen feststellen. Weil die erhaltene Bewertung ein Index der wahren Bewertung des Prüflings ist, plus: Messfehler. HE Garrett (1985) hat eine wahre Bewertung definiert als „ein Maß, das erhalten werden würde, wenn der Mittelwert einer unendlich großen Anzahl von Messungen eines bestimmten Individuums bei ähnlichen Tests unter ähnlichen Bedingungen genommen wird. Eine wahre Punktzahl kann natürlich nicht experimentell bestimmt werden “ .

Wenn die Testergebnisse eine große Fehlerkomponente enthalten, ist ihre Zuverlässigkeit gering, und wenn sie einige Fehler enthält, ist ihre Zuverlässigkeit hoch. Somit kann das Ausmaß, in dem eine wahre Bewertung übersteigt, ein Fehler in den erhaltenen Bewertungen durch den Zuverlässigkeitskoeffizienten angezeigt werden.

Diese Beziehung zwischen wahrer Bewertung, erzielten Bewertungen und dem Fehler kann mathematisch wie folgt ausgedrückt werden:

Wir können den Standardfehler der Messung (SE) herausfinden, wenn der Zuverlässigkeitskoeffizient und die Standardabweichung der Verteilung angegeben sind.

Die Formel (Garrett-1985) zur Berechnung des Standardmessfehlers lautet wie folgt:

In einer Gruppe von 200 Gymnasiasten zum Beispiel beträgt der Zuverlässigkeitskoeffizient eines Leistungstests in der Mathematik 0, 70, der Mittelwert = 65 und der o = 20. Lipu erreicht eine Punktzahl von 60. Wie lautet die SE dieser Punktzahl.

Setzen Sie den Wert in Formel (5.3):

Der wahre Wert von Lipu ist also 60 ± 10, 95, dh 70, 50 bis 49, 05.

Kein erhaltener Score sagt uns, was der wahre Score ist, aber die Kenntnis der SE zeigt den Unterschied zwischen dem erhaltenen Score und dem wahren Score an. Wenn der SE-Wert klein ist, zeigt dies an, dass die wahre Bewertung näher an der erhaltenen Bewertung liegt, und gibt außerdem an, ob die Differenz zwischen den Bewertungen zweier Individuen eine echte Differenz oder eine Differenz aufgrund von Messfehlern ist.

Einflussfaktoren auf die Zuverlässigkeit:

Es gibt eine Reihe von Faktoren, die die Zuverlässigkeitsmaße beeinflussen. Wenn wir also die Ergebnisse interpretieren und verwenden, müssen wir vorsichtig sein und diese Faktoren durch Testvorbereitung und -verwaltung manipulieren.

Die Hauptfaktoren, die die Zuverlässigkeit des Tests beeinflussen, können in drei Überschriften unterteilt werden:

1. Faktoren im Zusammenhang mit dem Test

2. Mit Testpersonen verbundene Faktoren.

3. Faktoren im Zusammenhang mit dem Testverfahren.

1. Faktoren im Zusammenhang mit dem Test:

(a) Dauer der Prüfung:

Die Formel von Spearman Brown zeigt an, dass die Zuverlässigkeit umso höher ist, je länger der Test ist. Weil ein längerer Test eine angemessene Probe des Verhaltens liefert. Eine andere Ursache ist, dass der Schätzfaktor in einem längeren Test möglicherweise neutralisiert wird.

Zum Beispiel, wenn wir eine Berechnung geben, um die numerische Fähigkeit der Schüler zu messen. Diejenigen, die richtig berechnet haben, sind hinsichtlich der numerischen Fähigkeiten perfekt. Wenn die Berechnung schwierig ist, werden die meisten Schüler versagen. Wenn es einfach ist, werden die meisten Schüler es korrekt berechnen. Diese Einzelpunktbewertung liefert also niemals ein zuverlässiges Ergebnis.

(b) Inhalt der Prüfung:

Laut Guilford erhöht die Homogenität des Testinhalts auch die Zuverlässigkeit der Testergebnisse. Ein Test von 50 Artikeln über Vedic Civilization liefert zuverlässigere Ergebnisse als ein Test von 50 Artikeln der indischen Geschichte. Nach Ebel (1991) "ist das Fach in einigen Kursen, wie Mathematik und Fremdsprache, enger organisiert und weist eine stärkere gegenseitige Abhängigkeit von Fakten, Prinzipien, Fähigkeiten und Leistungen auf als in der Fachliteratur oder der Geschichte." ist auch ein Faktor, der zu einer hohen Zuverlässigkeit führt.

(c) Merkmale der Artikel:

Der Schwierigkeitsgrad und die Klarheit des Ausdrucks eines Prüflings beeinflussen auch die Zuverlässigkeit der Prüfergebnisse. Wenn die Testobjekte für die Mitglieder der Gruppe zu einfach oder zu schwierig sind, führt dies tendenziell zu einer geringen Zuverlässigkeit. Weil beide Tests eine begrenzte Anzahl von Punkten haben.

(d) Streuung von Scores:

Laut Gronlund und Minn (1995) gilt: „Andere Faktoren sind gleich, je größer die Streuung der Scores ist, desto höher ist die Schätzung der Zuverlässigkeit.“ Wenn die Streuung der Scores groß ist, besteht eine größere Chance für ein Individuum, im selben Bereich zu bleiben relative Position in einer Gruppe von einem Test zum anderen. Wir können sagen, dass Messfehler sich weniger auf die relative Position des Individuums auswirken, wenn die Streuung der Bewertungen groß ist.

In der Gruppe A haben die Schüler beispielsweise Noten zwischen 30 und 80 und die Schüler der Gruppe B Noten von 65 bis 75 erhalten. Wenn wir die Tests zum zweiten Mal in der Gruppe A durchführen, können die Testergebnisse der einzelnen Personen um mehrere Punkte variieren. mit sehr wenig Verschiebung in der relativen Position der Gruppenmitglieder. Dies liegt daran, dass die Streuung der Ergebnisse in Gruppe A groß ist.

Auf der anderen Seite verschieben die Ergebnisse in Gruppe B wahrscheinlich die Position bei einer zweiten Testverwaltung. Da die Streuung der Punktzahlen von der höchsten Punktzahl bis zur niedrigsten Punktzahl nur 10 Punkte beträgt, kann eine Änderung weniger Punkte radikale Verschiebungen in der relativen Position der Einzelnen bewirken. Je größer die Streuung, desto größer ist die Zuverlässigkeit.

2. Faktoren im Zusammenhang mit Testpersonen:

Die Variabilität der Leistung, die Testwissheit der Individuen und die Motivation der Schüler beeinflussen auch die Zuverlässigkeit der Testergebnisse.

Nachfolgend sind einige wichtige Faktoren aufgeführt, die die Testzuverlässigkeit beeinflussen:

(a) Heterogenität der Gruppe:

Wenn die Gruppe eine homogene Gruppe ist, ist die Streuung der Testergebnisse wahrscheinlich geringer, und wenn die getestete Gruppe eine heterogene Gruppe ist, ist die Streuung der Bewertungen wahrscheinlich größer. Daher wird der Zuverlässigkeitskoeffizient für eine heterogene Gruppe mehr als eine homogene Gruppe sein.

(b) Test des Wissens der Schüler:

Die Erfahrung der Testdurchführung beeinflusst auch die Zuverlässigkeit der Testergebnisse. Die Übung der Schüler bei anspruchsvollen Tests erhöht die Zuverlässigkeit der Tests. Wenn jedoch in einer Gruppe nicht alle Schüler den gleichen Testlevel haben, führt dies zu größeren Messfehlern.

(c) Motivation der Studenten:

Wenn die Schüler nicht motiviert sind, den Test zu machen, werden sie nicht die beste Leistung darstellen. Dies drückt die Testergebnisse.

3. Faktoren im Zusammenhang mit dem Testverfahren:

Da die mit dem Test in Zusammenhang stehenden Faktoren und die mit den Testpersonen verbundenen Faktoren die Zuverlässigkeit der Testergebnisse beeinflussen, wirken sich auch die mit dem Testverfahren zusammenhängenden Faktoren auf die Testergebnisse aus. Wenn die Testbenutzer diese Faktoren steuern können, können sie die Konsistenz der Testergebnisse erhöhen.

(a) Zeitlimit der Prüfung:

Ebel und Frisbie (1991) zufolge "zeigen die Ergebnisse eines Tests, der unter stark beschleunigten Bedingungen durchgeführt wird, normalerweise einen höheren internen Zuverlässigkeitskoeffizienten für die Konsistenz, als dies für Ergebnisse des gleichen Tests der gleichen Gruppe unter großzügigeren Zeitgrenzen der Fall wäre." Wenn die Schüler mehr Zeit für den Test haben, können sie mehr raten, was die Testergebnisse erhöhen kann. Daher können wir durch die Beschleunigung eines Tests die Zuverlässigkeit des Tests erhöhen.

(b) Gelegenheit zum Betrügen der Schüler:

Betrug durch die Studenten während der Testverwaltung führt zu Messfehlern. Einige Schüler geben möglicherweise eine korrekte Antwort ab, indem sie sie von Spickzettel kopieren oder von anderen Schülern hören, ohne die richtige Antwort zu kennen. Dies führt zu einer höheren Punktzahl dieser Schüler, als sie tatsächlich verdienen. Dadurch wird die beobachtete Punktzahl der Betrüger höher als die tatsächliche Punktzahl.

Wie hoch sollte die Zuverlässigkeit sein?

Offensichtlich sind Auswertegeräte niemals absolut zuverlässig. Wie unzuverlässig ein Test sein kann und noch nützlich ist, hängt hauptsächlich von der gewünschten Feinheit der Diskriminierung ab. (Remmers. 1967) Der Grad der Zuverlässigkeit hängt von der Art des Tests, der Größe und Variabilität der Gruppe, dem Zweck, zu dem der Test durchgeführt wurde, und der Methode zur Abschätzung der Zuverlässigkeit ab. Ein Test mit geringer Zuverlässigkeit kann eine höhere Gültigkeit haben und kann daher verwendet werden. In den Worten von Remmers (1967) heißt es jedoch: „Die meisten standardisierten Tests, die für den Schulgebrauch veröffentlicht wurden, weisen Zuverlässigkeitskoeffizienten von mindestens 0, 80 in der Bevölkerung auf, für die sie ausgelegt sind.

Wenn man einen standardisierten Test für die Interpretation seiner Ergebnisse wählt, reicht es nicht aus, nur den numerischen Wert der Zuverlässigkeitsschätzung zu betrachten. Man muss auch berücksichtigen, wie diese Schätzung erhalten wurde. Gronlund (1976) hat die Bedeutung von Methoden zur Abschätzung der Zuverlässigkeit erwähnt.

Seiner Meinung nach “gibt das Split-Half-Verfahren die größten numerischen Werte für den Zuverlässigkeitskoeffizienten an. Das Verfahren mit äquivalenten Formen und der Testwiederholungstest neigen dazu, dem Zuverlässigkeitskoeffizienten einen niedrigeren numerischen Wert zu geben. Typischerweise liefern diese beiden Verfahren einen mittleren bis großen Zuverlässigkeitskoeffizienten. Das Equivalent-Form-Verfahren liefert normalerweise den kleinsten Zuverlässigkeitskoeffizienten für einen bestimmten Test. “

Daher kann gesagt werden, dass der Lehrer einen standardisierten Test suchen sollte, dessen Zuverlässigkeit so hoch wie möglich ist. Er muss diesen Zuverlässigkeitskoeffizienten jedoch anhand der zugrunde liegenden Schülergruppen, der Variabilität dieser Gruppe und der Methoden zur Abschätzung der Zuverlässigkeit interpretieren.

Merkmal # 2. Gültigkeit:

„Bei der Auswahl oder beim Bau eines Bewertungsinstruments ist die wichtigste Frage: Inwieweit werden die Ergebnisse den jeweiligen Verwendungszwecken dienen, für die sie bestimmt sind? Dies ist das Wesentliche der Gültigkeit. “- GRONLUND

Gültigkeit ist das wichtigste Merkmal eines Auswertungsprogramms, denn wenn ein Test nicht gültig ist, hat er keine nützliche Funktion. Psychologen, Pädagogen und Berufsberater verwenden Testergebnisse für verschiedene Zwecke. Offensichtlich kann kein Zweck auch nur teilweise erfüllt werden, wenn die Tests keinen ausreichend hohen Gültigkeitsgrad haben. Gültigkeit bedeutet Wahrheitsfülle einer Prüfung. Es bedeutet, inwieweit der Test das misst, was der Testmacher zu messen beabsichtigt.

Es beinhaltet zwei Aspekte:

Was wird gemessen und wie konstant wird es gemessen. Es ist kein Testmerkmal, aber es bezieht sich auf die Bedeutung der Testergebnisse und die Art und Weise, wie wir die Ergebnisse verwenden, um Entscheidungen zu treffen. Die folgenden Definitionen von Experten geben ein klares Bild der Gültigkeit.

Gronlund und Linn (1995) - "Gültigkeit bezieht sich auf die Angemessenheit der Interpretation, die aus Testergebnissen und anderen Bewertungsergebnissen hinsichtlich einer bestimmten Verwendung gemacht wird."

Ebel und Frisbie (1991) - "Der Begriff Gültigkeit bezieht sich, wenn er auf eine Reihe von Testergebnissen angewendet wird, auf die Konsistenz (Genauigkeit), mit der die Bewertungen eine bestimmte kognitive Fähigkeit von Interesse messen."

CV Good (1973) - Definiert im Wörterbuch der Erziehung die Gültigkeit als das Maß, in dem ein Test oder ein anderes Messgerät den Zweck erfüllt, für den es verwendet wird.

Anne Anastasi (1969) schreibt: "Die Gültigkeit eines Tests bezieht sich darauf, was der Test misst und wie gut er dies tut."

Nach Davis (1964) ist die Gültigkeit das Ausmaß, in dem die Rangfolge der Bewertungen der Prüflinge, für die ein Test geeignet ist, der Rangfolge der gleichen Prüflinge in der Eigenschaft oder dem Merkmal entspricht, mit dem der Test gemessen wird . Diese Eigenschaft oder Eigenschaft wird als Kriterium bezeichnet. Da jeder Test für viele verschiedene Zwecke verwendet werden kann, kann er viele Gültigkeiten haben, die jedem Kriterium entsprechen. “

Freeman (1962) definiert: "Ein Gültigkeitsindex gibt an, in welchem ​​Maße ein Test misst, was er zu messen vermag, verglichen mit akzeptierten Kriterien."

Lindquist (1942) hat gesagt: "Gültigkeit eines Tests kann definiert werden als die Genauigkeit, mit der er das misst, was er messen soll, oder als Grad der Unfehlbarkeit bei der Messung dessen, was er messen will."

Aus den obigen Definitionen wird deutlich, dass die Gültigkeit eines Auswertegeräts der Grad ist, in dem es misst, was es messen soll. Die Gültigkeit bezieht sich immer auf die konkrete Verwendung der Ergebnisse und die Richtigkeit unserer vorgeschlagenen Interpretation.

Es ist auch nicht notwendig, dass ein zuverlässiger Test auch gültig ist. Angenommen, eine Uhr ist zehn Minuten nach vorne gestellt. Wenn die Uhr eine gute Uhr ist, ist die Uhrzeit zuverlässig. Weil es ein konstantes Ergebnis gibt. Es wird jedoch nicht gültig sein, wie durch "Standardzeit" beurteilt. Dies deutet auf "das Konzept, dass Zuverlässigkeit eine notwendige, aber keine ausreichende Bedingung für die Gültigkeit ist".

Art der Gültigkeit:

1. Gültigkeit bezieht sich auf die Angemessenheit der Testergebnisse, nicht auf das Gerät selbst.

2. Gültigkeit gibt es nicht alles oder gar nicht, aber sie ist eine Frage des Grades.

3. Tests sind nicht für alle Zwecke gültig. Gültigkeit ist immer spezifisch für bestimmte Interpretationen. Zum Beispiel können die Ergebnisse eines Vokabeltests für das Testen des Vokabulars äußerst gültig sein, für das Testen der Kompositionsfähigkeit des Schülers jedoch nicht so sehr.

4. Die Gültigkeit ist nicht unterschiedlich. Es ist ein einheitliches Konzept. Es basiert auf verschiedenen Arten von Beweisen.

Einflussfaktoren auf die Gültigkeit:

Wie die Zuverlässigkeit gibt es auch mehrere Faktoren, die die Gültigkeit der Testergebnisse beeinflussen. Es gibt einige Faktoren, bei denen wir aufmerksam sind und leicht vermeiden können. Es gibt jedoch einige Faktoren, die wir nicht kennen und die Testergebnisse für den beabsichtigten Gebrauch ungültig machen.

Einige dieser Faktoren sind folgende:

1. Faktoren im Test:

(i) Unklare Anweisungen für die Schüler, um den Test zu beantworten.

(ii) Schwierigkeit des Lesevokabulars und der Satzstruktur.

(iii) Zu einfache oder zu schwierige Testobjekte.

(iv) Mehrdeutige Aussagen in den Prüfungsgegenständen.

(v) Unangemessene Prüfgegenstände zur Messung eines bestimmten Ergebnisses.

(vi) Unzureichende Zeit für den Test.

(vii) Die Testdauer ist zu kurz.

(viii) Prüflinge nicht nach Schwierigkeitsgrad sortiert.

(ix) Identifizierbares Antwortmuster.

Faktoren bei der Testverwaltung und -bewertung:

(i) unfaire Hilfe für einzelne Studenten, die um Hilfe bitten,

(ii) Betrug durch die Schüler während des Testens.

(iii) Unzuverlässige Bewertung von Antworten vom Aufsatztyp.

(iv) Unzureichende Zeit, um den Test abzuschließen.

(v) Schädliche körperliche und psychische Bedingungen zum Zeitpunkt der Prüfung.

Faktoren im Zusammenhang mit Testee:

(i) Testen Sie die Angst der Schüler.

(ii) physischer und psychologischer Zustand der Pupille,

(iii) Antwortsatz - eine konsistente Tendenz, bei der Beantwortung der Elemente einem bestimmten Muster zu folgen.

Merkmal # 3. Objektivität:

Objektivität ist ein wichtiges Merkmal eines guten Tests. Dies beeinflusst sowohl die Gültigkeit als auch die Zuverlässigkeit der Testergebnisse. Die Objektivität eines Messgeräts stöhnt, bis zu welchem ​​Grad verschiedene Personen, die den Antwortbeleg bewerten, das gleiche Ergebnis erhalten. CV Good (1973) definiert Objektivität beim Testen als "das Ausmaß, in dem das Instrument frei von persönlichen Fehlern ist (persönliche Voreingenommenheit), dh Subjektivität seitens der Torschützen".

Gronlund und Linn (1995) stellen fest: „Die Objektivität eines Tests bezieht sich auf den Grad, zu dem gleichermaßen kompetente Ergebnisse die gleichen Ergebnisse erzielen. Ein Test gilt daher als objektiv, wenn er die persönliche Meinung und die Beurteilung der Vorurteile des Gegners eliminiert. In diesem Zusammenhang gibt es zwei Aspekte der Objektivität, die bei der Erstellung eines Tests zu berücksichtigen sind. “

(i) Objektivität bei der Bewertung.

(ii) Objektivität bei der Interpretation der Testobjekte durch den Probanden.

(i) Objektivität der Bewertung:

Objektivität der Bewertung bedeutet, dass dieselbe Person oder verschiedene Personen, die den Test zu einem beliebigen Zeitpunkt bewerten, dasselbe Ergebnis erzielen, ohne dass ein zufälliger Fehler auftritt. Ein objektiver Test muss notwendigerweise so formuliert sein, dass er nur die richtige Antwort geben kann. Mit anderen Worten, das persönliche Urteil der Person, die das Antwortskript bewertet, sollte keinen Einfluss auf die Testergebnisse haben. Damit kann das Ergebnis eines Tests auf einfache und genaue Weise erhalten werden, wenn das Bewertungsverfahren objektiv ist. Das Bewertungsverfahren sollte so sein, dass kein Zweifel bestehen darf, ob ein Artikel richtig oder falsch oder teilweise richtig oder teilweise falsch ist.

(ii) Objektivität von Testgegenständen:

Mit Artikelobjektivität meinen wir, dass der Artikel eine eindeutige Einzelantwort erfordern muss. Gut konstruierte Testobjekte sollten zu einer einzigen Interpretation von Studenten führen, die das betreffende Material kennen. Dies bedeutet, dass die Testobjekte frei von Mehrdeutigkeiten sein sollten. Ein gegebenes Testobjekt sollte für alle Schüler, die der Testhersteller fragen möchte, dasselbe bedeuten. Sätze mit zwei Bedeutungen, Elemente mit mehr als einer richtigen Antwort sollten nicht in den Test einbezogen werden, da der Test subjektiv wird.

Merkmal # 4. Verwendbarkeit:

Usability ist ein weiteres wichtiges Merkmal von Messgeräten. Denn praktische Überlegungen der Bewertungsinstrumente dürfen nicht vernachlässigt werden. Der Test muss aus zeitlicher, wirtschaftlicher und administrativer Sicht einen praktischen Wert haben. Dies kann als Usability bezeichnet werden.

Beim Erstellen oder Auswählen eines Tests müssen daher die folgenden praktischen Aspekte berücksichtigt werden:

(i) Einfache Verabreichung:

Dies bedeutet, dass der Test leicht zu verwalten sein sollte, sodass die allgemeinen Lehrer im Klassenraum ihn verwenden können. Daher sollten einfache und klare Anweisungen gegeben werden. Der Test sollte sehr wenige Untertests aufweisen. Der Zeitpunkt des Tests sollte nicht zu schwierig sein.

(ii) Zeit für die Verwaltung:

Es sollte eine angemessene Frist für den Test gegeben werden. Wenn ausreichend Zeit für die Prüfung zur Verfügung steht, wird die Prüfung kürzer als die Zuverlässigkeit der Prüfung herabgesetzt. Gronlund und Linn (1995) sind der Meinung, dass "irgendwo zwischen 20 und 60 Minuten Testzeit für jede einzelne Bewertung eines veröffentlichten Tests wahrscheinlich ein ziemlich guter Leitfaden ist".

(iii) Einfache Interpretation und Anwendung:

Ein weiterer wichtiger Aspekt der Testergebnisse ist die Interpretation der Testergebnisse und die Anwendung der Testergebnisse. Wenn die Ergebnisse falsch interpretiert werden, ist es dagegen schädlich, wenn sie nicht angewendet werden, dann ist es nutzlos.

(iv) Verfügbarkeit äquivalenter Formen:

Äquivalente Formulartests helfen, die fragwürdigen Testergebnisse zu überprüfen. Es hilft auch, den Faktor des Gedächtnisses zu eliminieren, während Schüler auf derselben Lernebene erneut getestet werden. Daher sollten äquivalente Formen desselben Tests in Bezug auf Inhalt, Schwierigkeitsgrad und andere Merkmale verfügbar sein.

(v) Testkosten:

Ein Test sollte aus Sicht der Vorbereitung, Verwaltung und Bewertung wirtschaftlich sein.