Bestimmung der Zuverlässigkeit eines Tests: 4 Methoden

Für die Berechnung des Zuverlässigkeitskoeffizienten (manchmal auch als Selbstkorrelation bezeichnet) eines Tests werden üblicherweise vier Verfahren verwendet. Dies sind: 1. Test-Retest (Wiederholung) 2. Alternative oder Parallele Formen 3. Split-Half-Technik 4. Rationale Äquivalenz.

1. Test-Retest-Methode:

Um die Zuverlässigkeit mittels der Test-Retest-Methode zu schätzen, wird derselbe Test zweimal der gleichen Gruppe von Pupillen mit einem bestimmten Zeitintervall zwischen den beiden Test-Verabreichungen verabreicht.

Die sich ergebenden Testergebnisse sind korreliert und dieser Korrelationskoeffizient liefert ein Maß für die Stabilität, d. H. Sie gibt an, wie stabil die Testergebnisse über einen bestimmten Zeitraum sind. So ist es ansonsten als Maß für die Stabilität bekannt.

Die Zuverlässigkeitsschätzung variiert in diesem Fall in Abhängigkeit von der Zeitspanne, die zwischen den beiden Verwaltungen zulässig ist. Die Produktmoment-Korrelationsmethode ist eine signifikante Methode zur Abschätzung der Zuverlässigkeit von zwei Sätzen von Scores.

Daher zeigt eine hohe Korrelation zwischen zwei Sätzen von Bewertungen, dass der Test zuverlässig ist. Das heißt, es zeigt, dass die bei der ersten Verabreichung erhaltenen Bewertungen mit den bei der zweiten Verabreichung desselben Tests erhaltenen Bewertungen übereinstimmen.

Bei dieser Methode spielt das Zeitintervall eine wichtige Rolle. Wenn es zu klein ist, sagen wir, ein oder zwei Tage, wird die Konsistenz der Ergebnisse durch den Verschleppungseffekt beeinflusst, dh die Schüler werden sich an einige der Ergebnisse von der ersten bis zur zweiten Verabreichung erinnern.

Wenn das Zeitintervall lang ist, beispielsweise ein Jahr, werden die Ergebnisse nicht nur durch die Ungleichheit der Testverfahren und -bedingungen beeinflusst, sondern auch durch die tatsächlichen Veränderungen der Schüler über diesen Zeitraum.

Der Zeitunterschied beim erneuten Test sollte nicht mehr als sechs Monate betragen. Die Zeitlücke der Wiederholung von zwei Wochen (2 Wochen) liefert einen genauen Indikator für die Zuverlässigkeit.

Vorteile:

Im Allgemeinen wird ein Selbstkorrelations- oder Test-Retest-Verfahren zum Schätzen des Zuverlässigkeitskoeffizienten verwendet. Es ist sinnvoll, in verschiedenen Situationen bequem zu verwenden. Ein Test mit ausreichender Länge kann nach einem Intervall von mehreren Tagen zwischen aufeinanderfolgenden Tests verwendet werden.

Nachteile:

1. Wenn der Test sofort wiederholt wird, rufen viele Probanden ihre ersten Antworten ab und verbringen ihre Zeit mit neuem Material, wodurch ihre Punktzahl tendenziell erhöht wird - manchmal um einiges.

2. Neben den sofortigen Gedächtniseffekten beeinflussen das Üben und das Vertrauen, das durch die Vertrautheit mit dem Material hervorgerufen wird, höchstwahrscheinlich die Ergebnisse, wenn der Test zum zweiten Mal durchgeführt wird.

3. Der so erhaltene Zuverlässigkeitsindex ist weniger genau.

4. Wenn das Intervall zwischen den Tests ziemlich lang ist (mehr als sechs Monate), wirken sich Wachstumsfaktor und Reife auf die Bewertungen aus und tendieren dazu, den Zuverlässigkeitsindex zu senken.

5. Wenn der Test sofort oder nach einer kurzen Zeitspanne wiederholt wird, besteht die Möglichkeit eines Verschleppungseffekts / Übertragungseffekts / Speicher- / Übungseffekts.

6. Durch Wiederholung desselben Tests in derselben Gruppe zum zweiten Mal werden die Schüler desinteressiert und sie nehmen daher nicht gern mit ganzem Herzen teil.

7. Manchmal wird die Einheitlichkeit nicht beibehalten, was sich auch auf die Testergebnisse auswirkt.

8. Chancen, einige Fragen nach der ersten Verabreichung zu besprechen, was die Punktzahl bei der zweiten Verabreichung erhöhen kann, was die Zuverlässigkeit beeinträchtigt.

2. Alternative oder parallele Formularmethode:

Für die Abschätzung der Zuverlässigkeit mittels der Äquivalentformmethode werden zwei verschiedene, aber äquivalente Testformen verwendet. Parallele Formzuverlässigkeit wird auch als Alternative Formzuverlässigkeit oder Äquivalente Formzuverlässigkeit oder Vergleichbare Formzuverlässigkeit bezeichnet.

Bei diesem Verfahren werden zwei parallele oder äquivalente Testformen verwendet. Mit parallelen Formen meinen wir, dass die Formen in Bezug auf Inhalt, Ziele, Format, Schwierigkeitsgrad und Unterscheidungswert der Gegenstände, Länge der Prüfung usw. gleichwertig sind.

Parallele Tests haben gleiche Durchschnittswerte, Varianzen und gegenseitige Beziehungen zwischen den Elementen. Das heißt, zwei parallele Formen müssen in jeder Hinsicht homogen oder ähnlich sein, nicht jedoch eine Verdoppelung der Testobjekte. Die beiden Formulare seien Form A und Form B.

Der Zuverlässigkeitskoeffizient kann als Koeffizientenkorrelation zwischen den Bewertungen zweier äquivalenter Testformen angesehen werden. Die zwei äquivalenten Formen müssen möglicherweise in Bezug auf Inhalt, Grad, getestete mentale Prozesse und Schwierigkeitsgrad und in anderen Aspekten ähnlich sein.

Eine Form des Tests wird von den Schülern durchgeführt und unmittelbar nach Beendigung wird eine andere Form der Prüfung an dieselbe Gruppe geliefert. Die so erhaltenen Bewertungen sind korreliert, wodurch die Zuverlässigkeit geschätzt wird. Daher wird die gefundene Zuverlässigkeit als Äquivalenzkoeffizient bezeichnet.

Gulliksen 1950: hat parallele Tests als Tests mit gleichem Mittelwert, gleicher Varianz und gleichen Interkooperationen definiert.

Guilford: Die alternative Formmethode zeigt sowohl die Äquivalenz des Inhalts als auch die Stabilität der Leistung an.

Vorteile:

Dieses Verfahren hat gegenüber der Test-Retest-Methode bestimmte Vorteile:

1. Hier wird derselbe Test nicht wiederholt.

2. Gedächtnis, Übung, Verschleppungseffekte und Rückruffaktoren werden minimiert und beeinflussen die Bewertungen nicht.

3. Der mit diesem Verfahren erhaltene Zuverlässigkeitskoeffizient ist ein Maß für die zeitliche Stabilität und die Beständigkeit der Reaktion auf verschiedene Artikelproben oder Testformen. Somit kombiniert dieses Verfahren zwei Arten von Zuverlässigkeit.

4. Nützlich für die Zuverlässigkeit von Leistungstests.

5. Diese Methode ist eine der geeigneten Methoden zur Bestimmung der Zuverlässigkeit von pädagogischen und psychologischen Tests.

Einschränkungen:

1. Es ist schwierig, zwei parallele Testformen zu haben. In bestimmten Situationen (zB in Rorschach) ist dies fast unmöglich.

2. Wenn die Tests in Bezug auf die inhaltliche Schwierigkeit und Länge nicht genau gleich sind, kann der Vergleich zwischen zwei aus diesen Tests ermittelten Bewertungen zu fehlerhaften Entscheidungen führen.

3. Übungs- und Übertragsfaktoren können nicht vollständig kontrolliert werden.

4. Außerdem führt die gleichzeitige Verwaltung von zwei Formularen zu Langeweile. Deshalb bevorzugen Menschen solche Methoden, bei denen nur eine Testverwaltung erforderlich ist.

5. Die Testbedingungen während der Verwaltung des Formulars B stimmen möglicherweise nicht überein. Außerdem befinden sich die Hoden zu beiden Zeitpunkten der Verabreichung möglicherweise nicht in einem ähnlichen physischen, psychischen oder emotionalen Zustand.

6. Die Testergebnisse der zweiten Testform sind im Allgemeinen hoch.

Obwohl schwierige, sorgfältig und vorsichtig konstruierte parallele Formen ein vernünftiges Maß an Zuverlässigkeit bieten. Für gut durchgeführte standardisierte Tests ist die Parallelformmethode normalerweise die zufriedenstellendste Methode zur Bestimmung der Zuverlässigkeit.

3. Halbierte Methode oder unterteilte Testmethode:

Die Split-Half-Methode ist eine Verbesserung gegenüber den beiden früheren Methoden und beinhaltet sowohl die Stabilitätsmerkmale als auch die Äquivalenz. Die oben diskutierten zwei Verfahren zum Schätzen der Zuverlässigkeit erscheinen manchmal schwierig.

Es ist möglicherweise nicht möglich, denselben Test zweimal zu verwenden und eine gleichwertige Testform zu erhalten. Um diese Schwierigkeiten zu überwinden und den Memory-Effekt zu reduzieren sowie den Test zu sparen, ist es daher wünschenswert, die Zuverlässigkeit durch eine einzige Testverwaltung abzuschätzen.

Bei dieser Methode wird der Test einmal auf die Probe angewendet und ist die am besten geeignete Methode für homogene Tests. Diese Methode stellt die interne Konsistenz eines Testergebnisses bereit.

Alle Testgegenstände sind im Allgemeinen in aufsteigender Reihenfolge angeordnet und werden einmal pro Probe verabreicht. Nach der Testdurchführung wird der Test in zwei vergleichbare oder ähnliche oder gleiche Teile oder Hälften aufgeteilt.

Die Bewertungen werden in zwei Sätzen angeordnet oder aus zwei ungeraden Stückzahlen und geraden Stückzahlen getrennt. So wird beispielsweise ein Test von 100 Artikeln durchgeführt.

Die Bewertungen von Einzelpersonen, die auf 50 Elementen mit ungeraden Zahlen wie 1, 3, 5, .. 99 basieren, und Punktzahlen, die auf geraden Zahlen 2, 4, 6… 10 basieren, sind separat angeordnet. In Teil 'A' werden ungeradzahlige Elemente zugewiesen, und Teil 'B' besteht aus einer geraden Anzahl von Elementen.

Nachdem zwei Bewertungen für die ungeradzahlige und gerade Anzahl der Testobjekte erhalten wurden, wird der Korrelationskoeffizient berechnet. Es ist wirklich eine Korrelation zwischen zwei äquivalenten Hälften von Bewertungen, die in einer Sitzung erzielt wurden. Um die Zuverlässigkeit zu schätzen, wird die Spearman-Brown Prophecy-Formel verwendet.

Die Spearman-Brown-Formel ist gegeben durch:

wobei r 11 die Zuverlässigkeit des gesamten Tests ist.

r 11/22 = Korrelationskoeffizient zwischen zwei halben Tests.

Beispiel 1:

Ein Test enthält 100 Elemente. Alle diese Elemente sind in der Reihenfolge des Schwierigkeitsgrades angeordnet, vom ersten bis zum hundertsten. Die Schüler beantworten den Test und der Test wird bewertet.

Die Noten werden von den Schülern in ungerader Anzahl von Elementen erhalten, und die gerade Anzahl von Elementen wird separat summiert. Der Korrelationskoeffizient zwischen diesen beiden Scores beträgt 0, 8.

Die Zuverlässigkeit des gesamten Tests (oder)

Bei der Verwendung dieser Formel sollte beachtet werden, dass die Varianz von geraden und ungeraden Hälften gleich sein sollte, dh

Wenn dies nicht möglich ist, können die Formeln von Flanagan und Rulon verwendet werden. Diese Formeln sind einfacher und beinhalten keine Berechnung des Korrelationskoeffizienten zwischen zwei Hälften.

Vorteile:

1. Hier wiederholen wir den Test nicht oder verwenden die parallele Form, und somit wird der Proband nicht zweimal getestet. Daher ist der Verschleppungseffekt oder der Übungseffekt nicht vorhanden.

2. Bei dieser Methode werden die Schwankungen der individuellen Fähigkeiten aufgrund von Umwelt- oder physikalischen Bedingungen minimiert.

3. Aufgrund der einmaligen Testverwaltung stören die täglichen Funktionen und Probleme nicht.

4. Die Schwierigkeit, parallele Testformen zu konstruieren, ist beseitigt.

Einschränkungen:

1. Ein Test kann auf mehrere Arten in zwei gleiche Hälften unterteilt werden, wobei der Korrelationskoeffizient in jedem Fall unterschiedlich sein kann.

2. Diese Methode kann nicht zur Abschätzung der Zuverlässigkeit von Geschwindigkeitstests verwendet werden.

3. Da der Patient einmal verabreicht wird, können die zufälligen Fehler die Bewertungen der beiden Hälften auf die gleiche Weise beeinflussen und dazu führen, dass der Zuverlässigkeitskoeffizient zu hoch wird.

4. Diese Methode kann nicht für Leistungstests und heterogene Tests verwendet werden.

Trotz all dieser Einschränkungen wird die Split-Half-Methode als die beste Methode zur Messung der Testzuverlässigkeit angesehen, da die Daten zur Bestimmung der Zuverlässigkeit gelegentlich ermittelt werden und somit die Zeit, die Arbeit und die damit verbundenen Schwierigkeiten reduziert werden oder wiederholte Verabreichung.

4. Methode der rationalen Gleichwertigkeit:

Diese Methode wird auch als "Kuder-Richardson-Zuverlässigkeit" oder "Konsistenz zwischen Elementen" bezeichnet. Es ist eine Methode, die auf einer einzelnen Verwaltung basiert. Sie basiert auf der Konsistenz der Antworten auf alle Elemente.

Die gebräuchlichste Methode zur Ermittlung der Übereinstimmung von Elementen ist die von Kuder und Richardson (1937) entwickelte Formel. Dieses Verfahren ermöglicht die Berechnung der Interkorrelation der Testobjekte und der Korrelation jedes Elements mit allen Testobjekten. J. Cronbach nannte es als Koeffizienten der inneren Konsistenz.

Bei diesem Verfahren wird davon ausgegangen, dass alle Gegenstände den gleichen oder den gleichen Schwierigkeitsgrad aufweisen, die Korrelation zwischen den Gegenständen gleich ist, alle Gegenstände im Wesentlichen dieselbe Fähigkeit aufweisen und der Test homogener Natur ist.

Wie die Split-Half-Methode liefert diese Methode auch ein Maß für die interne Konsistenz.

Die bekannteste Formel ist Kuder-Richardson, dh KR-21, die unten angegeben ist:

q = - p

p = 1 - q

Ein Beispiel hilft uns, p und q zu berechnen.

Beispiel 2

60 Studenten haben an einem Test teilgenommen und von ihnen haben 40 Studenten eine korrekte Antwort auf einen bestimmten Testpunkt gegeben.

p = 40/60 = 2/3

Dies bedeutet, dass ein Teil der Studenten die richtige Antwort auf einen bestimmten Testpunkt gegeben hat. In dem 20 Studenten zu diesem Punkt eine falsche Antwort gegeben haben.

Also ist q = 20/60 oder 1 - 40/60

Für jedes Element müssen wir den Wert von p und q ermitteln, dann wird pq über alle Elemente summiert, um ∑pq zu erhalten. Multiplizieren Sie p und q für jeden Artikel und die Summe für alle Artikel. Dies ergibt ∑pq.

Vorteile:

1. Dieser Koeffizient gibt einige Hinweise darauf, wie intern die Testgegenstände konsistent oder homogen sind.

2. Die rationale Äquivalenz ist der Split-Half-Technik in bestimmten theoretischen Aspekten überlegen, jedoch ist der tatsächliche Unterschied der Zuverlässigkeitskoeffizienten, die bei beiden Methoden gefunden werden, oft vernachlässigbar.

3. Die Split-Half-Methode misst einfach die Äquivalenz, aber die rationale Äquivalenzmethode misst sowohl die Äquivalenz als auch die Homogenität.

4. Wirtschaftliche Methode, da der Test einmal durchgeführt wird.

5. Es erfordert weder die Verabreichung von zwei gleichwertigen Testformen noch die Aufteilung der Tests in zwei gleiche Hälften.

Einschränkungen:

Der durch dieses Verfahren erhaltene Koeffizient ist im Allgemeinen etwas geringer als die durch andere Verfahren erhaltenen Koeffizienten.

2. Wenn die Testpunkte nicht sehr homogen sind, führt dieses Verfahren zu einem niedrigeren Zuverlässigkeitskoeffizienten.

3. Die Kuder-Richardson- und die Split-Half-Methode sind für den Geschwindigkeitstest nicht geeignet.

4. Unterschiedliche KR-Formel ergeben einen unterschiedlichen Zuverlässigkeitsindex.