Anforderungen an industrielle Prädiktoren: Gültigkeit und Zuverlässigkeit

Die beiden wichtigsten Anforderungen an einen Prädiktor sind Gültigkeit und Zuverlässigkeit. Im industriellen Umfeld gibt es verschiedene Arten oder Arten von Gültigkeit, obwohl die am meisten bevorzugte eine vorhersagende Gültigkeit genannt wird. Es gibt auch verschiedene Arten von Zuverlässigkeitsmaßen. Die Sorge um Zuverlässigkeit und Gültigkeit ist nicht auf Prädiktoren beschränkt, sondern gilt auch für Kriterien.

Gültigkeit:

Die Gültigkeit eines Prädiktors kann allgemein definiert werden als das Ausmaß, in dem der Prädiktor bestimmte Ziele des Benutzers erreicht, indem er misst, was gemessen werden soll. Die jeweilige Art der Gültigkeit hängt somit von den besonderen Zielen des Benutzers in jeder Situation ab.

Prognostische Validität:

Ziel des Anwenders ist es, mit seinem Messgerät die zukünftige Leistung der Mitarbeiter an einer anderen Variablen (Kriterium) vorherzusagen. Die prädiktive Validität wird statistisch durch Korrelation und Regression festgestellt. Die wichtige Unterscheidung von Vorhersagewahrscheinlichkeit ist eine zeitliche Demenz. Prädiktorwerte werden für Einzelpersonen zu einem bestimmten Zeitpunkt (z. B. Zeitpunkt der Einstellung) und Kriteriumswerte zu einem späteren Zeitpunkt (z. B. nach Ablauf von sechs Monaten) ermittelt.

Die sich ergebende Beziehung repräsentiert somit wirklich die "Vorhersagekraft" des Instruments. Die prädiktive Gültigkeit ist die wichtigste Art der Gültigkeit bei der Auswahl, da nur sie die Auswahlsituation wirklich dupliziert. Ein anderer Name, der manchmal für die Vorhersagekraft verwendet wird, ist die Gültigkeit der Folgemaßnahmen.

Gleichzeitige Gültigkeit:

Das Ziel sollte es zumindest theoretisch sein, die derzeitige Leistung der Mitarbeiter anhand eines bestimmten Kriteriums anhand der Bewertungen des Prädiktors abzuschätzen. Die gleichzeitige Gültigkeit wird auch unter Verwendung von Korrelations- und Regressionstechniken festgestellt, jedoch ohne Zeitverzögerung zwischen dem Erhalten von Prädiktor- und Kriteriumswerten. Eine Stichprobe aktueller Mitarbeiter wird verwendet, um die Prädiktor-Kriterium-Beziehung zu ermitteln. Anschließend kann die resultierende Regression angewendet werden, indem Prädiktorwerte für die verbleibenden Jobinhaber ermittelt werden.

Mit anderen Worten, wir sind daran interessiert, den gegenwärtigen Status der Menschen vorherzusagen, nicht ihren Status zu einem späteren Zeitpunkt. Es ist äußerst wichtig darauf hinzuweisen, dass eine hohe gleichzeitige Gültigkeit keine hohe vorhersagende Gültigkeit gewährleistet. Leider wird die gleichzeitige Gültigkeit zu oft als Ersatz für die Vorhersagekraft verwendet.

Das Management ist manchmal nicht gewillt, auf die Zeit zu warten, die von der Vorhersagemethode benötigt wird, und erkennt möglicherweise nicht, dass die gegenwärtigen Mitarbeiter eine grundsätzlich andere Belegschaft von Arbeitgebern als Bewerber darstellen können. Arbeitnehmer, die derzeit beschäftigt sind, haben das Screening in Bezug auf Einstellung und Kontinuität überlebt, und die ärmeren Arbeitnehmer, die eingestellt wurden, sind entweder freiwillig oder auf Anfrage gegangen. Dies macht es sehr schwierig, die Verallgemeinerung gleichzeitiger Gültigkeiten auf eine prädiktive Gültigkeitssituation zu rechtfertigen.

Inhaltsgültigkeit:

Wenn der Prüfer davon ausgeht, dass sein Prädiktor für eine bestimmte Klasse von Situationen repräsentativ ist, ist er an der Gültigkeit des Inhalts beteiligt. Er hat eine bestimmte Vorstellung von der Art des Wissens, der Fähigkeit, der Einstellung oder der Leistung, die das Messgerät nutzen sollte, und er hält das Instrument für gültig, soweit sein Inhalt für das steht, was er erreichen möchte. Die Gültigkeit von Inhalten ist im Allgemeinen weder statistisch noch quantitativ messbar.

Die größte Gültigkeit der Inhalte findet man bei Anwendern von Leistungstests, beispielsweise Abschlussprüfungen in einem Hochschulkurs. Eine Abschlussprüfung kann nur dann als inhaltlich gültig angesehen werden, wenn sie den Inhalt des Kurses in angemessener Weise (in der Stichprobe) repräsentiert. Wenn es sich nicht um eine Abdeckung des Kursmaterials handelt, kann es sicherlich nicht als geeigneter Test für eine Abschlussprüfung betrachtet werden, dh es hat keine inhaltliche Gültigkeit.

Konstruktvalidität:

Mit dieser Art von Gültigkeit möchte der Benutzer abschätzen, inwieweit die zu bewertenden Personen eine bestimmte Eigenschaft oder Qualität (Konstrukt) besitzen, von der angenommen wird, dass sie sich in der Testleistung widerspiegelt. Das allgemeine Verfahren umfasst die Verwaltung mehrerer Testinstrumente, die logischerweise dasselbe Konstrukt zu messen scheinen, und dann die Beziehungen zwischen diesen Messungen zu beobachten. Die Konstruktvalidität wurde vom Industriepsychologen nicht in großem Umfang genutzt. Es wird eher in theoretischen als in pragmatischen Situationen verwendet.

Synthetische Gültigkeit:

Man könnte die synthetische Gültigkeit als "angenommen" voraussagende Gültigkeit betrachten. Angenommen, wir haben einen Test, der in einer Reihe von Situationen eine hohe prädiktive Beziehung zu verschiedenen Leistungskriterien von Industriemännern gezeigt hat. Nehmen wir weiter an, dass eine kleine Fertigungsstätte einen Test bei der Auswahl von Vorarbeitern verwenden möchte, aber zu wenige Vorarbeiter arbeiten in der Anlage, um sogar eine gleichzeitige Validitätsstudie durchzuführen. Diese Anlage könnte sich dazu entscheiden, den Test ohne formale statistische Auswertung zu verwenden, vorausgesetzt, sie wurde in anderen, größeren Anlagen als erfolgreich befunden.

Dieses Verfahren kann nur dann als gültig angesehen werden, wenn

(1) Die Arbeit des Vorarbeiters in diesem Werk ist vergleichbar mit den Tätigkeiten der Vorarbeiter, die an der statistischen Auswertung des Tests beteiligt sind, und

(2) Die Bewerber für die Vorarbeiter in diesem Betrieb sind typisch (aus derselben Bevölkerung) wie die Bewerber für die Vorarbeiter in den größeren Betrieben. Die synthetische Gültigkeit sollte nur für die prädiktive Gültigkeit mit dem vollen Bewusstsein der möglichen Einschränkungen ersetzt werden.

Gesicht Gültigkeit:

Eine andere Art von Gültigkeit, die häufig zur Beschreibung eines Tests verwendet wird, bezieht sich auf den Grad, in dem ein Benutzer daran interessiert ist, dass sein Test für den Testteilnehmer "richtig aussieht". Bewerber werden oft verärgert, wenn die von ihnen zu erwartenden Prognoseinstrumente wenig oder keine Beziehung zu der Stelle haben, für die sie sich bewerben. Wenn zum Beispiel Personen für eine maschinistische Position ausgewählt werden und ein Test der arithmetischen Fähigkeiten als Prädiktor verwendet wird, sollten sich die Testobjekte mit Zahlen befassen, die auf mechanische Probleme angewendet werden, und nicht in allgemeiner Form formuliert werden, wie etwa beim Kauf von Äpfeln oder Orangen.

Wenn der Antragsteller die Relevanz des Prädiktors für die Stelle, für die er sich bewirbt, nicht erkennt, wie dies bei Persönlichkeitstests häufig der Fall ist, kann er in der Testsituation einen schwerwiegenden Motivationseinbruch erleiden, abfällig werden oder auf der anderen Seite unsicher fühlen. Dies schädigt nicht nur das Auswahlprogramm, sondern kann auch das Image des Unternehmens und das Image von Tests in jedem industriellen Umfeld beeinträchtigen. Die Autoren riskieren die Vermutung, dass ein Teil der schlechten Werbung, die von Anwendern von Auswahlgeräten in der Industrie erhalten wird, darauf zurückzuführen sein kann, dass der Benutzer die Notwendigkeit außer Acht lässt, dass seine Tests für gültig gehalten werden.

Zeitalter und Berufserfahrung und ihre Auswirkung auf die Gültigkeit:

Die Untersuchung der Leistung der Arbeitnehmer für eine bestimmte Tätigkeit zeigt häufig einen eindeutigen Zusammenhang zwischen Variablen wie Alter und Erfahrung und dem Kriterium. Je komplexer die Arbeit ist, umso mehr Beziehungen sind wahrscheinlich. Für viele Jobs ist viel Erfahrung erforderlich, bevor die Mitarbeiter ihre Arbeit beherrschen. Die Korrelation zwischen diesen Arten von Variablen und den Erfolgskriterien des Jobs stellt ein ernstes Problem bei der Auswahl dar. Vorsicht ist geboten, insbesondere wenn das Concurrent-Validity-Verfahren verwendet wird, um die Nützlichkeit eines Vorhersagegeräts zu ermitteln.

Wenn zum Beispiel eine hohe Korrelation zwischen dem Kriterium und der Zeitdauer am Arbeitsplatz besteht, wie ist ein hoher gleichzeitiger Gültigkeitsfaktor zu interpretieren? Bedeutet dies, dass der Prädiktor die Fähigkeitsunterschiede unter den Arbeitnehmern, gemessen am „“ -Kriterium, wirklich widerspiegelt, oder sind die Unterschiede zwischen den Arbeitnehmern in erster Linie auf die Berufserfahrung zurückzuführen? Wenn es sich um Letzteres handelt, dann reicht der Prädiktor nur aus, die Arbeiter mit langer Amtszeit von denen zu unterscheiden, die in letzter Zeit eingestellt wurden.

Die beobachtete Gültigkeit ist im Allgemeinen eine Überschätzung der Vorhersageeffizienz des Auswahlinstruments. Sofern nicht eindeutig gezeigt werden kann, dass der Prädiktor nicht mit Merkmalen wie Alter und Dauer korreliert, die selbst die Bestimmung der Arbeitsleistung bestimmen können, müssen alle mit diesem Prädiktor erzielten gleichzeitigen Gültigkeiten äußerst suspekt sein.

Um den Punkt zu veranschaulichen, betrachten Sie die Situation, in der ein Kriterium, ein Prädiktor und eine kriteriumsbezogene Variable, wie z. B. die Dauer des Beschäftigungsverhältnisses, die für die von den Mitarbeitern gezeigten Kriteriumsdifferenzen maßgeblich verantwortlich ist, wie folgt aussehen:

C + D = Beobachtete gleichzeitige Gültigkeit des Prädiktors

D = Betrag der von der Prädiktorin ausgerechneten Kriteriumsabweichung der „Tenure-free“

C = Betrag der durch den Prädiktor berücksichtigten Kriteriumsabweichung, die von der Zeitdauer bestimmt wird

Die beobachtete Gültigkeit ist im Allgemeinen, aber nicht immer eine Überschätzung der wahren Gültigkeit, da:

Die wahre oder unverzerrte gleichzeitige Gültigkeit, die die Korrelation zwischen Prädiktor und Kriterium darstellt, die völlig frei von Einfluss der Arbeitszeit ist, wird durch die Gleichung gegeben:

Die in dem Diagramm gezeigte Korrelation (r _true ) stellt tatsächlich bildlich das dar, was in der Statistik als "partieller" Korrelationskoeffizient bezeichnet wird. Es berichtet die Korrelation zwischen Prädiktor und Kriterium, nachdem die Auswirkungen der Beschäftigungsverhältnisse sowohl aus den Prädiktorwerten als auch aus den Kriteriumswerten der angestellten Mitarbeiter entfernt wurden. Es ist wichtig, dass Tenure-Effekte in der gleichzeitigen Situation sowohl vom Kriterium als auch vom Prädiktor entfernt werden.

Wenn diese Effekte nicht statistisch aus dem Kriterium herausgenommen werden, werden wir letztendlich den Einfluss von Beschäftigungsverhältnissen statt der Arbeitsleistung vorhersagen, mit geringer oder keiner Relevanz für die Vorhersagekraft. Wenn Job-Tenure-Effekte nicht aus dem Prädiktor entfernt werden, können wir auch einen Gültigkeitsfaktor erhalten, der für eine wirklich prädiktive Gültigkeitssituation nicht als relevant angesehen werden kann.

Sicherlich veranschaulichen die Probleme der mit Kriterien und Prädiktor korrelierten Variablen in der gleichzeitigen Einstellung einige der gravierenden Einschränkungen, die mit dieser Validierungsmethode verbunden sind. Es kann mit Sicherheit gesagt werden, dass es keinen gleichwertigen Ersatz für die als prädiktive Gültigkeit bekannte Art von Gültigkeit gibt, wenn ein Auswahlinstrument erstellt und verwendet wird.

Zuverlässigkeit:

Im Allgemeinen handelt es sich bei dem Gültigkeitskonzept um das, was von einem Messgerät gemessen wird. Ein zweites und vielleicht ebenso wichtiges Merkmal von Prädiktoren ist die Notwendigkeit, die Konsistenz der Messung zu kennen, unabhängig davon, was gemessen wird. Anders ausgedrückt: Wir müssen den Grad der Stabilität jedes Messgeräts ermitteln. Die von einem Prädiktor erhaltene Messung muss konsistent sein. Der Grad, bis zu dem ein Messgerät konsistent oder stabil ist und bei Bedarf immer wieder dieselben Werte ergibt, wird als Zuverlässigkeit dieses Testgeräts definiert.

Die Zuverlässigkeit wird wie die Gültigkeit üblicherweise anhand des Korrelationskoeffizienten gemessen. Da eine zuverlässige Messung Stabilität von einer Situation zur anderen impliziert, sollte ein zuverlässiges Instrument in zwei Situationen entweder die gleichen Werte oder zumindest ähnliche Rangfolgen von Individuen ergeben. Durch die Berechnung der Korrelation erhalten wir einen mathematischen Ausdruck, inwieweit dies geschieht.

Ein zuverlässiges Messinstrument ist somit eines, bei dem Einzelpersonen bei wiederholten Messungen die gleiche Punktzahl (oder nahezu dieselbe) erhalten. Wenn der Korrelationskoeffizient verwendet wird, um die Ähnlichkeit der Bewertungen für eine Gruppe von Personen bei zwei Anwendungen desselben Maßes zu messen, wird dies als Zuverlässigkeitskoeffizient bezeichnet.

Der tatsächliche Prozess, durch den die Zuverlässigkeit einer Maßnahme beurteilt werden kann, hängt von zahlreichen Faktoren ab. Es gibt drei wichtige alternative „Arten“ der Zuverlässigkeit, von denen jede ihre eigenen Vor- und Nachteile hat. Sie sind in ihrer zugrunde liegenden Logik ausreichend verschieden, um ihre eingehende Prüfung zu rechtfertigen.

Die drei Techniken zur Erlangung der Zuverlässigkeit von Instrumenten sind:

(1) Wiederholte Messungen bei denselben Personen mit demselben Test oder Instrument

(2) Messung an denselben Personen mit zwei "äquivalenten" Formen des Messgerätes und

(3) Trennung des Messgerätes in zwei oder mehr äquivalente Teile und Korrelation dieser "Teil" -Werte.

Bevor wir jede Methode in Betracht ziehen, sollten wir bestimmte Arten von Zuverlässigkeit oder Stabilität der Messung, an denen wir möglicherweise interessiert sind, genauer untersuchen.

Nehmen wir an, dass jedes Mal, wenn wir ein Messgerät verwenden, um die Bewertung einer Person zu erhalten, die erhaltene Bewertung von mehreren Faktoren abhängt:

X _i = X _wahr + X _Fehler

Woher

X _i = Beobachtete Punktzahl für Person i im Test

X _true = Wahre Punktzahl für Person i im Test: Dies ist die tatsächliche Qualität, die der Test misst, den diese Person tatsächlich besitzt.

X _error = _{Fehlerpunktzahl} für die Person i im Test: Dies ist der Betrag, um den die Punktzahl der Person durch den Einfluss verschiedener Zufalls- oder Zeitfaktoren beeinflusst wurde.

Wenn alle Messinstrumente und Messmethoden „fehlerfrei“ wären, würden wir immer die richtigen Bewertungen von Personen erhalten, und die Korrelation zwischen zwei Messungen an derselben Personengruppe wäre immer + 1, 00 oder vollkommene Zuverlässigkeit (vorausgesetzt, es wird keine Änderung in den Messwerten vorgenommen) die wahren Scores sind zu erwarten). Leider ist eine solche fehlerfreie Messung nie vollständig verfügbar, da eine Vielzahl von Dingen? Tragen Sie zu jeder Zeit zur Leistung bei.

Somit kann x _i für eine bestimmte Messung entweder größer als oder kleiner als X _{true sein}, und die zwischen Messungen berechneten Korrelationen sind immer kleiner als Eins. Im Hinblick auf unsere bildliche Darstellung der Leistungsabweichung zwischen Personen auf einem beliebigen Messgerät, ob Test oder Interview, Prädiktor oder Kriterium, kann diese Gesamtvarianz in die zwei Hauptkomponenten echte Varianz und Fehlervarianz unterteilt werden.

Wobei Gesamtvarianz = Gesamtvarianz der beobachteten Testergebnisse

Echte Varianz = Variabilität von Personen in Bezug auf die tatsächlichen Beträge des gemessenen Merkmals

Fehlervarianz = Variabilität der Fehlerwerte von Personen

Zuverlässigkeit kann als Verhältnis der wahren Varianz zur Gesamtvarianz definiert werden

Je größer der Anteil der wahren Bewertungsvarianz ist oder umgekehrt, je kleiner die im Messprozess vorhandene Fehlervarianz ist, desto größer ist die Zuverlässigkeit der Messung. Der kritische Faktor, der die drei Hauptverfahren zur Bestimmung der Zuverlässigkeit unterscheidet, besteht darin, zu entscheiden, was als Fehlervarianz und was als wahr oder systematisch betrachtet werden soll. Es gibt keine einzelne Zuverlässigkeit für einen Test. Vielmehr hängt die Zuverlässigkeit von den Bedürfnissen des Augenblicks ab.

Zum Beispiel stellt der Psychologe möglicherweise eine der folgenden Fragen zum Messvorgang:

1. Wie genau kann ich Personen mit diesem Test zu einem bestimmten Zeitpunkt messen?

2. Wie genau werden die heute mit diesem Test ergriffenen Maßnahmen zu einem späteren Zeitpunkt für diese Personen repräsentativ sein?

3. Wie genau werden die Bewertungen dieses Tests die wahre Fähigkeit dieser Personen in Bezug auf das von dem Test erfasste Merkmal darstellen?

Alle drei sind legitime Zuverlässigkeitsfragen. Bei den Testergebnissen wird jedoch bei den verschiedenen Quellen für die Abweichung der Fehler ein etwas anderes Wert gelegt.

Diese Fehlerquellen wurden von Thorndike und Hagen (1963) wie folgt ausgedrückt:

1. Abweichung aufgrund des Tests zu einem bestimmten Zeitpunkt

2. Abweichung der Person von Zeit zu Zeit

3. Abweichung aufgrund der besonderen Auswahl von Aufgaben, die zur Darstellung der gemessenen Qualität ausgewählt wurden

Lassen Sie uns nun jede Zuverlässigkeitsmethode unter Berücksichtigung der Fehlerquellen prüfen, damit wir bestimmen können, wie jede Methode jede Quelle behandelt.

Test-Retest-Methode:

Eine naheliegende Methode zur Bewertung der Stabilität besteht darin, die Leistung derselben Person zweimal mit demselben Messgerät zu messen. Diese Art der Zuverlässigkeit enthält die Variationsquellen 1 und 2 als Fehler. Somit ist die resultierende Zuverlässigkeit eine, die die Stabilität der wahren Bewertung über die Zeit misst. Bei der Test-Retest-Methode gibt es zahlreiche Probleme, die dadurch verursacht werden, dass die Personen zweimal bei demselben Test gemessen werden.

Wenn beispielsweise die Zeitspanne zwischen Verwaltungen nicht ziemlich lang ist, ist es wahrscheinlich, dass die Variable eines Speicherfaktors die Antworten von Personen auf die zweite Verwerfung verzerrt. Eine weitere Schwierigkeit besteht darin, dass Abweichungen aufgrund einer bestimmten Auswahl von Aufgaben oder ausgewählten Elementen als systematische Abweichung behandelt werden, was die Zuverlässigkeit erhöht.

Daher würde jede Person, die zufällig zufällig mehr Antworten wusste, einfach deshalb, weil einige der Testobjekte, die sich beispielsweise auf ein Hobby dieser Person berührten, in der zweiten Verwaltung bevorzugt werden würden, da dieselben Elemente anstelle einer neuen Probe verwendet werden gebraucht. Er sollte daher bei beiden Tests einen hohen Wert erzielen, da die Variationsquelle 3 als echte Varianz behandelt wird.

Parallele Testmethode:

Eine Möglichkeit, die Fehlerquelle 3 als echte Varianz zu vermeiden, besteht darin, zwei vollständig vergleichbare oder "äquivalente" Formen des Messinstruments zu verwenden. Diese beiden Formulare sollten so identisch wie möglich sein, mit der Ausnahme, dass bestimmte Elemente oder Fragen in jedem Formular nicht gleich sind, obwohl sie jeweils eine ähnliche Auswahl der ausgewählten Elemente darstellen. Eine Form kann unmittelbar nach der anderen verabreicht werden, oder sie kann in beabstandeten Intervallen verabreicht werden, je nachdem, ob es darum geht, die Variationsquelle 2 als Fehlervarianz einzubeziehen.

Diese Art der Zuverlässigkeit stellt bei Verwendung von Abstandsprüfungen die strengste Bewertung der Stabilität dar, die durchgeführt werden kann. Es ist jedoch oft unmöglich oder allenfalls äußerst schwierig, alternative Formen eines Messinstruments zu konstruieren.

Wie konstruiert man zwei alternative, aber äquivalente Formen eines Maßes für die Arbeitsleistung oder zwei alternative Formen einer persönlichen Verlaufsform? In vielen Fällen nicht ohne erhebliche Schwierigkeiten. Dieses Fehlen eines wirklich vergleichbaren Messgeräts hat Psychologen dazu veranlasst, neben den Test-Retest- und Parallelformverfahren nach weiteren Methoden zur Beurteilung der Zuverlässigkeit zu suchen.

Unterteilte Testmethode:

Das dritte wichtige Zuverlässigkeitsverfahren wird oft als Maß für die interne Konsistenz eines Messgeräts bezeichnet. Sie gibt Aufschluss darüber, inwieweit Personen bei verschiedenen Unterteilungen des Gesamtinstruments relativ zueinander gleich bewertet werden. Diese Methode ist wahrscheinlich die am weitesten verbreitete Methode zur Messung der Zuverlässigkeit, da nur eine Form erstellt werden muss und dennoch keine wiederholten Verabreichungen dieser Form erforderlich sind.

Seine Mechanik ist sehr einfach. In ihrer grundlegendsten Form ist die interne Konsistenzmethode das Parallelform-Verfahren, bei dem die Parallelformen zwei Hälften desselben Tests sind. Diese Halbtests werden so gewählt, dass sie möglichst gleichwertig sind. Oft wird der Test jedoch einfach in zwei Hälften geteilt, indem alle ungeradzahligen Elemente in die eine Hälfte und alle geradzahligen in die andere Hälfte eingegeben werden. Dies wird als ungerade-gerade Version der Split-Half-Technik bezeichnet.

Es ist wichtig zu wissen, dass die Trennung des Gesamttests in äquivalente Hälften nur bei der Bewertung dieses Tests erfolgt, nicht jedoch bei der Durchführung. Da die beiden Untertests jeweils nur halb so lang sind wie das Original, repräsentieren sie jeweils eine Verhaltensstichprobe, die nur halb so groß ist wie der Gesamttest. Daher wird die Korrelation (Zuverlässigkeit) zwischen den Hälften wahrscheinlich die Zuverlässigkeit der Bewertungen auf der Grundlage des gesamten Tests unterschätzen.

Um eine Einschätzung der Zuverlässigkeit des vollständigen Tests zu erhalten, kann die Spearman-Brown Prophecy-Formel folgendermaßen angewendet werden:

_rtt = _2r½½ / 1 + _r½½

wobei r _tt = Zuverlässigkeit des Gesamttests (geschätzt)

r _1/2 _1/2 = beobachtete Korrelation zwischen den beiden Testhälften.

Wenn zum Beispiel die beobachtete Korrelation zwischen den Hälften 0, 40 betrug, würde die Prophecy-Formel die Zuverlässigkeit des vollständigen Tests folgendermaßen schätzen:

_rtt = 2 (0, 40) / 1 + 0, 40 = 0, 80 / 1, 40 = 0, 57

Die Split-Half-Methode bietet somit eine Methode zur Abschätzung der Zuverlässigkeit mit einem einzigen Test und einer einzelnen Verwaltung. Es gibt jedoch einige Nachteile bei der Verwendung. Wenn bei einem Test hauptsächlich Geschwindigkeitsfaktoren (wie z. B. bestimmte einfache Schreibtests) verwendet werden, führt das Verfahren der alternativen Hälfte zu einem falsch hohen Ergebnis.

Da Geschwindigkeitstests normalerweise leichte Gegenstände beinhalten, ist nur die Frage, ob darauf geantwortet wurde, ob sie richtig oder falsch waren. So würde beispielsweise eine ungerade Verteilung des Tests zu beinahe identischen Ergebnissen für beide Hälften führen - also eine hohe positive Korrelation.

Kuder-Richardson-Methode:

Eine andere Version der Split-Half-Methode wird häufig zur Messung der Zuverlässigkeit verwendet. In Verbindung mit einer statistischen Technik, die als Varianzanalyse bezeichnet wird, ist ihre häufigste Form als Kuder-Richardson-Verfahren bekannt. Die Kuder-Richardson (KR) -Methode ist auch eine Zuverlässigkeit der internen Konsistenz, die im Wesentlichen jeden Prüfling als einen Untertest behandelt, so dass anstelle von zwei Hälften n Untertests vorhanden sind, wobei n die Gesamtanzahl der Objekte auf dem Messgerät ist. Die KR-Technik ist äquivalent zur Berechnung aller möglichen Korrelationen zwischen Paaren von Testobjekten (es werden n [n - l] / 2 solcher Paare geben), aus deren Durchschnitt genommen und das Ergebnis mithilfe der Spearman-Brown-Prophezeiungsformel angepasst wird

Woher

r _tt = geschätzte Zuverlässigkeit der Gesamtprüfung

r _ii = durchschnittliche Korrelation zwischen Elementen

K = Anzahl der Elementpaare

Das Kuder-Richardson-Verfahren ignoriert die Variationsquelle 2 wie das Split-Half-Form-Verfahren und ist für Geschwindigkeitstests nicht geeignet.

Ein zusammenfassender Vergleich ist in Tabelle 2.4 angegeben. Diese Tabelle zeigt die verschiedenen Zuverlässigkeitsmethoden und vergleicht sie hinsichtlich der Arten von Abweichungen, die sie als Fehlervarianz enthalten.