Forced-Choice-Systeme: Zur Ermittlung von Job-Performance-Beurteilungen

Eine der populärsten Methoden, um Leistungsbeurteilungen zu erhalten, ist die Technik, die als "erzwungene Wahl" bezeichnet wird. Diese Bewertungsmethode, die eine Folge der üblichen Probleme war, die bei der Entwicklung von Persönlichkeitsmeßinstrumenten auftreten, wurde schnell an die Leistungsfähigkeit angepasst Bewertung.

Historisch scheint die Methode in den frühen 1940er Jahren bei Horst entstanden zu sein und wurde ungefähr gleichzeitig von Wherry verwendet. Das Verfahren wurde in einer Vielzahl von Situationen und für eine Vielzahl von Zwecken eingesetzt. In einer ausgezeichneten Kritik der Zwangsauswahlmethode fasst Zavala (1965, S. 117) Folgendes zusammen:

Die FC-Technik wurde verwendet, um professionelles Personal wie Luftwaffenoffiziere und Militärangehörige (Gough, 1958; Wherry, 1959), Straßenpolizisten und Polizeibeamte (Peres, 1959; Stander, 1960), Ingenieure (Lepkowski, 1963) und Lehrer zu bewerten (Leftwich, 1962; Tolle und Murray, 1958) und Ärzte (Newman und Howell, 1961; Newman, Howell und Harris, 1957). Das FC-Konzept wurde auch verwendet, um Tests zur Bewertung oder Messung von Interessen (Bendig, 1958; Peel, 1961), Führung und Supervision (Izard und Rosenberg, 1958; Wollack, 1959) und Einstellungen der Mitarbeiter (Miller und Gekoski, 1959) zu entwickeln. .

Gordon (1951), Denton (1954) und Hatch (1962) haben FC-Techniken zur Messung der Persönlichkeit und zur Bestimmung von Empathie eingesetzt. Der FC-Ansatz wurde auch bei Problemen im Zusammenhang mit der Signalerfassbarkeit und den Hörschwellen verwendet (Lukaszewski und Elliott, 1962; Swets, 1959). Blackwell (1952) verwendete die FC-Methode zur psychophysischen Messung sensorischer Funktionen. Webster (1959) entwickelte einen Figur-Präferenz-Test unter Verwendung der FC-Technik.

Konstruktion der Bewertungsskala für erzwungene Wahl:

Guilford (1954, S. 275) hat sehr genau die geeigneten Schritte dargelegt, die bei der Entwicklung eines Instruments der Zwangsauswahl zu befolgen sind - so deutlich, dass es sich lohnt, hier noch einmal zu wiederholen.

Er schlägt die folgenden acht Schritte vor:

1. Es werden Beschreibungen von Personen erhalten, die als am höchsten und niedrigsten Extremwert des Leistungskontinuums für die jeweilige zu bewertende Gruppe erkannt werden.

2. Beschreibungen werden in einfache Verhaltensqualitäten analysiert, die in sehr kurzen Sätzen oder Phrasen oder durch Merkmalnamen angegeben werden, die als Elemente bezeichnet werden können, um Elemente zu konstruieren.

3. Für jedes Element werden zwei Werte empirisch bestimmt: ein Unterscheidungswert und ein Präferenzwert. Der Diskriminierungswert ist ein Gültigkeitsindex, und der Präferenzwert ist ein Indikator dafür, wie stark die Qualität von Personen wie den Bewertern bewertet wird, die das Instrument verwenden werden.

4. Beim Bilden eines Elements werden Elemente gepaart. Zwei Anweisungen oder Terme mit ungefähr demselben hohen Präferenzwert werden gepaart, von denen eine gültig ist und die andere nicht. Beide sollten für den Bewerter eine "Face Validity" haben, dh der Bewerter sollte denken, dass beide für eine überlegene Leistung in der bewerteten Gruppe günstig sind. Zwei Anweisungen oder Terme mit ungefähr gleichem Präferenzwert werden ebenfalls gepaart, wobei eine gültig ist und die andere nicht.

5. Zwei Anweisungspaare, ein Paar mit einem hohen Präferenzwert und eines mit einem niedrigen Präferenzwert, werden in einer Tetrade zu einem Element zusammengefasst. Der Grund für diese Art der Kombination ist, dass der Durchschnittsbeauftragte zwar keine Einwände dagegen erhebt, eine von zwei vorteilhaften Beschreibungen für eine Person auszuwählen, die er kennt, aber manchmal weigert er sich, eine der zwei ungünstigen Beschreibungen auszuwählen. Manchmal wird eine fünfte, neutrale Beschreibung hinzugefügt, um eine Pentade zu bilden. Dies ist jedoch weniger üblich.

Ein Beispiel für eine Tetrade folgt:

Leichtsinnig

Ernsthaft

Energisch

Snobistisch

Die Merkmale "ernsthaft" und "energetisch" hätten den gleichen Präferenzwert gefunden, weil sie ungefähr gleich häufig als günstige Merkmale bei der Beschreibung der Art des Personals verwendet wurden, für das die Skala entwickelt wurde. Die Eigenschaft „ernsthaft“ erwies sich jedoch als gültig, da sie signifikant häufiger auf die Gruppe mit hohem Kriterium angewandt wurde als auf die Gruppe mit niedrigem Kriterium. Die Merkmale „sorglos“ und „snobistisch“ wurden als unpopulär empfunden, aber „sorglos“ unterscheidet das Tief von der Gruppe mit hohem Kriterium.

6. Die Anweisung an den Rater ist vorbereitet. Der Rater soll auf jede Tetrade als Gegenstand reagieren und sagen, welche der vier besten zu der Rater passt und welche der vier am wenigsten geeignet ist.

7. Eine experimentelle Form des Instruments wird in einer Probe, für die es ein äußeres Kriterium gibt, ausprobiert, um die Antworten zu validieren, wenn die Beschreibungen in dieser Form erstellt wurden. Es werden diskriminierende Antworten bestimmt und, falls gewünscht, Differenzgewichte zugewiesen.

8. Basierend auf den Ergebnissen in Schritt 7 wird ein Bewertungsschlüssel erstellt. Gewöhnlich erhält ein gültiges günstiges Merkmal, das als am besten beschreibende des Bewerters bezeichnet wird, ein positives Gewicht, auch ein gültiges, ungünstiges Merkmal, das als am wenigsten deskriptiv beurteilt wird.

Begründung:

Natürlich ist aus der obigen Beschreibung die Logik des Namens "erzwungene" Wahl sofort ersichtlich, da der Bewerter ständig gezwungen wird, unter gleich günstigen (oder ungünstigen) Alternativen zu wählen. Dies hindert den Rater angeblich daran, absichtlich nur die günstigsten Eigenschaften zu prüfen, wenn er die Arbeiter bewertet, denen er möglicherweise ein gewisses Maß an Gunst zeigen möchte.

Wenn er seine Antworten streng auf der Grundlage dessen auswählt, wie günstig sie erscheinen, wird er theoretisch keinen Grund haben, ein Merkmal in einem Paar gegenüber dem anderen zu wählen, da sie auf dieser Grundlage gleichgesetzt wurden. Daher wäre seine Wahl eine zufällige Entscheidung, und am Ende wählt er die Unterscheidungsmerkmale zur Hälfte aus.

Da jede Tetrade ein günstiges Paar (mit einem positiven Diskriminator) und ein ungünstiges Paar (mit einem negativen Diskriminator) hat, würde eine zufällige Auswahl in jedem Paar bedeuten, dass der Bewerter dazu tendiert, einen günstigen Diskriminator um die Hälfte zu wählen Zeit und ein ungünstiger Diskriminator etwa die Hälfte der Zeit.

Ein Zufalls- oder Zufalls-Score wäre also null (vorausgesetzt, wir geben für jeden positiven Diskriminator eine +1 und für jeden geprüften negativen Diskriminator eine -1). In dem Maße, in dem der Rater wirklich versucht, eine genaue Einschätzung des Arbeitnehmers zu geben, wird er tendenziell Merkmale auswählen, die das positive Paar diskriminieren, und keine Merkmale, die das negative Paar diskriminieren (vorausgesetzt, er bewertet einen guten Arbeiter). .

Wenn er einen armen Arbeiter einschätzt, kehrt sich das Muster um, indem er eher das diskriminierende Merkmal als den Zufall unter dem negativen Paar und das nichtdiskriminierende Merkmal häufiger als den Zufall im positiven Paar auswählt. Gute Arbeitskräfte sollten daher hohe positive Ergebnisse und arme Arbeitskräfte mit hohen negativen Bewertungen erzielen.

Zwangsauswahl-Indizes:

Der Schlüssel zu einer erfolgreichen Zwangsauswahl-Skala liegt in den verschiedenen Arten von Indizes, die für jedes Merkmal vor der Erstellung der endgültigen Version der Bewertungsskala ermittelt werden.

Die verschiedenen Indizes lauten wie folgt:

A. Diskriminierungsindizes

B. Gleichstellung von Indizes

1. Präferenzindex

2. Günstigkeitsindex

3. Wichtigkeitsindex

4. Attraktivitätsindex

Diskriminierende Indizes:

Der diskriminierende Index ist einfach ein Maß dafür, inwieweit ein Merkmal zwischen guten und armen Arbeitern unterscheidet. Alle Indizes, die normalerweise in der Artikelanalyse verwendet werden, sind potenziell für die Verwendung als Maß für die Diskriminierung von Merkmalen geeignet, da man sich ausschließlich mit der Gültigkeit jedes Merkmals befasst, um vorherzusagen, wie gut ein Mitarbeiter ist. Für eine Diskussion der Methoden zur Analyse von Gegenständen konsultieren Sie jeden Grundtext in psychologischen Tests.

Gleichungsindizes:

Die Gründe des Zwangswahlsystems erfordern, dass Merkmale so gepaart werden, dass sie für den Bewerter gleichermaßen "attraktiv" sind. Mit anderen Worten, ein Merkmal darf nicht mehr Merkmale aufweisen, die dazu führen würden, dass es von einem Bewerter, der den Wunsch hat, seine Antworten zu beeinflussen, über das andere Merkmal gestellt wird. Die Auswahl von Merkmalen in einem Paar sollte nur auf ihrer diskriminierenden Macht basieren und nicht auf einem Bevölkerungsstereotyp über die Merkmale selbst.

Wir werden sofort zu dem Problem geführt, dass wir versuchen herauszufinden, welche Eigenschaften von Eigenschaften die Reaktion eines Bewerters beeinflussen können, der seine Antworten voreingenommen machen möchte.

Vier solcher Merkmale könnten als potenziell wichtig angesehen werden:

1. Präferenz für ein Merkmal:

Dies lässt sich am besten als allgemeine Tendenz der Bewerter definieren, das Merkmal bei allen Menschen zu nutzen, unabhängig davon, ob sie gute oder arme Arbeiter sind. Sisson (1948) definierte dieses Merkmal als „das Ausmaß, in dem Menschen es normalerweise verwenden, um andere Menschen zu beschreiben.“ In gewissem Sinne ist die Eigenschaftspräferenz ein Maß für die Gemeinsamkeit eines Merkmals im beschreibenden Vokabular von Bewertern. Das Ausgleichen von Merkmalspaaren in Bezug auf ihre allgemeine Präferenz wäre sicherlich ein logischer Schritt, wenn versucht wird, überflüssige Artikelmerkmale zu entfernen, die die Wahl eines Bewerters beeinflussen könnten.

2. Günstigkeit eines Merkmals:

Merkmale unterscheiden sich deutlich in ihrer scheinbaren Bevorzugung, wenn sie als Deskriptor von Personen verwendet werden. Wie bereits erwähnt, kombiniert das Zwangsauswahlformat normalerweise zwei günstige Merkmale mit zwei ungünstigen Merkmalen. Es ist auch wichtig, dass die beiden günstigen Merkmale gleich günstig erscheinen und die beiden ungünstigen Merkmale gleichermaßen ungünstig sind. Andernfalls könnte der Bewerter versucht sein, die günstigsten in jedem Paar auszuwählen, um die Rate so gut wie möglich aussehen zu lassen.

Die Bevorzugung von Merkmalen ist wahrscheinlich der am häufigsten verwendete Index für das Gleichsetzen von Zwangsauswahlpaaren. Es ist ein Index, der relativ leicht zu erhalten ist, wenn eine Reihe von Richtern jedes Merkmal hinsichtlich seiner Günstigkeit für die Person bewertet, mit der es zum Beschreiben und Verwenden des Skalenmittelwerts als Günstigkeitsindex verwendet wird.

3. Wichtigkeitsindex:

Dieser Index wurde von Zavala (1965) erwähnt und ist ein Maß für die „Bedeutung der Aussage als Qualifikation für die betreffende Position“ (Zavala, 1965, S. 118). Dieser Index erkennt an, dass eine Person mit einer Neigungstendenz eher dazu neigt, eine bestimmte Situation als Bezugsrahmen zu verwenden als eine allgemeinere Referenz. Das heißt, ein Rater, der eine Rate gut aussehen lassen will, kann eher diejenige Eigenschaft auswählen, die er für die betreffende Tätigkeit als am wichtigsten erachtet, als diejenige Eigenschaft, die den günstigsten allgemeinen Deskriptor darstellt.

Die Entscheidung des Bewerters, welches Merkmal das beste ist, ist daher wahrscheinlich auf den Job zugeschnitten. Um Merkmale für ihre Wichtigkeit erfolgreich gleichzusetzen, ist es erforderlich, für jede unterschiedliche Bewertungssituation Wichtigkeits-Skalenwerte zu erhalten (in der Regel auf die gleiche Art und Weise, wie man günstige Skalenwerte erhält) - eine Aufgabe, die manchmal schwierig sein kann erreichen.

4. Attraktivitätsindex:

Der Begriff der sozialen Erwünschtheit wurde als Einfluss auf die Bestimmung der Reaktionen von Individuen auf Persönlichkeitsinventare diskutiert. Die Auswirkung dieses Merkmals ist wahrscheinlich in Ratingsituationen gleichermaßen wichtig. Es ist nicht immer leicht, zwischen Günstigkeit und sozialer Anziehungskraft zu unterscheiden.

Gewiss werden Merkmale, die als günstig beurteilt werden, auch als sozial wünschenswert angesehen. Der Unterschied kann veranschaulicht werden, indem man die Bevorzugung eines Merkmals wie Intelligenz in Betracht zieht, das relativ hoch sein kann, während sein sozialer Wunsch eher aufgrund einer allgemeinen kulturellen Reaktion gegen „Eierköpfe“ usw. etwas geringer ausfallen kann.

Bezugsrahmen:

Es gibt nicht nur eine Vielzahl verschiedener Indizes, die verwendet werden können, um Paare von Merkmalen in einem erzwungenen Auswahlformat abzugleichen, sondern es gibt auch mehrere Anweisungssätze oder Referenzrahmen, die den Juroren gegeben werden können, wenn sie zu Gleichungszwecken Skalenwerte erhalten . Infolgedessen können unterschiedliche Anweisungen ziemlich kritisch sein.

Wenn Sie beispielsweise daran interessiert sind, Wichtigkeitsindizes zu erhalten, kann er den Richtern eine der folgenden Anweisungen geben:

(I) Gibt jedem Merkmal eine Bewertung, je nachdem, wie wichtig das Merkmal für eine erfolgreiche Arbeitsleistung ist, oder

(2) Geben Sie jedem Merkmal eine Bewertung, je nachdem, wie wichtig Sie der Meinung sind, dass der Prüfer, der die Skala schließlich verwendet, das Gefühl hat, dass das Merkmal für eine erfolgreiche Arbeitsleistung ist.

Im ersten Fall erhält man Skalenwerte auf der Grundlage des eigenen Bezugsrahmens der Richter. In der zweiten Instanz werden die Richter gebeten, sich in die „Schuhe“ der Person zu setzen, die schließlich gebeten wird, das Instrument zur Leistungsbeurteilung zu verwenden und Urteile zu fällen, als ob sie diese Person wären. Die unter diesen beiden Bedingungen erhaltenen Wichtigkeits-Skalenwerte können sich als recht unterschiedlich erweisen.

Die Strategie des Idealmenschen:

Ein verwandtes Problem in Bezug auf die Referenzfrage ist die Rater-Strategie, die als „Ideal-Man-Strategie“ bezeichnet wird. Ein sehr typischer Weg, um Antworten auf eine Bewertungsskala für erzwungene Entscheidungen vorzuschieben, besteht darin, dass der Bewerter seinen besten Arbeiter auswählt und seine Charakteristika geistig durch diejenigen des Arbeitnehmers ersetzt, den er tatsächlich bewertet und den er gut punkten möchte.

Wenn er keinen Arbeiter hat, der gut genug ist, um als Richtschnur für die Bewertung verwendet zu werden, kann der Prüfer ein Bild von einem idealen Arbeiter zeichnen und dieses als Bezugsrahmen für seine Bewertung verwenden. Diese Art des vorsätzlichen Vorspannens ist äußerst schwierig zu bewältigen, da der Bewerter in gewissem Sinne den Eigenschaften der Merkmale, vor denen die Zwangsauswahlskala zu schützen versucht, keine Beachtung schenkt.

Das heißt, der Bewerter tendiert dazu, eine „ehrliche“ Bewertung durchzuführen, außer dass der „Mann“, den er bewertet, wenn er die Skala abgeschlossen hat, eine ganz andere Person ist als die, die er bewerten soll. Wenn ein Bewerter klug genug ist, diese Bewertungsstrategie als Methode zur Steigerung der Leistungswerte seiner Freunde usw. anzuwenden, kann wenig getan werden, um die daraus resultierende Verzerrung zu vermeiden, selbst bei erzwungener Entscheidung.

Forschung zur Zwangsauswahlmethode:

Die Methode der Zwangsentscheidung wurde seit ihrer Einführung in den 1940er Jahren intensiv erforscht. Wie bei vielen neueren Methoden erwies es sich als weniger heilsam, als viele erhofft hatten, aber es scheint immer noch eine der effektivsten Möglichkeiten zu sein, die Verzerrung der Rater, die dem Industriepsychologen zur Verfügung steht, zu reduzieren. Ein kurzer Überblick über einige der Erkenntnisse, die sich mit verschiedenen Aspekten der Zwangsauswahlmethode befassen, vermittelt einen Eindruck des allgemeinen Status der Methode.

Forced-Choice-Artikelformat:

Highland und Berkshire (1951) verglichen eine der klassischen Studien über die Zwangsauswahl-Methode und verglichen sechs verschiedene Arten von Artikelformaten hinsichtlich (1) ihrer Ungerade-Gerade-Zuverlässigkeit (2) und ihrer Anfälligkeit für Befangenheit, wenn Bewerter angewiesen wurden, eine hohe Punktzahl zu gewährleisten, (3) ihre Gültigkeit anhand eines Kriteriums, das sich aus den Rangordnungen der Dozenten der Schüler zusammensetzt, und (4) ihrer allgemeinen Beliebtheit, wie von den Bewertern festgelegt.

Die sechs verschiedenen Arten von Artikelformaten waren:

1. Zwei Aussagen pro Artikel, sowohl günstig als auch ungünstig. Rater wurde gebeten, das aussagekräftigste Paar von Aussagen auszuwählen.

2. Drei Aussagen pro Artikel, entweder alle günstig oder alle ungünstig. Rater wurde gebeten, die meisten und die am wenigsten beschreibenden Aussagen auszuwählen.

3. Vier Aussagen pro Artikel, alle günstig. Rater wurde gebeten, die zwei aussagekräftigsten Aussagen auszuwählen.

4. Vier Aussagen pro Artikel, alle günstig. Rater wurde gebeten, das am besten beschreibende und das am wenigsten beschreibende auszuwählen.

5. Vier Aussagen pro Position, zwei günstig und zwei ungünstig. Rater wurde gebeten, die meisten und die am wenigsten beschreibenden Aussagen auszuwählen.

6. Fünf Aussagen pro Artikel, zwei günstig, zwei ungünstig und eine neutral. Rater wurde gebeten, die meisten und die am wenigsten beschreibenden Aussagen auszuwählen.

Die Ergebnisse der Studie führten Highland und Berkshire zu folgenden Schlussfolgerungen:

Zuverlässigkeit:

Alle Formate führten zu hohen Zuverlässigkeitskoeffizienten, obwohl die Formate 5 und 6 als beste Ergebnisse für dieses Kriterium angesehen werden könnten.

Gültigkeit:

Format 4 erwies sich im Allgemeinen als das gültigste Format, wobei Format 3 eine starke Sekunde lief. Dies zeigt, dass die Verwendung nur günstiger Alternativen die Gültigkeit zu beeinflussen scheint.

Rater Präferenz:

Die Bevorzugung der Bewerter für die sechs Formate als (von den meisten bis zur am meisten bevorzugten) 3, 1, 6, 5, 4 und 2.

Anfälligkeit für Befangenheit:

Die Formen unterschieden sich beträchtlich in Bezug auf den Grad, in dem sie gegen vorsätzliche Versuche des Vorurteils resistent waren. Die Reihenfolge des Vorspannungswiderstands (von den meisten zu den niedrigsten) betrug 3, 2, 1, 4, 5 und 6.

Highland und Berkshire legen nahe, dass Format 3 das beste der sechs untersuchten ist, wenn die vier oben genannten Kriterien berücksichtigt werden.

Vergleichende Gültigkeit der erzwungenen Wahl:

Die Studie von Highland und Berkshire untersuchte verschiedene Formate der erzwungenen Wahl untereinander. Eine ebenso wichtige Frage betrifft die Gültigkeit und Zuverlässigkeit der Methode im Vergleich zu anderen Leistungsbewertungsverfahren.

Zavala (1965) weist in den Studien, in denen der Vorteil der Zwangsentscheidung hinsichtlich der Gültigkeit untersucht werden sollte, folgende Punkte an:

1. Zu viele Studien zur Gültigkeit von erzwungener Wahl verwendeten tendenziell andere Bewertungsformen als Kriterium. Dies ist wahrscheinlich eher ein Zuverlässigkeitsmaß als ein Gültigkeitsmaß.

2. Die meisten vergleichenden Studien scheinen eine geringfügige Überlegenheit der Zwangsentscheidung gegenüber herkömmlichen Bewertungsmethoden zu zeigen.

3. Je länger die Bewertungsskala ist, desto geeigneter ist die Zwangsauswahlmethode überlegen.

4. Die Gültigkeit einer Zwangsauswahlskala hängt auch von der Art des Gleichungsindex ab, der beim Erstellen der Elemente verwendet wird.

Anfälligkeit für Bias:

Obwohl die Gültigkeitsfrage wahrscheinlich die wichtigste ist, die zur Bewertung der Zwangsauswahlmethode verwendet werden kann, ist auch die Frage, inwieweit die Methode einer Verzerrung oder einer absichtlichen Verzerrung unterliegt, kritisch. Tatsächlich wurde das Verfahren speziell entwickelt, um die Antwortverzerrung zu reduzieren, da die Antwortverzerrung dazu neigt, die Gültigkeit zu verringern.

Die Beweise für die Wirksamkeit des Zwangsauswahlverfahrens als Verzerrer von Vorurteilen sind etwas unklar. Es scheint wenig Zweifel zu geben, dass Fälschen unter einem Force-Choice-Format möglich bleibt, wie Sisson (1948), Howe (1960) und Howe und Silverstein (1960) zeigen.

Es scheint jedoch beträchtliche Beweise dafür zu geben, dass der Grad der Scheinbarkeit durch erzwungene Wahlmöglichkeiten reduziert wird. Karr (1959), Taylor und Wherry (1951) und Izard und Rosenberg (1958) bieten drei Forschungsstudien an, die auf einen Widerstand gegen Fälschung durch Zwangsentscheidungen hinweisen, der die anderer Skalentypen übertrifft.

Waters (1965) hat kürzlich darauf hingewiesen, dass eine der größten Schwierigkeiten bei der Erforschung der Scheinbarkeit einer erzwungenen Entscheidung darin bestanden hat, dass der "Satz" für die Fälschung des Tests, der aufgestellt wurde, sich normalerweise von dem "Satz" unterschied, unter dem sich die Gleichungsindizes befanden ursprünglich erhalten. Somit sind die Indizes für die tatsächliche Beurteilungssituation nie wirklich völlig angemessen. Er schlägt vor, dass es drei verschiedene Antwortsätze gibt, unter denen Gleichungsindizes erhalten werden können (unabhängig davon, welcher Index verwendet wird).

1. Ehrliche Beurteilung:

Wenn der Befragte der Ansicht ist, dass die Aussage wirklich der Ansicht ist, dass die Aussage für die zu bewertende Person gilt

2. Sozialverträglichkeit:

Beantworten, um sich selbst und anderen im Allgemeinen als akzeptabel zu erscheinen

3. erfolg auftritt:

Beantworten, um die Person dazu zu bringen, die für eine bestimmte Tätigkeit oder Tätigkeit erforderlichen oder erwünschten Qualitäten zu haben

Von Waters wird weiter vorgeschlagen, dass Fakeability-Studien in drei allgemeine Klassen eingeteilt werden können, abhängig davon, wie der Antwortsatz und die Gruppenzusammensetzung variiert werden.

Um aus Waters (1965, S. 189) zu zitieren, haben wir:

1. Fakability-Studien:

Legt und gruppiert sich in Situationen, in denen die Attraktivitätsindizes ermittelt und die Skala verwaltet wird, mindestens ähnlich.

2. Generalisierungsstudien:

Entweder Mengen oder Gruppen, aber nicht beide, veränderten sich von der Situation, in der die Attraktivitätsindizes erhalten werden, zu der Situation, in der die Skala verwaltet wird.

3. Erweiterungsstudien:

Sowohl Mengen als auch Gruppen veränderten sich von der Situation, in der die Attraktivitätsindizes erhalten werden, zu der Situation, in der die Skala verwaltet wird.

Fakability-Studien sind nicht mit den letzteren Studienarten zu verwechseln. Sie sind der einzige Typ, der direkt prüft, wie angemessen die Gleichungsindizes für ihre Arbeit sind. Die beiden letzteren bewerten einfach die Allgemeinheit des Index für andere Situationen. Unglücklicherweise waren laut Waters die meisten Fakeability-Studien bisher entweder Verallgemeinerungs- oder Erweiterungsstudien. Es besteht ein starker Forschungsbedarf, der die Frage der Scheinbarkeit direkt angreift.

Normannische Studie:

Eine der interessanteren Studien zum Problem der Wahlfälschung und -erkennung ist die Studie von Norman (1963). Er beschäftigte sich mit der Dynamik der Artikel-Popularität und der Index-Diskriminierung unter normalen Bedingungen und unter falschen Bedingungen. Außerdem war er daran interessiert zu bestimmen, inwieweit Fälschungen kontrolliert und / oder erkannt werden konnten.

Die wichtigsten Ergebnisse der Forschung in Bezug auf das Verhalten der Beliebtheits- und Diskriminierungsindizes sind nachstehend aufgeführt:

1. Die Diskriminierungsindizes unter normalen und gefälschten Bedingungen wurden ungefähr korreliert

2. Die Publikumsindizes unter normalen und falschen Bedingungen waren niedrig korreliert (0, 24 und 0, 23).

3. Die Zuverlässigkeit der Diskriminierungsindizes unter gefälschten Bedingungen war null.

4. Die Zuverlässigkeit der Diskriminierungsindizes unter normalen Bedingungen war mäßig hoch.

5. Die Zuverlässigkeit der Popularitätsindizes war sowohl unter normalen als auch unter falschen Bedingungen nahezu perfekt (0, 97 und 0, 98).

Das letzte dieser Ergebnisse (Befund Nr. 5) impliziert, dass der Unterschied in der Beliebtheit zwischen normalen und gefälschten Bedingungen auch sehr zuverlässig sein muss (der Befund Nr. 2, der angibt, dass es erhebliche Unterschiede gibt, kann modifiziert werden, um darauf hinzuweisen, dass solche Unterschiede zuverlässig sind konsistent). Dies wurde jedoch nicht direkt in der Studie bewertet.

Norman schlägt dann ein Verfahren vor, um ein Instrument der Zwangsauswahl zu entwickeln, das unter falschen Bedingungen den gleichen Mittelwert aufweist wie unter normalen Bedingungen, eine geringere Varianz unter falschen Bedingungen und eine sehr empfindliche Erkennungsskala zum Identifizieren von Fälschern.

Um dies zu erreichen, umreißt er die folgenden Schritte:

1. Wählen Sie Elemente mit hohen Unterscheidungsindizes unter normalen Bedingungen aus (wählen Sie mehr aus, als eventuell erforderlich ist).

2. Ordnen Sie die ausgewählten Artikel nach der Größe ihrer Popularität unter den normalen und den falschen Bedingungen (siehe Nummer 2 in der obigen Liste).

3. Wählen Sie Elemente von beiden Seiten (beliebig viele) aus und stellen Sie sicher, dass die algebraische Summe der Beliebtheitsdifferenzen nach Fertigstellung gleich Null ist.

Schritt 3 stellt sicher (da wir wissen, dass die Beliebtheitsdifferenzen zuverlässig sind), dass der durchschnittliche Testwert der Personen unter normalen Bedingungen dem unter den falschen Bedingungen entspricht. Dies geschieht, da der Mittelwert der Verteilung der Testergebnisse gleich der Summe der Elementbeliebtheiten ist. Daher werden die Durchschnittswerte unter normalen und falschen Bedingungen gleichgesetzt. Tests, die mit diesem Verfahren erstellt werden, neigen auch dazu, Abweichungen ihrer Testwertverteilungen zu verursachen, wenn sie unter einer Fälschungsgruppe genommen werden. Dies ist ein Ergebnis, das dazu neigt, die Wahrscheinlichkeit zu verringern, dass Menschen, die dazu neigen, gefälscht zu werden, ausreichend hohe Punktzahlen erhalten, um akzeptiert zu werden.

Zur Veranschaulichung betrachten Sie das unten gezeigte Diagramm (Abbildung 7.4), in dem die Verteilung der Testergebnisse unter normalen Bedingungen gemessen wird. (7.4a) die Verteilung der Testergebnisse, die im Rahmen eines Fälschungssatzes (7.4b) ermittelt wurden, und eine zusammengesetzte Verteilung, die aus Fälschern und Nicht-Fälschern besteht (7.4c).

Die Untersuchung von Abbildung 7.4c gibt Aufschluss über den beherrschenden Effekt, den diese Methode auf vorsätzliche Betrüger ausübt. Bei der üblichen Leistungsbewertung sind wir daran interessiert, diejenigen Personen zu belohnen, die auf dem Zwangsauswahl-Formular einen hohen Punktestand erzielen. Da die Varianz der gefälschten Verteilung verringert wird, können die Personen mit der höchsten Punktzahl (diejenigen, die sich in 7.4c rechts von der Trennlinie befinden) ausgewählt werden, ohne dass zu viele Betrüger in die ausgewählte oder belohnte Gruppe aufgenommen werden.

Abbildung 7.5 zeigt fünf verschiedene empirische Demonstrationen dieser Varianzeinschränkung, die in der Norman-Studie erhalten wurden.

Eine abschließende Eigenschaft der Norman-Methode ist, dass es sehr einfach ist, eine „Erkennungsskala“ zu erstellen, um zu bestimmen, wer fälscht und wer nicht.

Auf der Waage wird einfach eine Anzahl von Artikeln aufgeführt, die die folgenden Anforderungen erfüllen:

1. Sie müssen für die Kriterienvariablen eine Gültigkeit von nahezu null haben.

2. Sie müssen eine große Verschiebung der Beliebtheit vom normalen zum falschen Zustand gezeigt haben.

3. Ihre Popularität unter normalen Bedingungen muss entweder sehr hoch oder sehr niedrig sein.

Dann baut man einen Schlüssel auf, der die unregelmäßige Antwort unter den normalen Bedingungen für jeden Gegenstand (d. H. Die häufige Antwort unter der Fälschungsbedingung) bewertet, da eine Antwort tendenziell eine Fälschung anzeigt und die andere Antwort eine normale Antwort angibt.

Eine andere Art, diese Erkennungsobjekte zu beschreiben, besteht darin, dass ihre Beliebtheit mit der Tendenz zur Fälschung korreliert. Abbildung 7.6 zeigt die Verteilungen der Scores auf der Detektorskala, die von Norman unter normalen und unter falschen Bedingungen erhalten wurden. Beachten Sie die große Verschiebung der Ergebnisse, als die Leute gefälscht wurden. Ein Grenzwert von etwa 20 würde die meisten Betrüger identifizieren, ohne fälschlicherweise sehr viele Normalpersonen zu beschuldigen.