Rater-Eigenschaften: Rater-Zuverlässigkeit und Vorhersagbarkeit der Bewertungen

Bisher haben wir die tatsächlichen Bewerter selbst und ihre Bedeutung für den Leistungsbewertungsprozess ignoriert. Es wurde zwar darauf hingewiesen, dass Bewerter zahlreichen Arten von „Fehlern“ bei der Beurteilung unterliegen und dass Ratingskalen so ausgelegt werden sollten, dass diese Fehler minimiert werden, die Eigenschaften der einzelnen Bewerter wurden jedoch nicht auf ihre Auswirkungen auf den Ratingprozess untersucht.

Rater-Zuverlässigkeit und Vorhersagbarkeit der Bewertungen:

Das Problem der Rater-Eigenschaften hat in den letzten Jahren viel Aufmerksamkeit auf sich gezogen. Buckner (1959) hat die Beziehung zwischen der Übereinstimmung der Bewerter und dem Grad, in dem man Ratings mit einer anderen Variablen vorhersagen kann, untersucht. Anders ausgedrückt, stellte Buckner die Frage: "Bestimmen sehr verlässliche Ratings, dass ich ein Kriterium habe, das leichter vorhersagbar sein wird?" Die Antwort erwies sich als nein. Buckner teilte seine Quoten in vier Gruppen ein, je nachdem, wie gut die Richter sich bei der Bewertung ihrer Ratings einig waren.

Gruppe 1: Die Richter waren sich in diesen Raten sehr einig

Gruppe 2: Die Richter waren sich einig in diesen Raten

Gruppe 3: Die Richter waren sich bei diesen Raten nicht einig

Gruppe 4: Die Richter waren sich über diese Tarife nicht einig

Anschließend validierte er zwei Tests, indem er die Testergebnisse mit der Bewertung korrelierte. Dies wurde für jede Gruppe separat durchgeführt. Er fand keine systematische Beziehung zwischen der Größe seiner erlangten Gültigkeiten in Abhängigkeit von der Gruppe, mit der er arbeitete. Windle und Dingman (1960) kritisierten Buckners Interpretation und führten eine zweite Studie durch, in der sie die in Tabelle 7.4 angegebenen Ergebnisse fanden.

Beachten Sie die relativen Größen der Gültigkeitskoeffizienten in Tabelle 7.4. Je zuverlässiger die Bewerter, desto höher die Gültigkeit. Je zuverlässiger die Bewertungen, desto höher die Gültigkeit.

Daher kann man logischerweise Ergebnisse erwarten, die eher denen von Windle und Dingman als denen von Buckner ähneln. Man muss jedoch auch bedenken, dass hohe Zuverlässigkeit nur eine notwendige Voraussetzung für hohe Gültigkeit ist - sie ist keine ausreichende Bedingung.

Wiley hat in einer Reihe von Studien die Konsistenz der Bewerter-Urteile im Zeitverlauf dahingehend untersucht, wie gut sie mit früheren Urteilen des gleichen Bewerters (Wiley 1963; Wiley und Jenkins, 1963) übereinstimmen und wie gut sie mit einem Gruppenkomplex übereinstimmen Rating (Wiley und Jenkins, 1964). Im Allgemeinen wurde festgestellt, dass die Bewertungen bis zu einem Zeitraum von zehn Monaten konstant sind.

Darüber hinaus stellte er fest, dass diejenigen Bewerter, die bei einer anfänglichen Ratingaufgabe sehr eng mit dem Gruppenverbund übereinstimmten, auch die Bewertungsberechtigten waren, die einen Monat später am engsten mit dem Gruppenverbund eine andere Bewertungsaufgabe vereinbarten. Er schlägt vor, dass dieses Wissen genutzt werden kann, um Bewerter auszuwählen, die den durchschnittlichen Konsens einer größeren Gruppe von Bewertern wirklich repräsentieren.

Leider ist das Problem, ob Bewerter, die mit dem Gruppenkompositorium die besten Bewerber sind, um zu werben oder nicht, nicht selbst festgestellt worden. Es gibt jedoch die Logik der Position, dass, wenn es möglich ist, eine zusammengesetzte Bewertung mit einer kleinen Anzahl von Bewertern zu erhalten, die sich der ermittelten Zusammensetzung mit einer größeren Anzahl annähert, sicherlich Zeit und Geld gespart werden können.

Zahlreiche andere Bewertungsmerkmale haben gezeigt, dass sie eine Rolle bei Leistungsbewertungen spielen, die durch Bewertungen ermittelt werden. Christal und Madden (1960) haben gezeigt, dass eine wichtige Überlegung das Ausmaß ist, in dem ein Bewerter mit der von ihm bewerteten Tätigkeit vertraut ist, ein Befund, der durch zusätzliche Studien von Madden (1960a 1961) gestützt wird. In ähnlicher Weise haben Wiley, Harber und Giorgia (1959a, 1959b) gezeigt, dass der Einfluss allgemeiner Rater-Tendenzen auf die Bewertungen spürbar ist.

Bewertungsmaßstab für Format und Leistungsbeurteilung:

Madden hat über mehrere Studien berichtet, die sich mit dem Einfluss der Ratingskala selbst beschäftigen. In einer Studie (Madden, 1960b) stellte er fest, dass die Zuverlässigkeit der Ratings und die Leichtigkeit der Bewertung nicht durch die Verwendung oder Nichtanwendung von Beispielen bei der Definition der Ratingskala beeinflusst wurden, sondern ob die Skala als nicht definiert definiert wurde. Beeinträchtigung der Zuverlässigkeit und Benutzerfreundlichkeit.

In einer anschließenden Studie untersuchten Madden und Bourdon (1964) den Einfluss von sieben verschiedenen Ratingskalenformaten auf die Bewertungen von 15 verschiedenen Berufen auf 9 verschiedene Beschäftigungsfaktoren. Die Ergebnisse, auch wenn sie etwas komplizierter sind, weisen eindeutig darauf hin, dass die einem Beruf zugewiesene Bewertung sowohl vom jeweiligen Beschäftigungsfaktor als auch vom verwendeten Bewertungsskalenformat abhängt.