Korrelation: Bedeutung, Typen und ihre Berechnung

Nachdem Sie diesen Artikel gelesen haben, werden Sie Folgendes lernen: 1. Definitionen der Korrelation 2. Bedeutung der Korrelation 3. Bedarf 4. Typen 5. Berechnungsmethoden.

Definitionen der Korrelation:

Wenn die Änderung in einer Variablen mit einer Änderung in der anderen Variablen einhergeht, spricht man von einer Korrelation der beiden Variablen, und diese gegenseitige Abhängigkeit wird Korrelation oder Kovariation genannt.

Kurz gesagt, die Tendenz zur gleichzeitigen Variation zwischen zwei Variablen wird als Korrelation oder Kovariation bezeichnet. Zum Beispiel kann eine Beziehung zwischen den Höhen und Gewichten einer Gruppe von Studenten bestehen. Es wird erwartet, dass die Bewertungen der Studenten in zwei verschiedenen Fächern eine wechselseitige Abhängigkeit oder eine Beziehung zwischen ihnen haben.

Den Grad der Beziehung oder Kovariation zwischen zwei Variablen zu messen, ist Gegenstand der Korrelationsanalyse. Korrelation bedeutet also die Beziehung oder „Zusammengehörigkeit“ oder Übereinstimmung zwischen zwei Variablen.

In der Statistik ist Korrelation eine Methode zur Bestimmung der Übereinstimmung oder Verhältnismäßigkeit zwischen zwei Messreihen (oder Scores). Vereinfacht ausgedrückt, bezeichnet die Korrelation die Beziehung einer Variablen zur anderen.

Bedeutung der Korrelation:

Um den Assoziationsgrad oder die Beziehung zwischen zwei Variablen quantitativ zu messen, wird ein Beziehungsindex verwendet und als Korrelationskoeffizient bezeichnet.

Der Korrelationskoeffizient ist ein numerischer Index, der uns sagt, inwieweit die beiden Variablen zusammenhängen und inwieweit sich die Variationen in einer Variablen mit den Variationen in der anderen ändern. Der Korrelationskoeffizient wird immer entweder durch r oder ρ (Rho) symbolisiert.

Der Begriff "r" ist als Produktmoment-Korrelationskoeffizient oder Karl Pearson's Korrelationskoeffizient bekannt. Das Symbol 'ρ' (Rho) ist als Rangdifferenz-Korrelationskoeffizient oder Rang-Korrelationskoeffizient eines Speerschreiters bekannt.

Die Größe von ' r ' gibt die Menge (oder den Grad oder das Ausmaß) der Korrelation zwischen zwei Variablen an. Wenn die Korrelation positiv ist, ist der Wert von ' r ' + ve, und wenn die Korrelation negativ ist, ist der Wert von V negativ. Somit geben die Vorzeichen des Koeffizienten die Art der Beziehung an. Der Wert von V variiert von +1 bis -1.

Die Korrelation kann zwischen perfekter positiver Korrelation und perfekter negativer Korrelation variieren. Der obere Teil der Skala zeigt eine perfekte positive Korrelation an. Sie beginnt bei +1 und geht dann durch Null, was die vollständige Abwesenheit einer Korrelation anzeigt.

Der untere Teil der Skala endet bei -1 und zeigt eine perfekte negative Korrelation an. Die numerische Messung der Korrelation erfolgt somit durch die Skala von +1 bis -1.

[NB - Der Korrelationskoeffizient ist eine Zahl und kein Prozentsatz. Es wird in der Regel auf zwei Dezimalstellen aufgerundet].

Notwendigkeit der Korrelation:

Korrelation gibt einem Konstrukt Bedeutung. Korrelationsanalyse ist essentiell für die Grundlagenforschung in der Pädagogik. In der Tat ist der größte Teil der grundlegenden und angewandten psychologischen Forschung von Natur aus korrelational.

Korrelationsanalyse ist erforderlich für:

(i) Ermittlung der Merkmale psychologischer und pädagogischer Tests (Zuverlässigkeit, Gültigkeit, Analyse von Gegenständen usw.).

(ii) Prüfung, ob bestimmte Daten mit der Hypothese übereinstimmen.

(iii) Vorhersagen einer Variablen auf der Grundlage der Kenntnis der anderen (der anderen).

(iv) Aufbau psychologischer und pädagogischer Modelle und Theorien.

(v) Gruppieren von Variablen / Kennzahlen zur sparsamen Interpretation von Daten.

(vi) Durchführung multivariater statistischer Tests (Hoteling's T 2 ; MANOVA, MANCOVA, Diskriminanzanalyse, Faktoranalyse).

(vii) Isolieren des Einflusses von Variablen.

Arten der Korrelation:

In einer bivariaten Verteilung kann die Korrelation sein:

1. Positive, negative und Nullkorrelation und

2. Linear oder krummlinig (nicht linear).

1. Positive, Negative oder Nullkorrelation:

Wenn auf die Erhöhung einer Variablen (X) eine entsprechende Erhöhung der anderen Variablen (Y) folgt; Die Korrelation wird als positive Korrelation bezeichnet. Die positiven Korrelationen liegen zwischen 0 und +1; Die obere Grenze, dh +1, ist der perfekte positive Korrelationskoeffizient.

Die perfekte positive Korrelation gibt an, dass für jede Erhöhung der Einheit in einer Variablen die proportionale Zunahme in der anderen zunimmt. Zum Beispiel haben „Wärme“ und „Temperatur“ eine perfekte positive Korrelation.

Wenn andererseits die Zunahme einer Variablen (X) zu einer entsprechenden Verringerung der anderen Variablen (Y) führt, spricht man von einer negativen Korrelation.

Die negative Korrelation reicht von 0 bis - 1; Die untere Grenze ergibt die perfekte negative Korrelation. Die perfekte negative Korrelation zeigt, dass für jede Erhöhung der Einheit in einer Variablen die proportionale Abnahme der Einheit in der anderen erfolgt.

Nullkorrelation bedeutet keine Beziehung zwischen den beiden Variablen X und Y; dh die Änderung einer Variablen (X) steht nicht im Zusammenhang mit der Änderung der anderen Variablen (Y). Zum Beispiel Körpergewicht und Intelligenz, Schuhgröße und Monatsgehalt; usw. Die Nullkorrelation ist der Mittelpunkt des Bereichs - 1 bis + 1.

2. Lineare oder krummlinige Korrelation:

Die lineare Korrelation ist das Verhältnis der Änderung zwischen den beiden Variablen, entweder in derselben Richtung oder in entgegengesetzter Richtung, und die grafische Darstellung der einen Variablen in Bezug auf die andere Variable ist eine gerade Linie.

Betrachten Sie eine andere Situation. Erstens steigt mit Zunahme einer Variablen die zweite Variable proportional bis zu einem bestimmten Punkt; danach nimmt die zweite Variable mit einer Erhöhung der ersten Variablen ab.

Die grafische Darstellung der beiden Variablen ist eine gekrümmte Linie. Eine solche Beziehung zwischen den beiden Variablen wird als krummlinige Korrelation bezeichnet.

Berechnungsmethoden für den Korrelationskoeffizienten:

Zur Vereinfachung ungruppierter Daten der bivariaten Verteilung werden die folgenden drei Methoden verwendet, um den Wert des Korrelationskoeffizienten zu berechnen:

1. Streudiagrammmethode.

2. Pearson's Product Moment Korrelationskoeffizient.

3. Rangfolge der Spearman-Korrelation.

1. Streudiagrammmethode:

Streudiagramm oder Punktdiagramm ist ein grafisches Gerät, um bestimmte Schlussfolgerungen bezüglich der Korrelation zwischen zwei Variablen zu ziehen.

Bei der Erstellung eines Streudiagramms werden die beobachteten Beobachtungspaare durch Punkte auf einem Millimeterpapier in einem zweidimensionalen Raum aufgezeichnet, indem die Messungen an der Variablen X entlang der horizontalen Achse und die an der Variablen Y entlang der vertikalen Achse vorgenommen werden.

Die Platzierung dieser Punkte in der Grafik zeigt die Änderung in der Variablen, ob sie sich in dieselbe oder in entgegengesetzte Richtungen ändern. Es ist eine sehr einfache, aber grobe Methode zur Berechnung der Korrelation.

Die Frequenzen oder Punkte werden in einer Grafik dargestellt, indem für die beiden Serien geeignete Skalen genommen werden. Die aufgezeichneten Punkte tendieren dazu, sich in einem Band mit größerer oder kleinerer Breite entsprechend ihrem Grad zu konzentrieren. Die Linie der besten Anpassung wird mit einer freien Hand gezeichnet und ihre Richtung zeigt die Art der Korrelation an. Streudiagramme als Beispiel, die verschiedene Korrelationsgrade zeigen, sind in Abb. 5.1 und Abb. 5.2 dargestellt.

Wenn die Linie nach oben geht und diese Bewegung von links nach rechts erfolgt, zeigt sie eine positive Korrelation. Wenn sich die Linien nach unten bewegen und ihre Richtung von links nach rechts verläuft, zeigt dies eine negative Korrelation.

Der Grad der Steigung zeigt den Grad der Korrelation an. Wenn die aufgezeichneten Punkte stark gestreut sind, zeigt dies keine Korrelation. Diese Methode beschreibt einfach die "Tatsache", dass die Korrelation positiv oder negativ ist.

2. Pearson's Product Moment Korrelationskoeffizient:

Der Korrelationskoeffizient r wird oft als "Pearson r" bezeichnet, nach Professor Karl Pearson, der die Produkt-Moment-Methode entwickelte, im Anschluss an die früheren Arbeiten von Gallon und Bravais.

Korrelationskoeffizient als Verhältnis:

Der Produkt-Moment-Korrelationskoeffizient kann im Wesentlichen als das Verhältnis betrachtet werden, das das Ausmaß ausdrückt, in dem Änderungen in einer Variablen von Änderungen in einer zweiten Variablen begleitet werden oder davon abhängig sind.

Betrachten Sie das folgende einfache Beispiel, das die paarweisen Höhen und Gewichte von fünf College-Studenten angibt:

Die mittlere Höhe beträgt 69 Zoll, das Durchschnittsgewicht 170 Pfund und das o beträgt 2, 24 Zoll und o beträgt 13, 69 Pfund. In der Spalte (4) wird die Abweichung (x) der Höhe jedes Schülers von der Durchschnittsgröße und in Spalte (5) die Abweichung (y) des Gewichts jedes Schülers vom Durchschnittsgewicht angegeben. Das Produkt dieser paarweisen Abweichungen (xy) in Spalte (6) ist ein Maß für die Übereinstimmung zwischen einzelnen Höhen und Gewichten. Je größer die Summe der xy-Spalte ist, desto höher ist der Übereinstimmungsgrad. In obigem Beispiel ist der Wert von ∑xy / N 55/5 oder 11. Bei perfekter Übereinstimmung, dh r = ± 1, 00, überschreitet der Wert von ∑ xy / N die Maximalgrenze.

Somit würde ∑ xy / N kein geeignetes Maß für die Beziehung zwischen x und y ergeben. Der Grund ist, dass ein solcher Durchschnitt kein stabiles Maß ist, da er nicht unabhängig von den Einheiten ist, in denen Größe und Gewicht ausgedrückt wurden.

Infolgedessen variiert dieses Verhältnis, wenn anstelle von Zoll und Pfund Zentimeter und Kilogramm verwendet werden. Eine Möglichkeit, die Probleme einiger Einheiten zu vermeiden, besteht darin, jede Abweichung als σ-Score oder Standard-Score oder Z-Score auszudrücken, dh jedes x und y durch sein eigenes σ zu teilen.

Jede x- und y-Abweichung wird dann als Verhältnis ausgedrückt und ist eine reine Zahl, unabhängig von den Testeinheiten. Die Summe der Produkte der σ-Bewertungsspalte (9) dividiert durch N ergibt ein Verhältnis, das einen stabilen Ausdruck der Beziehung darstellt. Dieses Verhältnis ist der "Produkt-Moment" -Koeffizient der Korrelation. In unserem Beispiel zeigt der Wert 0, 36 eine ziemlich hohe positive Korrelation zwischen Größe und Gewicht dieser kleinen Probe.

Der Schüler sollte beachten, dass unser Verhältnis oder Koeffizient einfach das durchschnittliche Produkt der σ-Werte entsprechender X- und Y-Messwerte ist, d. H

Natur von r xy :

(i) r xy ist ein Produktmoment r

(ii) r xy ist ein Verhältnis, = r xy .

(iii) r xy kann + ve oder - ve an die Grenzen - 1, 00 bis + 1, 00 gebunden sein.

(iv) r xy kann als arithmetischer Mittelwert angesehen werden (r xy ist der Mittelwert von Standardwertungsprodukten).

(v) r xy wird von keiner linearen Transformation von Scores für X oder Y oder beide beeinflusst.

(vi) Wenn Variablen in der Standard-Score-Form vorliegen, gibt r ein Maß für den durchschnittlichen Änderungsbetrag einer Variablen an, der der Änderung einer Einheit der anderen Variablen zugeordnet ist.

(vii) r xy = √b yx b xy wobei b yx = Regressionskoeffizient von Y auf X, b xy = Regressionskoeffizient von X auf Y ist. r xy = Quadratwurzel der Steigungen der Regressionsgeraden.

(viii) r xy wird nicht durch die Größe der Mittel beeinflusst (Bewertungen sind immer relativ).

(ix) r xy kann nicht berechnet werden, wenn eine der Variablen keine Varianz S 2 x oder S 2 Y = 0 hat

(x) r xy von 60 impliziert dieselbe Größenordnung wie r xy = - .60. Das Zeichen gibt Auskunft über die Richtung der Beziehung und die Stärke der Beziehung.

(xi) df für r xy ist N - 2, das zum Testen der Signifikanz von r xy verwendet wird . Die Signifikanz von r zu testen ist die Signifikanz der Regression. Die Regressionslinie beinhaltet Steigung und Schnittpunkt, daher gehen 2 df verloren. Wenn also N = 2 ist, ist r xy entweder + 1, 00 oder - 1, 00, da es keine Freiheit gibt, die Variation des numerischen Wertes von r abzutasten.

A. Berechnung von r xy (nicht gruppierte Daten) :

Die Verwendung der Formel für die Berechnung von r hängt davon ab, woher die Abweichungen genommen werden. In verschiedenen Situationen können Abweichungen entweder vom tatsächlichen Mittelwert oder von Null oder vom AM-Formeltyp herangezogen werden, die zweckmäßigerweise für die Berechnung der Koeffizienten-Korrelation verwendet werden, abhängig vom Mittelwert (entweder in Bruch oder ganz).

(i) Die Formel von r, wenn Abweichungen von den Mitteln der beiden Verteilungen X und Y genommen werden .

wobei r xy = Korrelation zwischen X und Y ist

x = Abweichung eines beliebigen X-Werts vom Mittelwert im Test X

y = Abweichung des entsprechenden Y-Scores vom Mittelwert in Test Y.

∑xy = Summe aller Abweichungsprodukte (X und Y)

x und y = Standardabweichungen der Verteilung des X- und Y-Scores.

wobei x und y Abweichungen von den tatsächlichen Mitteln sind und ∑x 2 und ∑y 2 die Summen der quadratischen Abweichungen in x und y sind, die den beiden Mitteln entnommen werden.

Diese Formel ist bevorzugt:

ich. Wenn die Mittelwerte der beiden Variablen nicht im Bruch sind.

ii. Wann ist der Zusammenhang zwischen kurzen, nicht gruppierten Reihen zu ermitteln (etwa fünfundzwanzig Fälle oder so)?

iii. Wenn Abweichungen vom tatsächlichen Mittelwert der beiden Verteilungen gemacht werden sollen.

Die erforderlichen Schritte sind in Tabelle 5.1 dargestellt. Sie sind hier aufgelistet:

Schritt 1:

Listen Sie die paarweisen X- und Y-Werte in parallelen Spalten auf, und stellen Sie sicher, dass die entsprechenden Werte zusammen liegen.

Schritt 2:

Bestimmen Sie die beiden Mittelwerte M x und M y . In Tabelle 5.1 sind dies 7, 5 bzw. 8, 0.

Schritt 3:

Bestimmen Sie für jedes Punktepaar die beiden Abweichungen x und y. Überprüfen Sie sie, indem Sie algebraische Summen finden, die Null sein sollten.

Schritt 4:

Alle Abweichungen sind zu quadrieren und in zwei Spalten aufzulisten. Dies ist zum Zweck der Berechnung von σ x und σ y .

Schritt 5:

Addiere die Quadrate der Abweichungen, um ∑x 2 und ∑y 2 zu erhalten. Finde xy-Produkt und summiere diese für ∑xy.

Schritt 6:

Berechnen Sie aus diesen Werten σ x und σ y .

Eine alternative und kürzere Lösung:

Es gibt eine alternative und kürzere Route, die die Berechnung von σ x und σ y weglässt, falls sie nicht für andere Zwecke benötigt werden.

Formel anwenden (28):

(ii) Die Berechnung von r xy aus Originalwerten oder Rohwerten:

Es ist ein weiteres Verfahren mit nicht gruppierten Daten, für das keine Abweichungen erforderlich sind. Es befasst sich ausschließlich mit Originalpartituren. Die Formel sieht vielleicht abstoßend aus, ist aber sehr einfach anzuwenden.

Diese Formel ist bevorzugt:

ich. Wann wird r aus direkten Rohwerten berechnet?

ii. Originalwerte ft., Wenn Daten nicht gruppiert werden.

iii. Wenn Mittelwerte in Bruchteilen sind.

iv. Wenn eine gute Rechenmaschine zur Verfügung steht.

X und Y sind Originalwerte in den Variablen X und Y. Andere Symbole geben an, was mit ihnen gemacht wird.

Wir folgen den Schritten, die in Tabelle 5.2 dargestellt sind:

Schritt 1:

Alle X- und Y-Messungen sind zu quadrieren.

Schritt 2:

Finden Sie das XY-Produkt für jedes Punktepaar.

Schritt 3:

Addiere die X, Y, X 2, Y 2 und XY.

Schritt 4:

Übernehmen Sie die Formel (29):

(ii) Berechnung von r xy, wenn Abweichungen vom angenommenen Mittelwert genommen werden:

Die Formel (28) ist nützlich für die Berechnung von r direkt aus zwei nicht gruppierten Wertungsreihen, sie hat jedoch die Nachteile, da sie eine "lange Methode" der Berechnungsmittel und σ -Werte erfordert. Die Abweichungen x und y von den tatsächlichen Mittelwerten sind normalerweise Dezimalzahlen, und die Multiplikation und das Quadrieren dieser Werte ist oft eine langwierige Aufgabe.

Aus diesem Grund ist es - selbst bei kurzen ungruppierten Serien - oft einfacher, Mittel anzunehmen, Abweichungen von diesen AMs zu berechnen und die Formel (30) anzuwenden.

Diese Formel ist bevorzugt:

ich. Wenn tatsächliche Mittel in der Regel Dezimalzahlen sind und die Multiplikation und Quadrierung dieser Werte oft eine langwierige Aufgabe ist.

ii. Wenn Abweichungen von AM übernommen werden.

iii. Wenn wir Brüche vermeiden sollen.

Die Schritte zur Berechnung von r können wie folgt beschrieben werden:

Schritt 1:

Ermitteln Sie den Mittelwert von Test 1 (X) und den Mittelwert von Test 2 (Y). Die Mittel, wie in Tabelle 5.3 gezeigt, sind MX = 62, 5 bzw. MY = 30, 4.

Schritt 2:

Wählen Sie AM von X und Y, dh AM X als 60.0 und AM Y als 30.0.

Schritt 3:

Ermitteln Sie die Abweichung jeder Bewertung in Test 1 von ihrem AM, 60.0, und geben Sie sie in Spalte x 'ein. Finden Sie als Nächstes die Abweichung der einzelnen Punkte in Test 2 von AM, 30.0, und geben Sie sie in Spalte y 'ein.

Schritt 4:

Quadrieren Sie alle x 'und alle' und geben Sie diese Quadrate in Spalte x ' 2 bzw. y' 2 ein. Addiere diese Spalten, um ∑x ' 2 und ∑y' 2 zu erhalten .

Schritt 5:

Multiplizieren Sie x 'und y' und geben Sie diese Produkte (unter gebührender Beachtung des Vorzeichens) in die Spalte x'y 'ein. Summe x'y 'Spalte unter Berücksichtigung der Zeichen, um ∑x'y' zu erhalten.

Schritt 6:

Die Korrekturen C x und C y werden gefunden, indem AM X von M x und AM y von M y abgezogen wird. Dann wurde C x als 2, 5 (62, 5 - 60, 0) und C y als .4 (30, 4 - 30, 0) gefunden.

Schritt 7:

Ersetzen Sie für ∑x'y ', 334, für ∑x' 2, 670 und für ∑y ' 2, 285 in Formel (30) wie in Tabelle 5.3 gezeigt, und lösen Sie nach r xy.

Eigenschaften von r :

1. Der Wert des Korrelationskoeffizienten r bleibt unverändert, wenn einer oder beiden Variablen eine Konstante hinzugefügt wird:

Um die Auswirkung auf die Koeffizientenkorrelation r zu beobachten, wenn einer oder beiden Variablen eine Konstante hinzugefügt wird, betrachten wir ein Beispiel.

Jetzt addieren wir eine Punktzahl von 10 zu jeder Punktzahl in X und 20 zu jeder Punktzahl von Y und repräsentieren diese Punktzahlen durch X 'bzw. Y'.

Die Berechnungen zur Berechnung von r für die ursprünglichen und neuen Beobachtungspaare sind in Tabelle 5.4 aufgeführt:

Bei Verwendung der Formel (29) beträgt der Korrelationskoeffizient der ursprünglichen Bewertung:

Die gleiche Formel für neue Wertungen kann wie folgt geschrieben werden:

Wir beobachten also, dass der Wert des Korrelationskoeffizienten r unverändert bleibt, wenn eine Konstante zu einer oder beiden Variablen addiert wird.

2. Der Wert des Korrelationskoeffizienten r bleibt unverändert, wenn eine Konstante von einer oder beiden Variablen abgezogen wird:

Studierende können dies anhand eines Beispiels untersuchen. Wenn jeder Wert einer oder beider Variablen von einer Konstante subtrahiert wird, bleibt auch der Wert des Korrelationskoeffizienten r unverändert.

3. Der Wert des Korrelationskoeffizienten r bleibt unverändert, wenn ein oder beide Sätze von variablen Werten mit einer Konstanten multipliziert werden:

Um die Auswirkung der Multiplikation der Variablen mit einer Konstanten auf den Wert von r zu beobachten, multiplizieren wir willkürlich die ursprünglichen Bewertungen der ersten und zweiten Mengen im vorherigen Beispiel mit 10 bzw. 20.

Das r zwischen X 'und Y' kann dann wie folgt berechnet werden:

Die Korrelation des Koeffizienten zwischen X 'und Y' wird sein:

Wir beobachten also, dass der Wert des Korrelationskoeffizienten r unverändert bleibt, wenn eine Konstante mit einem oder beiden Sätzen von variablen Werten multipliziert wird.

4. Der Wert von r bleibt unverändert, auch wenn einer oder beide Sätze von variablen Werten durch eine Konstante geteilt werden:

Studierende können dies anhand eines Beispiels untersuchen.

B. Korrelationskoeffizient in gruppierten Daten :

Wenn die Anzahl der Messpaare (N) an zwei Variablen X und Y groß ist, sogar in der Größe mäßig ist, und wenn keine Rechenmaschine verfügbar ist, wird das übliche Verfahren verwendet, um Daten in X und Y zu gruppieren und ein Streudiagramm zu bilden oder Korrelationsdiagramm, das auch Zweiwegeverteilung oder bivariate Häufigkeitsverteilung genannt wird.

Die Wahl der Größe des Klassenintervalls und der Grenzen der Intervalle folgt weitgehend den gleichen Regeln wie zuvor. Um die Idee zu verdeutlichen, betrachten wir bivariate Daten, die sich auf die Ergebnisse beziehen, die eine Klasse von 20 Studenten in Physik und Mathematik erworben hat.

Vorbereiten eines Scatter-Diagramms:

Beim Einrichten einer doppelten Datengruppe wird eine Tabelle mit Spalten und Zeilen vorbereitet. Hier klassifizieren wir jedes Paar von Variationen gleichzeitig in den zwei Klassen, wobei eine die Punktzahl in Physik (X) und die andere in Mathematik (Y) darstellt, wie in Tabelle 5.6 gezeigt.

Die Ergebnisse von 20 Studenten in Physik (X) und Mathematik (Y) sind in der nachstehenden Tabelle aufgeführt:

Wir können auf einfache Weise eine bivariate Häufigkeitsverteilungstabelle erstellen, indem Sie für jedes Punktepaar Messwerte setzen. Der Aufbau eines Scattergramms ist recht einfach. Wir müssen eine Tabelle erstellen, wie in der obigen Abbildung gezeigt.

Am linken Rand sind die Klassenintervalle der X-Verteilung von unten nach oben (aufsteigend) abgelegt. Am oberen Rand des Diagramms sind die c.i der Y-Verteilung von links nach rechts (aufsteigend) abgelegt.

Jedes Paar von Bewertungen (sowohl in X als auch in Y) wird durch eine Zählung in der jeweiligen Zelle dargestellt. Der Student Nr. 1 hat 32 in Physik (X) und 25 in Mathematik (Y) gesichert. Seine Punktzahl von 32 in (X) setzt ihn in die letzte Reihe und 25 in (Y) in die zweite Spalte. Für das Punktepaar (32, 25) wird also in der zweiten Spalte der 5. Zeile eine Zählung markiert.

In ähnlicher Weise werden im Fall des Studenten Nr. 2 für Punktzahlen (34, 41) in der vierten Spalte der fünften Reihe eine Zählung eingetragen. In gleicher Weise werden 20 Zähler in die entsprechenden Zeilen und Spalten eingefügt. (Die Zeilen repräsentieren die X-Scores und die Spalten repräsentieren die Y-Scores).

Am rechten Rand der Spalte f x ist die Anzahl der Fälle in jedem ci der X-Verteilung tabellarisch und am unteren Rand des Diagramms in der Zeile f y die Anzahl der Fälle in jedem ci der Y-Verteilung angegeben tabellarisch

Die Summe der Spalte f x beträgt 20 und die Summe der Zeile f y ebenfalls 20. Sie ist tatsächlich eine binäre Verteilung, da sie die gemeinsame Verteilung von zwei Variablen darstellt. Das Scattergramm ist dann eine "Korrelationstabelle".

Berechnung von r aus einer Korrelationstabelle:

Die folgende Übersicht über die Schritte, die bei der Berechnung von r zu befolgen sind, ist am besten verständlich, wenn der Schüler ständig auf Tabelle 5.7 Bezug nimmt, während er jeden Schritt durchliest:

Schritt 1:

Erstellen Sie ein Scattergramm für die beiden zu korrelierenden Variablen und erstellen Sie daraus eine Korrelationstabelle.

Schritt 2:

Zählen Sie die Häufigkeiten der einzelnen ci der Verteilung - X und schreiben Sie sie in die Spalte f x . Zähle die Häufigkeiten für jeden ci der Verteilung - Y und fülle die fy- Reihe auf.

Schritt 3:

Nehmen Sie einen Mittelwert für die X-Verteilung an und markieren Sie das Ci in doppelten Zeilen. Nehmen wir in der gegebenen Korrelationstabelle den Mittelwert bei ci, 40 - 49 an und setzen Sie doppelte Zeilen wie in der Tabelle gezeigt. Die Abweichungen oberhalb der Linie von AM sind (+ ve) und die Abweichungen darunter sind (- ve).

Die Abweichung gegenüber der Linie von AM, dh gegenüber dem ci, wo wir den Mittelwert angenommen haben, ist mit 0 (Null) markiert, und darüber werden die ds als +1, +2 notiert. In 13 und darunter wird d als - 1 bezeichnet. Nun wird die dx-Spalte aufgefüllt. Dann multiplizieren Sie f x . und dx jeder Zeile, um fdx zu erhalten. Multipliziere dx und fdx jeder Zeile, um fdx 2 zu erhalten .

[Anmerkung: Bei der Berechnung des SD in der angenommenen Mittelwertmethode haben wir einen Mittelwert angenommen, die ds markiert und fd und fd 2 berechnet. Hier wird auch das gleiche Verfahren befolgt.]

Schritt 4:

Gehen Sie wie in Schritt 3 vor und berechnen Sie dy, fdy und fdy 2 . Nehmen wir für die Verteilung-Y den Mittelwert in ci 20-29 an und setzen Sie doppelte Zeilen, um die Spalte wie in der Tabelle gezeigt zu markieren. Die Abweichungen links von dieser Spalte sind negativ und rechts positiv.

Somit ist d für die Spalte, in der der Mittelwert angenommen wird, mit 0 (Null) und das d zu seiner Linken markiert - 1 und d zu seiner Rechten sind mit +1, +2 und +3 markiert. Nun ist die Säule gefüllt. Multiplizieren Sie die Werte von fy und dy jeder Spalte, um fdy zu erhalten. Multiplizieren Sie die Werte von dy und fdy mit jeder Spalte, um fdy zu erhalten 2 .

Schritt 5:

Da diese Phase eine wichtige ist, müssen wir sorgfältig für die Berechnung von dy für verschiedene ci der Verteilung X und dx für verschiedene ci der Verteilung -Y kennzeichnen.

dy für verschiedene ci von Distribution-X: In der ersten Zeile befindet sich 1 f unter der Spalte 20-29, wobei dy 0 ist (siehe unten. Der dy- Eintrag dieser Zeile ist 0). Wiederum 1 f steht unter der Spalte 40-49, wobei dy +2 ist. So ist dy für die erste Zeile = (1 x 0) + (1 x 2) = + 2.

In der zweiten Reihe finden wir das:

1 f steht unter der Spalte 40-49, wobei dy + 2 ist und

2 fs sind unter der Spalte, 50-59, deren Farbwerte jeweils + 3 sind.

So ist dy für die zweite Reihe = (1 x 2) + (2 X 3) = 8.

In der dritten Reihe

2 fs stehen unter der Spalte, 20-29, deren Farbwerte jeweils 0 sind,

2 fs sind unter der Kolonne, 40-49, deren Farbwerte jeweils +2 sind, und 1f ist unter der Kolonne, 50-59, deren Farbton ist +3.

So ist dy für die dritte Reihe = (2 x 0) + (2 x 2) + (1 X 3) = 7.

In der vierten Reihe

3 fs sind unter der Spalte, 20-29, deren Farbwerte jeweils 0 sind,

2 fs sind unter der Kolonne, 30-39, deren Farbwerte jeweils +1 sind, und 1f ist unter der Kolonne, 50-59, deren Farbton ist + 3,

So ist dy für die vierte Reihe = (3 × 0) + (2 × 1) + (1 × 3) = 5.

Ebenso in der 5. Reihe

dy für die fünfte Reihe = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx für verschiedene ci, 'v der Verteilung - Y:

In der ersten Spalte

2 fs sind gegen die Reihe, 30-39, deren dx- 1 ist.

Also ist dx der 1. Spalte = (2 x - 1) = - 2

In der zweiten Spalte

1 f ist gegen den ci, 70-79, dessen dx +3 ist,

2 fs sind gegen das ci, 50-59, deren dx jeweils +1 sind,

3 fs sind gegen das ci, 40-49, deren dx jeweils 0 sind,

1 f ist gegen den ci, 30-39, dessen dx- 1 ist.

Also dx für die zweite Spalte = (1 x 3) + (2 X 1) + (3 X 0) + (1 x - 1) = 4. In der dritten Spalte

dx für die 3. Spalte = 2 × 0 = 0

In der vierten Spalte

dx für die vierte Spalte = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

In der fünften Spalte

dx für die fünfte Spalte = (2 x 2) + (1 x 1) + (1 X 0) = 5.

Schritt 6:

Berechnen Sie nun dx.dy für jede Verteilungszeile - X, indem Sie die dx- Einträge jeder Zeile mit den Einträgen jeder Zeile multiplizieren. Berechnen Sie dann dx.dy für jede Verteilungsspalte - Y, indem Sie dy- Einträge jeder Spalte mit den dx- Einträgen jeder Spalte multiplizieren.

Schritt 7:

Nehmen Sie nun die algebraische Summe der Werte der Spalten fdx, fdx 2, dy und dx.dy (zur Verteilung - X). Nehmen Sie die algebraische Summe der Werte der Zeilen fdy, fdy 2, dx und dx.dy (für die Verteilung - Y).

Schritt 8:

∑. dx.dy der X-Verteilung = ∑ dx.dy der Y-Verteilung

fdx = Summe der dx- Reihe (dh ∑ dx )

fdy = Summe der Farbsäule (dh ∑ dy )

Schritt 9:

Die Werte der gefundenen Symbole

fdx = 13, ∑ fd 2 x = 39

Fdy = 22, fd2y = 60

Dx.dy = 29 und N = 20.

Um den Korrelationskoeffizienten in einer Korrelationstabelle zu berechnen, kann folgende Formel angewendet werden:

Wir weisen darauf hin, dass wir im Nenner der Formel (31) die Formel für a x und a y mit Ausnahme von i verwenden. Hier sei angemerkt, dass C x, C y, σ x, σ v alle in Einheiten von Klassenintervallen (dh in Einheiten von i) ausgedrückt sind. Während also σ x und σ y berechnet werden, werden keine i verwendet. Dies ist wünschenswert, da alle Produktabweichungen, dh x dx.dy, in Intervalleinheiten sind.

So berechnen wir:

Interpretation des Korrelationskoeffizienten:

Die bloße Berechnung der Korrelation hat erst dann eine Bedeutung, wenn wir nicht bestimmen, wie groß der Koeffizient sein muss, um signifikant zu sein, und was sagt uns die Korrelation über die Daten? Was meinen wir mit dem erhaltenen Wert des Korrelationskoeffizienten?

Fehlinterpretation des Korrelationskoeffizienten:

Manchmal interpretieren wir den Wert des Korrelationskoeffizienten falsch und stellen die Ursache-Wirkungs-Beziehung her, dh eine Variable, die die Variation in der anderen Variablen verursacht. Tatsächlich können wir auf diese Weise nicht interpretieren, wenn wir keine solide logische Basis haben.

Der Korrelationskoeffizient gibt uns eine quantitative Bestimmung des Beziehungsgrades zwischen zwei Variablen X und Y, keine Information über die Art der Assoziation zwischen den beiden Variablen. Verursachung impliziert eine unveränderliche Folge - A führt immer zu B, wohingegen Korrelation einfach ein Maß für die gegenseitige Assoziation zwischen zwei Variablen ist.

Es kann zum Beispiel eine hohe Korrelation zwischen Fehlanpassung und Angstzuständen bestehen:

Aber aufgrund einer hohen Korrelation können wir nicht sagen, dass eine Fehlanpassung Angst verursacht. Es ist möglich, dass hohe Angst die Ursache von Fehlanpassungen ist. Dies zeigt, dass Fehlanpassung und Angst miteinander verbundene Variablen sind. Betrachten Sie ein anderes Beispiel.

Es besteht eine hohe Korrelation zwischen Eignung in einem schulischen Fach und der Leistung im Fach. Wird dies am Ende der Schulprüfungen eine kausale Beziehung widerspiegeln? Es kann oder nicht.

Die Eignung beim Studium des Themas verursacht definitiv Unterschiede in der Erreichung des Themas, aber eine hohe Leistung des Schülers im Fach ist nicht nur das Ergebnis der hohen Eignung; Es kann auch an den anderen Variablen liegen.

Wenn also die Größe des Korrelationskoeffizienten in Bezug auf Ursache und Wirkung interpretiert wird, ist es angebracht, wenn und nur dann, wenn die untersuchten Variablen eine logische Grundlage für eine solche Interpretation bieten.

Faktoren, die die Größe des Korrelationskoeffizienten beeinflussen:

Wir sollten uns auch der folgenden Faktoren bewusst sein, die die Größe des Korrelationskoeffizienten beeinflussen und zu Fehlinterpretationen führen können:

1. Die Größe von „r“ hängt stark von der Variabilität der Messwerte in der korrelierten Probe ab. Je größer die Variabilität ist, desto höher ist die Korrelation, alles andere ist gleich.

2. Die Größe von 'r' wird geändert, wenn ein Ermittler eine extreme Gruppe von Probanden auswählt, um diese Gruppen in Bezug auf ein bestimmtes Verhalten zu vergleichen. "R", das aus den kombinierten Daten extremer Gruppen erhalten wurde, wäre größer als das "r", das aus einer Stichprobe derselben Gruppe erhalten wurde.

3. Das Hinzufügen oder Entfernen der Extremfälle aus der Gruppe kann zu einer Änderung der Größe von „r“ führen. Die Hinzufügung des Extremfalls kann die Korrelationsgröße erhöhen, während das Verringern der Extremfälle den Wert von „r“ verringert.

Gebrauch des Produktmoments r:

Korrelation ist eines der am weitesten verbreiteten analytischen Verfahren im Bereich der pädagogischen und psychologischen Messung und Bewertung. Es ist nützlich in:

ich. Beschreiben des Übereinstimmungsgrades (oder der Beziehung) zwischen zwei Variablen.

ii. Vorhersage einer Variablen - der abhängigen Variablen auf der Grundlage einer unabhängigen Variablen.

iii. Validierung eines Tests zB ein Gruppenintelligentest.

iv. Bestimmung des Objektivitätgrades eines Tests.

v. Bildungs- und Berufsberatung sowie Entscheidungsfindung.

vi. Bestimmung der Zuverlässigkeit und Gültigkeit des Tests.

vii. Bestimmung der Rolle verschiedener Korrelate zu einer bestimmten Fähigkeit.

viii. Faktoranalyseverfahren zur Bestimmung der Faktorbelastung der zugrundeliegenden Variablen in menschlichen Fähigkeiten.

Annahmen des Produktmomentes r :

1. Normalverteilung:

Die Variablen, aus denen wir die Korrelation berechnen möchten, sollten normal verteilt sein. Die Annahme kann aus Stichproben entnommen werden.

2. Linearität:

Die Produkt-Moment-Korrelation kann in gerader Linie dargestellt werden, was als lineare Korrelation bezeichnet wird.

3. Fortlaufende Serie:

Messung von Variablen in fortlaufenden Serien.

4. Homoskedastizität:

Sie muss die Bedingung der Homoskedastizität (gleiche Variabilität) erfüllen.

3. Rang-Korrelationskoeffizient des Spearman:

In der Pädagogik und Psychologie gibt es einige Situationen, in denen die Objekte oder Personen in zwei Variablen nach Verdienst oder Leistung geordnet werden können. Wenn diese beiden Gruppen von Gruppen covary sind oder eine Übereinstimmung zwischen ihnen haben, messen wir die Verwandtschaftsgrade anhand der Rangkorrelation .

Wiederum gibt es Probleme, bei denen die Beziehung zwischen den durchgeführten Messungen nicht linear ist und nicht durch das Produktmoment r beschrieben werden kann.

Zum Beispiel die Bewertung einer Gruppe von Studenten auf der Grundlage der Führungsfähigkeit, die Anordnung von Frauen in einem Schönheitswettbewerb, die Rangfolge der Studenten in der Rangfolge oder die Bilder können nach ihren ästhetischen Werten eingestuft werden. Die Mitarbeiter können von den Vorgesetzten hinsichtlich der Arbeitsleistung eingestuft werden.

Schulkinder können von Lehrern bezüglich sozialer Anpassung eingestuft werden. In solchen Fällen können Objekte oder Personen nach zwei Variablen in der Reihenfolge ihres Verdienstes oder ihres Könnens geordnet und angeordnet werden. Spearman hat eine Formel namens Korrelationskoeffizient entwickelt, um das Ausmaß oder den Grad der Korrelation zwischen zwei Gruppen von Rängen zu messen.

Dieser Korrelationskoeffizient wird mit dem griechischen Buchstaben ρ (Rho) bezeichnet und ist wie folgt angegeben:

Dabei gilt ρ = rho = Rangkorrelationskoeffizient des Speerkämpfers

D = Unterschied zwischen gepaarten Rängen (jeweils)

N = Gesamtzahl der Gegenstände / Einzelpersonen.

Eigenschaften von Rho (ρ):

1. Beim Rangkorrelationskoeffizienten basieren die Beobachtungen oder Messungen der bivariaten Variablen auf der Ordinal-Skala in Form von Rängen.

2. Die Größe des Koeffizienten hängt direkt von der Größe der Rangunterschiede ab.

(ein) Wenn die Ränge für beide Tests gleich sind, ist jede Rangdifferenz Null und letztendlich ist D 2 Null. Dies bedeutet, dass die Korrelation perfekt ist. dh 1, 00.

(b) Wenn die Rangunterschiede sehr groß sind und der Bruch größer als eins ist, ist die Korrelation negativ.

Annahmen von Rho (ρ):

ich. N ist klein oder die Daten sind stark verzerrt.

ii. Sie sind frei oder unabhängig von einigen Merkmalen der Bevölkerungsverteilung.

iii. In vielen Situationen werden Ranking-Methoden verwendet, bei denen quantitative Messungen nicht verfügbar sind.

iv. Obwohl quantitative Messungen zur Verfügung stehen, werden Ränge ersetzt, um die arithmetische Arbeit zu reduzieren.

v. Solche Tests werden als nicht parametrisch bezeichnet.

vi. In solchen Fällen bestehen die Daten aus Ordnungsnummernsätzen 1., 2., 3.…. Diese werden zu Berechnungszwecken durch die Kardinalzahlen 1, 2, 3, ………, N ersetzt. Die Ersetzung von Ordnungszahlen durch Kardinalzahlen setzt immer die Gleichheit der Intervalle voraus.

I. Berechnung von ρ aus Testergebnissen:

Beispiel 1:

Die folgenden Daten geben die Bewertungen von 5 Studenten in Mathematik bzw. Allgemeinwissenschaften an:

Berechnen Sie die Korrelation zwischen den beiden Testreihen nach der Rangdifferenzmethode.

Der Wert des Korrelationskoeffizienten zwischen Scores in Mathematik und Allgemeinwissenschaft ist positiv und moderat.

Schritte zur Berechnung des Korrelationskoeffizienten von Spearman:

Schritt 1:

Listen Sie die Schüler, Namen oder Seriennummern in Spalte 1 auf.

Schritt 2:

Schreiben Sie in den Spalten 2 und 3 die Ergebnisse jedes Schülers oder Einzelnen in Test I und II an.

Schritt 3:

Nehmen Sie einen Satz von Punktzahl 2 und weisen Sie der höchsten Punktzahl einen Rang von 1 zu, der 9 ist, dem nächsten höchsten Punktstand von 8 usw., bis die niedrigste Punktzahl einen Rang gleich N erhält. Welches ist 5.

Schritt 4:

Nehmen Sie den zweiten Satz der Punktzahlen von Spalte 3 und weisen Sie der höchsten Punktzahl den Rang 1 zu. Im zweiten Satz ist die höchste Punktzahl 10; hence obtain rank 1. The next highest score of B student is 8; hence his rank is 2. The rank of student C is 3, the rank of E is 4, and the rank of D is 5.

Schritt 5:

Calculate the difference of ranks of each student (column 6).

Schritt 6:

Check the sum of the differences recorded in column 6. It is always zero.

Schritt 7:

Each difference of ranks of column 6 is squared and recorded in column 7. Get the sum ∑D 2 .

Step 8:

Put the value of N and 2D 2 in the formula of Spearman's co-efficient of correlation.

2. Calculating from Ranked Data:

Beispiel 2

In a speech contest Prof. Mehrotra and Prof. Shukla, judged 10 pupils. Their judgements were in ranks, which are presented below. Determine the extent to which their judgements were in agreement.

The value of co-efficient of correlation is + .83. This shows a high degree of agreement between the two judges.

3. Calculating ρ (Rho) for tied Ranks:

Beispiel 3:

The following data give the scores of 10 students on two trials of test with a gap of 2 weeks in Trial I and Trial II.

Compute the correlation between the scores of two trials by rank difference method:

The correlation between Trial I and II is positive and very high. Look carefully at the scores obtained by the 10 students on Trial I and II of the test.

Do you find any special feature in the scores obtained by the 10 students? Probably, your answer will be “yes”.

In the above table in column 2 and 3 you will find that more than one students are getting the same scores. In column 2 students A and G are getting the same score viz. 10. In column 3, the students A and B, C and F and G and J are also getting the same scores, which are 16, 24 and 14 respectively.

Definitely these pairs will have the same ranks; known as Tied Ranks. The procedure of assigning the ranks to the repeated scores is somewhat different from the non-repeated scores.

Look at column 4. Student A and G have similar scores of 10 each and they possess 6th and 7th rank in the group. Instead of assigning the 6th and 7th rank, the average of the two rank ie 6.5 (6 + 7/2 = 13/2) has been assigned to each of them.

The same procedure has been followed in respect of scores on Trial II. In this case, ties occur at three places. Students C and F have the same score and hence obtain the average rank of (1 + 2/2 = 1.5). Student A and B have rank position 5 and 6; hence are assigned 5.5 (5 + 6/2) rank each. Similarly student G and J have been assigned 7.5 (7 + 8/2) rank each.

If the values are repeated more than twice, the same procedure can be followed to assign the ranks:

Zum Beispiel:

if three students get a score of 10, at 5th, 6th and 7th ranks, each one of them will be assigned a rank of 5 + 6 + 7/3= 6.

The rest of the steps of procedure followed for calculation of ρ (rho) are the same as explained earlier.

Deutung:

The value of ρ can also be interpreted in the same way as Karl Pearson's Coefficient of Correlation. It varies between -1 and + 1. The value + 1 stands for a perfect positive agreement or relationship between two sets of ranks while ρ = – 1 implies a perfect negative relationship. In case of no relationship or agreement between ranks, the value of ρ = 0.

Advantages of Rank Difference Method:

1. The Spearman's Rank Order Coefficient of Correlation computation is quicker and easier than (r) computed by the Pearson's Product Moment Method.

2. It is an acceptable method if data are available only in ordinal form or number of paired variable is more than 5 and not greater than 30 with minimum or a few ties in ranks.

3. It is quite easy to interpret p.

Einschränkungen:

1. When the interval data are converted into rank-ordered data the information about the size of the score differences is lost; eg in the Table 5.10, if D in Trial II gets scores from 18 up to 21, his rank remains only 4.

2. If the number of cases are more, giving ranks to them becomes a tedious job.