- Hur beräknar man korrelationskoefficienten?
- Kovarians och varians
- Illustrativt fall
- Covariance Sxy
- Standardavvikelse Sx
- Standardavvikelse Sy
- Korrelationskoefficient r
- tolkning
- Linjär regression
- Exempel
- referenser
Den Korrelationskoefficienten i statistiken är en indikator på att åtgärder tendensen hos två kvantitativa variabler X och Y att ha en linjär eller proportionellt förhållande mellan dem.
Generellt sett är paren av variablerna X och Y två egenskaper hos samma population. Exempelvis kan X vara en persons höjd och Y sin vikt.
Figur 1. Korrelationskoefficient för fyra datapar (X, Y). Källa: F. Zapata.
I detta fall skulle korrelationskoefficienten indikera om det finns en trend mot ett proportionellt förhållande mellan höjd och vikt i en given population.
Pearssons linjära korrelationskoefficient betecknas med små bokstäver r och dess minimi- och maxvärden är -1 respektive +1.
Ett värde r = +1 skulle indikera att paret (X, Y) är perfekt anpassade och att när X växer kommer Y att växa i samma proportion. Å andra sidan, om det hände att r = -1, skulle paruppsättningen också vara perfekt i linje, men i detta fall när X ökar, minskar Y i samma andel.
Figur 2. Olika värden på den linjära korrelationskoefficienten. Källa: Wikimedia Commons.
Å andra sidan skulle ett värde r = 0 indikera att det inte finns någon linjär korrelation mellan variablerna X och Y. Medan ett värde på r = +0,8 skulle indikera att paren (X, Y) tenderar att klustera på ena sidan och en annan av en viss linje.
Formeln för att beräkna korrelationskoefficienten r är följande:
Hur beräknar man korrelationskoefficienten?
Den linjära korrelationskoefficienten är en statistisk mängd som är inbyggd i vetenskapliga kalkylatorer, de flesta kalkylblad och statistiska program.
Det är dock bekvämt att veta hur formeln som definierar den tillämpas, och för detta kommer en detaljerad beräkning att visas, utförd på en liten datamängd.
Och som det sades i föregående avsnitt, är korrelationskoefficienten kovariansen Sxy dividerad med produkten från standardavvikelsen Sx för variablerna X och Sy för variabeln Y.
Kovarians och varians
Covariance Sxy är:
Sxy = / (N-1)
Där summan går från 1 till N-datapar (Xi, Yi).
Standardavvikelsen för variabeln X är för sin del kvadratroten av varianter av datauppsättningen Xi, med i från 1 till N:
Sx = √
På liknande sätt är standardavvikelsen för variabel Y kvadratroten av varianten för datamängden Yi, med i från 1 till N:
Sy = √
Illustrativt fall
För att visa i detalj hur man beräknar korrelationskoefficienten tar vi följande uppsättning med fyra datapar
(X, Y): {(1, 1); (2. 3); (3, 6) och (4, 7)}.
Först beräknar vi det aritmetiska medelvärdet för X och Y enligt följande:
Sedan beräknas de återstående parametrarna:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standardavvikelse Sx
Sx = √ = √ = 1,29
Standardavvikelse Sy
Sx = √ =
√ = 2,75
Korrelationskoefficient r
r = 3,5 / (1,29 * 2,75) = 0,98
tolkning
I datauppsättningen från föregående fall observeras en stark linjär korrelation mellan variablerna X och Y, vilket manifesteras både i spridningsdiagrammet (visat i figur 1) och i korrelationskoefficienten, vilket gav en värdet ganska nära enhet.
I den mån korrelationskoefficienten är närmare 1 eller -1, ju mer förnuft det är att anpassa data till en linje, resultatet av linjär regression.
Linjär regression
Den linjära regressionslinjen erhålles från metoden med minsta kvadrat. i vilka parametrarna för regressionslinjen erhålls genom minimering av summan av kvadratet av skillnaden mellan det uppskattade Y-värdet och Yi för N-data.
Å andra sidan är parametrarna a och b för regressionslinjen y = a + bx, erhållna med metoden för minsta kvadrater:
* b = Sxy / (Sx 2 ) för sluttningen
* a =
Kom ihåg att Sxy är samvariationen definierad ovan och Sx 2 är variationen eller kvadratet för standardavvikelsen definierad ovan.
Exempel
Korrelationskoefficienten används för att bestämma om det finns en linjär korrelation mellan två variabler. Det är tillämpligt när variablerna som ska studeras är kvantitativa och dessutom antas de att de följer en normal typfördelning.
Vi har ett illustrativt exempel nedan: ett mått på graden av fetma är kroppsmassaindexet, som erhålls genom att dela en persons vikt i kg med personens kvadratiska höjd i enheter i kvadratmeter.
Du vill veta om det finns en stark korrelation mellan kroppsmassaindexet och koncentrationen av HDL-kolesterol i blodet, mätt i millimol per liter. För detta ändamål har en studie genomförts med 533 personer, som sammanfattas i följande graf, där varje punkt representerar data från en person.
Figur 3. Studie av BMI och HDL-kolesterol hos 533 patienter. Källa: Aragonese Institute of Health Sciences (IACS).
Noggrann observation av diagrammet visar att det finns en viss linjär trend (inte särskilt markerad) mellan HDL-kolesterolkoncentrationen och kroppsmassaindexet. Det kvantitativa måttet på denna trend är korrelationskoefficienten, som i detta fall visade sig vara r = -0,276.
referenser
- González C. Allmän statistik. Återställd från: tarwi.lamolina.edu.pe
- IACS. Aragonese Institute of Health Sciences. Återställd från: ics-aragon.com
- Salazar C. och Castillo S. Grundläggande principer för statistik. (2018). Återställs från: dspace.uce.edu.ec
- Superprof. Korrelationskoefficient. Återställd från: superprof.es
- USAC. Beskrivande statistikmanual. (2011). Återställd från: statistik.ingenieria.usac.edu.gt
- Wikipedia. Pearsons korrelationskoefficient. Återställd från: es.wikipedia.com.