- Hur beräknar man bestämningskoefficienten?
- Illustrativt fall
- tolkning
- exempel
- - Exempel 1
- Lösning
- - Exempel 2
- Lösning
- - Exempel 3
- Lösning
- Passande jämförelse
- Slutsatser
- referenser
Den graden är ett tal mellan 0 och 1 som representerar fraktionen av punkter (X, Y) som följer regressionslinjen av passning av en datauppsättning med två variabler.
Det är också känt som godhet i passform och betecknas av R 2 . För att beräkna det tas kvoten mellan variansen för ofi-data uppskattad av regressionsmodellen och variansen för Yi-data som motsvarar varje Xi av data.
R 2 = SY / Sy
Figur 1. Korrelationskoefficient för fyra datapar. Källa: F. Zapata.
Om 100% av data finns på raden för regressionsfunktionen kommer bestämningskoefficienten att vara 1.
Tvärtom, om det av en uppsättning data och en viss justeringsfunktion koefficienten R 2 visar sig vara lika med 0,5, så kan man säga att justeringen är 50% är tillfredsställande eller god.
På liknande sätt, när regressionsmodell utbytena R 2 värden lägre än 0,5, indikerar detta att den valda justeringsfunktionen inte anpassa sig tillfredsställande till data, därför är det nödvändigt att söka efter en annan justeringsfunktion.
Och när kovariansen eller korrelationskoefficienten går mot noll, då variablerna X och Y i data är orelaterade, och därför är R 2 kommer också att tendera mot noll.
Hur beräknar man bestämningskoefficienten?
I det föregående avsnittet sades att bestämningskoefficienten beräknas genom att hitta kvoten mellan varianserna:
-Skattas av regressionsfunktionen för variabel Y
-Det av variabeln Yi motsvarande var och en av variabeln Xi för N-dataparen.
Satt matematiskt ser det ut så här:
R 2 = SY / Sy
Från denna formel följer att R 2 representerar den andel av variansen förklaras av regressionsmodellen. Alternativt kan R 2 kan beräknas enligt följande formel, helt ekvivalent med den föregående:
R 2 = 1 - (Sε / Sy)
Där Sε representerar variansen för resterna εi = Ŷi - Yi, medan Sy är variansen för uppsättningen Yi-värden för data. För att bestämma isi används regressionsfunktionen, vilket betyder att bekräfta att Ŷi = f (Xi).
Variationen av datamängden Yi med i från 1 till N beräknas på detta sätt:
Sy =
Och fortsätt sedan på liknande sätt för Sŷ eller Sε.
Illustrativt fall
För att visa detaljer om hur beräkningen av bestämningskoefficienten görs kommer vi att ta följande uppsättning med fyra datapar:
(X, Y): {(1, 1); (2. 3); (3, 6) och (4, 7)}.
En linjär regressionsanpassning föreslås för denna datauppsättning, som erhålls med den minsta kvadratmetoden:
f (x) = 2,1 x - 1
Med denna justeringsfunktion erhålls momenten:
(X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5.3) och (4, 7.4)}.
Sedan beräknar vi det aritmetiska medelvärdet för X och Y:
Varians Sy
Sy = / (4-1) =
= = 5883
Varians Sŷ
Sŷ = / (4-1) =
= = 7,35
Bestämningskoefficient R 2
R 2 = SY / Sy = 7,35 / 7,58 = 0,97
tolkning
Bestämningskoefficienten för det illustrativa fallet som beaktades i det föregående segmentet visade sig vara 0,98. Med andra ord den linjära justeringen genom funktionen:
f (x) = 2,1x - 1
Det är 98% pålitligt att förklara de data som de erhölls med minsta kvadratmetoden.
Förutom bestämningskoefficienten finns det den linjära korrelationskoefficienten eller även känd som Pearsons koefficient. Denna koefficient, betecknad som r, beräknas med följande förhållande:
r = Sxy / (Sx Sy)
Här representerar telleren samvariationen mellan variablerna X och Y, medan nämnaren är produkten av standardavvikelsen för variabel X och standardavvikelsen för variabel Y.
Pearsons koefficient kan ta värden mellan -1 och +1. När denna koefficient tenderar att +1 finns det en direkt linjär korrelation mellan X och Y. Om den tenderar att -1 istället finns det en linjär korrelation, men när X växer minskar Y. Slutligen är det nära 0, det finns ingen korrelation mellan de två variablerna.
Det bör noteras att bestämningskoefficienten sammanfaller med kvadratet på Pearson-koefficienten, först när den första har beräknats baserat på en linjär passning, men denna jämlikhet är inte giltig för andra icke-linjära passningar.
exempel
- Exempel 1
En grupp gymnasieelever avsåg att fastställa en empirisk lag för en pendelperiod som en funktion av dess längd. För att uppnå detta mål genomför de en serie mätningar där de mäter tiden för en pendelsvängning för olika längder som erhåller följande värden:
Längd (m) | Period (er) |
---|---|
0,1 | 0,6 |
0,4 | 1,31 |
0,7 | 1,78 |
ett | 1,93 |
1,3 | 2,19 |
1,6 | 2,66 |
1,9 | 2,77 |
3 | 3,62 |
Det uppmanas att skapa en spridningsdiagram av data och utföra en linjär passning genom regression. Visa också regressionsekvationen och dess bestämningskoefficient.
Lösning
Bild 2. Lösningsgrafik för övning 1. Källa: F. Zapata.
En relativt hög bestämningskoefficient (95%) kan observeras, så man kan tro att linjär passning är optimal. Men om punkterna ses tillsammans, verkar de ha en tendens att böjas nedåt. Denna detalj övervägs inte i den linjära modellen.
- Exempel 2
För samma data i exempel 1, skapa en spridningsdiagram över data. Vid detta tillfälle, till skillnad från i exempel 1, begärs en regressionsjustering med hjälp av en potentiell funktion.
Bild 3. Lösningsgrafik för övning 2. Källa: F. Zapata.
Visa även passningsfunktionen och dess bestämningskoefficient R 2 .
Lösning
Potentialfunktionen är av formen f (x) = Axe B , där A och B är konstanter som bestäms med minsta kvadratmetoden.
Den föregående figuren visar den potentiella funktionen och dess parametrar, såväl som bestämningskoefficienten med ett mycket högt värde på 99%. Observera att data följer trendlinjens krökning.
- Exempel 3
Använd samma data från exempel 1 och exempel 2, utför en andra grads polynompassning. Visar grafen, passningen polynom, och den motsvarande determinationskoefficienten R 2 .
Lösning
Bild 4. Lösningsgrafik för övning 3. Källa: F. Zapata.
Med den andra gradens polynompassning kan du se en trendlinje som passar väl dataens krökning. Bestämningskoefficienten ligger också över den linjära passningen och under den potentiella passningen.
Passande jämförelse
Av de tre visade passningarna är den med högsta bestämningskoefficient den potentiella passningen (exempel 2).
Den potentiella passningen sammanfaller med den fysiska teorin om pendeln, som, som är känt, konstaterar att perioden för en pendel är proportionell mot kvadratroten i dess längd, varvid proportionalitetskonstanten är 2π / √g där g är tyngdens acceleration.
Denna typ av potentiell passning har inte bara den högsta bestämningskoefficienten, utan exponenten och proportionalitetskonstanten matchar den fysiska modellen.
Slutsatser
-Regressionsjusteringen bestämmer parametrarna för funktionen som syftar till att förklara data med hjälp av metoden med minsta kvadrat. Denna metod består av att minimera summan av den kvadratiska skillnaden mellan justerings-Y-värdet och Yi-värdet för data för Xi-värdena för datan. Detta bestämmer parametrarna för inställningsfunktionen.
-Som vi har sett är den vanligaste justeringsfunktionen linjen, men den är inte den enda, eftersom justeringarna också kan vara polynomiska, potentiella, exponentiella, logaritmiska och andra.
-I varje fall beror bestämningskoefficienten på uppgifterna och typen av justering och är en indikation på den tillämpade justeringens godhet.
-Slutligen indikerar bestämningskoefficienten procentandelen av den totala variationen mellan Y-värdet för data med avseende på Ŷ-värdet för justeringen för det givna X.
referenser
- González C. Allmän statistik. Återställd från: tarwi.lamolina.edu.pe
- IACS. Aragonese Institute of Health Sciences. Återställd från: ics-aragon.com
- Salazar C. och Castillo S. Grundläggande principer för statistik. (2018). Återställs från: dspace.uce.edu.ec
- Superprof. Bestämningskoefficient. Återställd från: superprof.es
- USAC. Beskrivande statistikmanual. (2011). Återställd från: statistik.ingenieria.usac.edu.gt.
- Wikipedia. Bestämningskoefficient. Återställd från: es.wikipedia.com.