- Betydelsen av homoscedasticitet
- Homoscedasticitet kontra heteroscedasticitet
- Homoscedasticitetstester
- Standardiserade variabler
- Icke-grafiska tester av homoscedasticitet
- referenser
Den homoskedasticitet i en prediktiv statistisk modell uppstår om alla datagrupperna hos en eller flera observationer, variansen (eller oberoende) mönster med avseende på de förklarande variablerna förblir konstanta.
En regressionsmodell kan vara homoskedastisk eller inte, i vilket fall vi talar om heteroskedastisitet.
Figur 1. Fem datauppsättningar och regressionspassning av uppsättningen. Variationen med avseende på det förutspådda värdet är detsamma i varje grupp. (Upav-biblioteca.org)
En statistisk regressionsmodell av flera oberoende variabler kallas homoscedastic, endast om variationen i felet för den förutsagda variabeln (eller standardavvikelsen för den beroende variabeln) förblir enhetlig för olika grupper av värden för de förklarande eller oberoende variablerna.
I de fem datagrupperna i figur 1 har variansen i varje grupp beräknats med avseende på värdet beräknat av regressionen, vilket visar sig vara densamma i varje grupp. Det antas vidare att uppgifterna följer normal distribution.
På den grafiska nivån betyder det att punkterna är lika spridda eller spridda runt det värde som förutses av regressionsjusteringen, och att regressionsmodellen har samma fel och giltighet för intervallet för förklaringsvariabeln.
Betydelsen av homoscedasticitet
För att illustrera vikten av homoscedasticitet i prediktiv statistik är det nödvändigt att kontrastera med det motsatta fenomenet, heteroscedasticitet.
Homoscedasticitet kontra heteroscedasticitet
I fallet med figur 1, där det finns homoscedasticitet, är det sant att:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ ……. Var ((y4-Y4); X4)
Där Var ((yi-Yi); Xi) representerar variansen representerar paret (xi, yi) data från grupp i, medan Yi är det värde som förutses av regressionen för gruppens medelvärde Xi. Variansen av n-data från grupp i beräknas enligt följande:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Tvärtom, när heteroscedasticitet inträffar, kanske regressionsmodellen inte är giltig för hela regionen i vilken den beräknades. Figur 2 visar ett exempel på denna situation.
Figur 2. Grupp av data som visar heteroscedasticitet. (Egen utarbetande)
Figur 2 representerar tre datagrupper och anpassningen av uppsättningen med hjälp av en linjär regression. Det bör noteras att uppgifterna i den andra och tredje gruppen är mer spridda än i den första gruppen. Grafen i figur 2 visar också medelvärdet för varje grupp och dess felfält ± σ, med σ standardavvikelsen för varje grupp av data. Man bör komma ihåg att standardavvikelsen σ är variansens kvadratrot.
Det är uppenbart att i fallet med heteroscedasticitet förändras regressionsberäkningsfelet inom värdet för den förklarande eller oberoende variabeln, och i intervallen där detta fel är mycket stort är regressionsförutsägelsen opålitlig eller inte tillämpbar.
I en regressionsmodell måste felen eller resterna (och -Y) fördelas med lika varians (σ ^ 2) genom hela värdet för den oberoende variabeln. Det är av denna anledning som en bra regressionsmodell (linjär eller icke-linjär) måste klara homoscedasticitetstestet.
Homoscedasticitetstester
De punkter som visas i figur 3 motsvarar uppgifterna från en studie som letar efter ett förhållande mellan husens priser (i dollar) som en funktion av storleken eller arean i kvadratmeter.
Den första modellen som testas är den med en linjär regression. Först och främst noteras att bestämningskoefficienten R ^ 2 för passningen är ganska hög (91%), så man kan tro att passningen är tillfredsställande.
Två regioner kan emellertid tydligt skiljas från justeringsgrafen. En av dem, den till höger innesluten i en oval, uppfyller homoscedasticitet, medan regionen till vänster inte har homoscedasticitet.
Detta innebär att förutsägelsen för regressionsmodellen är tillräcklig och tillförlitlig i området från 1800 m ^ 2 till 4800 m ^ 2 men mycket otillräcklig utanför denna region. I den heteroscedastiska zonen är inte bara felet mycket stort, utan också data tycks följa en annan trend än den som föreslagits av den linjära regressionsmodellen.
Figur 3. Bostadspriser jämfört med område och prediktiv modell genom linjär regression, som visar homoscedasticitet och heteroscedasticitetszoner. (Egen utarbetande)
Datas spridningsdiagram är det enklaste och mest visuella testet av deras homoscedasticitet, men i tillfällen där det inte är så uppenbart som i exemplet som visas i figur 3, är det nödvändigt att ta till diagram med hjälpvariabler.
Standardiserade variabler
För att separera områden där homoscedasticitet uppfylls och där det inte är, införs de standardiserade variablerna ZRes och ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Det bör noteras att dessa variabler beror på den tillämpade regressionsmodellen, eftersom Y är värdet på regressionsprognosen. Nedan är spridningsdiagrammet ZRes vs ZPred för samma exempel:
Figur 4. Det bör noteras att i homoscedasticitetszonen förblir ZRes enhetliga och små i prediktionsområdet (Egna utarbetande).
I diagrammet i figur 4 med de standardiserade variablerna är området där restfelet är litet och enhetligt klart åtskilt från området där det inte är. I den första zonen uppfylls homoscedasticitet, medan i det område där restfelet är mycket varierande och stort, är heteroscedasticitet uppfyllt.
Regressionsjustering tillämpas på samma grupp av data i figur 3, i detta fall är justeringen olinjär, eftersom modellen som används innebär en potentiell funktion. Resultatet visas i följande figur:
Figur 5. Nya zoner av homoscedasticitet och heteroscedasticitet i datapassning med en icke-linjär regressionsmodell. (Egna utarbetande).
I diagrammet i figur 5 bör de homoskedastiska och heteroskedastiska områdena tydligt noteras. Det bör också noteras att dessa zoner utbyttes med avseende på de som bildades i modellen för linjär passning.
I diagrammet i figur 5 är det uppenbart att även när det finns en ganska hög bestämningskoefficient för passningen (93,5%), är modellen inte tillräcklig för hela intervallet för den förklarande variabeln, eftersom data för värden större än 2000 m ^ 2 för närvarande heteroscedasticitet.
Icke-grafiska tester av homoscedasticitet
Breusch-Pagan-testet är ett av de icke-grafiska tester som mest används för att verifiera om homoscedasticitet uppfylls eller inte.
Inte alla detaljer om detta test kommer att ges i den här artikeln, men dess grundläggande egenskaper och stegen i samma beskrivs grovt:
- Regressionsmodellen tillämpas på n-data och variansen för densamma beräknas med avseende på det värde som beräknas av modellen σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- En ny variabel definieras ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Samma regressionsmodell tillämpas på den nya variabeln och dess nya regressionsparametrar beräknas.
- Det kritiska värdet Chi-kvadrat (χ ^ 2) bestäms, varvid det är hälften av summan av kvadraterna nya rester i variabeln ε.
- Chi-kvadratfördelningstabellen används med beaktande av signifikansnivån (vanligtvis 5%) och antalet frihetsgrader (antal regressionsvariabler minus enheten) på tabellens x-axel för att erhålla värdet av styrelsen.
- Det kritiska värdet som erhållits i steg 3 jämförs med det värde som finns i tabellen (χ ^ 2).
- Om det kritiska värdet ligger under tabellen har vi nollhypotesen: det finns homoscedasticitet
- Om det kritiska värdet ligger över tabellens värde, har vi den alternativa hypotesen: det finns ingen homoscedasticitet.
De flesta av de statistiska programvarupaketen som: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic och flera andra innehåller Breusch-Pagan homoscedasticitetstest. Ett annat test för att verifiera variansens enhetlighet är Levene-testet.
referenser
- Box, Hunter & Hunter. (1988) Statistik för forskare. Jag vänt redaktörer.
- Johnston, J (1989). Econometrics metoder, Vicens -Vives redaktörer.
- Murillo och González (2000). Econometrics Manual. Las Palmas de Gran Canaria universitet. Återställs från: ulpgc.es.
- Wikipedia. Homoskedasticitet. Återställd från: es.wikipedia.com
- Wikipedia. Homoskedasticitet. Återställd från: en.wikipedia.com