- Typer av frihetsgrader
- I ett mekaniskt fall
- I en uppsättning slumpmässiga värden
- exempel
- Variation och grader av frihet
- I Chi-torget distribution
- I hypotestestet (med löst exempel)
- referenser
De frihetsgrader i statistiken är antalet oberoende komponenter av en slumpvektor. Om vektorn har n komponenter och det finns p linjära ekvationer relaterade till dess komponenter, är frihetsgraden np.
Begreppet frihetsgrader framträder också i teoretisk mekanik, där de i stort sett motsvarar dimensionen av rymden där partikeln rör sig minus antalet bindningar.
Bild 1. En pendel rör sig i två dimensioner, men den har bara en frihetsgrad eftersom den tvingas röra sig i en båge med radie L. Källa: F. Zapata.
Den här artikeln kommer att diskutera begreppet frihetsgrader som tillämpas på statistik, men ett mekaniskt exempel är lättare att visualisera i geometrisk form.
Typer av frihetsgrader
Beroende på sammanhanget i vilket det tillämpas kan sättet att beräkna antalet frihetsgrader variera, men den underliggande idén är alltid densamma: totala dimensioner minus antal begränsningar.
I ett mekaniskt fall
Låt oss betrakta en svängande partikel bunden till en sträng (en pendel) som rör sig i det vertikala xy-planet (2 dimensioner). Emellertid tvingas partikeln att röra sig på radieomkretsen lika med strängens längd.
Eftersom partikeln bara kan röra sig på den kurvan är antalet frihetsgrader 1. Detta kan ses i figur 1.
Sättet att beräkna antalet frihetsgrader är genom att ta skillnaden mellan antalet dimensioner minus antalet begränsningar:
grader av frihet: = 2 (dimensioner) - 1 (ligatur) = 1
En annan förklaring som gör att vi kan nå resultatet är följande:
-Vi vet att positionen i två dimensioner representeras av en punkt med koordinater (x, y).
-But eftersom den punkt måste uppfylla ekvationen av omkretsen (x 2 + y 2 = L 2 ) för ett givet värde på variabeln x, är den variabel y bestäms av nämnda ekvation eller begränsning.
På detta sätt är bara en av variablerna oberoende och systemet har en (1) frihetsgrad.
I en uppsättning slumpmässiga värden
För att illustrera vad konceptet betyder, antar vektorn
x = (x 1 , x 2 , …, x n )
Representerar provet av n normalt fördelade slumpmässiga värden. I detta fall har den slumpmässiga vektorn x n oberoende komponenter och därför sägs x ha n frihetsgrader.
Låt oss nu konstruera vektorn r för resterna
r = (x 1 -
Var
Så summan
(x 1 -
Det är en ekvation som representerar en restriktion (eller bindning) i elementen i vektorn r i resterna, eftersom om n-1-komponenterna i vektorn r är kända bestämmer restriktionsekvationen den okända komponenten.
Därför är vektorn r med dimension n med begränsningen:
X (x i -
Den har (n - 1) grader av frihet.
Återigen tillämpas att beräkningen av antalet frihetsgrader är:
grader av frihet: = n (dimensioner) - 1 (begränsningar) = n-1
exempel
Variation och grader av frihet
Variansen s 2 definieras som medelvärdet för kvadratet för avvikelserna (eller resterna) för provet av n-data:
s 2 = ( r • r ) / (n-1)
där r är vektorn för resterna r = (x1 -
s 2 = Σ (x i -
I vilket fall som helst bör det noteras att vid beräkning av medelvärdet för kvadratet för resterna är det dividerat med (n-1) och inte med n, eftersom som diskuterats i föregående avsnitt är antalet frihetsgrader för vektorn r ( n-1).
Om beräkningen av variansen delades med n istället för (n-1), skulle resultatet ha en förspänning som är mycket signifikant för värden på n mindre än 50.
I litteraturen visas variansformeln också med divisorn n istället för (n-1), när det gäller variansen hos en befolkning.
Men uppsättningen av den slumpmässiga variabeln för resterna, representerad av vektorn r , även om den har dimension n, har bara (n-1) frihetsgrader. Men om antalet data är tillräckligt stort (n> 500) konvergerar båda formlerna till samma resultat.
Kalkylatorer och kalkylblad tillhandahåller båda versionerna av variansen och standardavvikelsen (som är varianternas kvadratrot).
Vår rekommendation, med tanke på analysen som presenteras här, är att alltid välja version med (n-1) varje gång variansen eller standardavvikelsen behöver beräknas för att undvika partiska resultat.
I Chi-torget distribution
Vissa sannolikhetsfördelningar i kontinuerlig slumpmässig variabel beror på en parameter som kallas frihetsgrad, detta är fallet med Chi-kvadratfördelningen (χ 2 ).
Namnet på denna parameter kommer exakt från graderna av frihet för den underliggande slumpmässiga vektorn som denna distribution gäller.
Anta att vi har g-populationer, från vilka prover av storlek n tas:
X 1 = (x1 1 , x1 2 , … ..x1 n )
X2 = (x2 1 , x2 2 , … ..x2 n )
….
X j = (xj 1 , xj 2 , … ..xj n )
….
Xg = (xg 1 , xg 2 , … ..xg n )
En befolkning j som har inneburit
Den standardiserade eller normaliserade variabeln zj i definieras som:
zj i = (xj i -
Och vektorn Zj definieras så här:
Zj = ( zj 1 , zj 2 , …, zj i , …, zj n ) och följer den standardiserade normala fördelningen N (0,1).
Så variabeln:
Q = ((z1 1 ^ 2 + z2 1 ^ 2 +…. + Zg 1 ^ 2), …., (Z1 n ^ 2 + z2 n ^ 2 +…. + Zg n ^ 2))
följer χ 2 (g) -fördelningen kallad chi-square distribution med frihetsgrad g.
I hypotestestet (med löst exempel)
När du vill testa hypoteser baserat på en viss uppsättning slumpmässiga data, måste du veta antalet frihetsgrader g för att kunna använda Chi-square-testet.
Bild 2. Finns det ett samband mellan preferensen för glass FLAVOR och kundens KÖNN? Källa: F. Zapata.
Som ett exempel kommer de data som samlas in om preferenser för choklad- eller jordgubbsglass bland män och kvinnor i en viss glassbar att analyseras. Frekvensen som män och kvinnor väljer jordgubbar eller choklad sammanfattas i figur 2.
Först beräknas tabellen över förväntade frekvenser, som bereds genom att multiplicera summan av rader med summan av kolumner, dividerad med total data. Resultatet visas i följande figur:
Figur 3. Beräkning av förväntade frekvenser baserat på observerade frekvenser (värden i blått i figur 2). Källa: F. Zapata.
Därefter beräknas Chi-kvadratet (från data) med hjälp av följande formel:
χ 2 = ∑ (F o - F e ) 2 / F e
Där F o är de observerade frekvenserna (Figur 2) och F e är de förväntade frekvenserna (Figur 3). Sammanfattningen går över alla rader och kolumner, som i vårt exempel ger fyra termer.
Efter att ha gjort operationerna får du:
χ 2 = 0,2043.
Nu är det nödvändigt att jämföra med det teoretiska Chi-torget, som beror på antalet frihetsgrader g.
I vårt fall bestäms detta antal enligt följande:
g = (# rader - 1) (# kolumner - 1) = (2 - 1) (2 - 1) = 1 * 1 = 1.
Det visar sig att antalet frihetsgrader g i detta exempel är 1.
Om du vill kontrollera eller avvisa nollhypotesen (H0: det finns inget samband mellan TASTE och Kön) med en betydelse på 1%, beräknas det teoretiska Chi-kvadratvärdet med frihetsgraden g = 1.
Värdet söks som gör den ackumulerade frekvensen (1 - 0,01) = 0,99, det vill säga 99%. Detta värde (som kan erhållas från tabellerna) är 6 636.
Eftersom den teoretiska Chi överskrider den beräknade, verifieras nollhypotesen.
Med andra ord, med de insamlade data observeras ingen relation mellan variablerna TASTE och Kön.
referenser
- Minitab. Vilka grader av frihet? Återställs från: support.minitab.com.
- Moore, David. (2009) Grundläggande tillämpad statistik. Antoni Bosch redaktör.
- Leigh, Jennifer. Hur man beräknar frihetsgrader i statistiska modeller. Återställd från: geniolandia.com
- Wikipedia. Frihetsgrad (statistik). Återställd från: es.wikipedia.com
- Wikipedia. Frihetsgrad (fysisk). Återställd från: es.wikipedia.com