Den regeln Sturges är ett kriterium som används för att bestämma antalet klasser eller intervall som är nödvändiga för att plotta en uppsättning av statistiska data. Denna regel uttalades 1926 av den tyska matematikern Herbert Sturges.
Sturges föreslog en enkel metod, baserat på antalet prover x som skulle göra det möjligt för oss att hitta antalet klasser och deras intervallbredd. Sturges regel används ofta, särskilt inom statistikområdet, specifikt för att konstruera frekvenshistogram.

Förklaring
Sturges regel är en empirisk metod som används allmänt i beskrivande statistik för att bestämma antalet klasser som måste existera i ett frekvenshistogram för att klassificera en uppsättning data som representerar ett prov eller en population.
I princip bestämmer denna regel bredden på de grafiska behållarna, frekvenshistogrammen.
För att fastställa sin regel betraktade Herbert Sturges ett idealiskt frekvensdiagram, bestående av K-intervaller, där det i-te intervallet innehåller ett visst antal prover (i = 0, … k - 1), representerade som:

Detta antal prover ges av antalet sätt på vilka en delmängd av en uppsättning kan extraheras; det vill säga med den binomiala koefficienten, uttryckt enligt följande:


För att förenkla uttrycket använde han logaritmernas egenskaper på båda delar av ekvationen:

Således konstaterade Sturges att det optimala antalet intervall k ges av uttrycket:

Det kan också uttryckas som:

I detta uttryck:
- k är antalet klasser.
- N är det totala antalet observationer i urvalet.
- Logg är den gemensamma logaritmen för bas 10.
För att konstruera ett frekvenshistogram som uttrycker ett slumpmässigt prov på 142 barns höjd är antalet intervall eller klasser som fördelningen kommer att ha:
k = 1 + 3,322 * log 10 (N)
k = 1 + 3,322 * log (142)
k = 1 + 3,322 * 2,1523
k = 8,14 ≈ 8
Således kommer fördelningen att ske i åtta intervaller.
Antalet intervaller måste alltid representeras av heltal. I fall där värdet är decimal bör en tillnärmning göras till närmaste heltal.
tillämpningar
Sturges-regel tillämpas huvudsakligen i statistik, eftersom den gör det möjligt att göra en frekvensfördelning genom att beräkna antalet klasser (k), såväl som längden på var och en av dessa, även känd som amplitud.
Amplituden är skillnaden mellan klassens övre och nedre gräns, dividerat med antalet klasser och uttrycks:

Det finns många tumregler som gör det möjligt att göra en frekvensfördelning. Sturges regel används emellertid ofta eftersom den ungefärliga antalet klasser, som vanligtvis sträcker sig från 5 till 15.
Därför beaktar det ett värde som tillräckligt representerar ett urval eller en population det vill säga tillnärmningen representerar inte extrema grupperingar, och den fungerar inte heller med ett överdrivet antal klasser som inte tillåter sammanfattningen av provet.
Exempel
Ett frekvenshistogram måste göras enligt de angivna uppgifterna, vilket motsvarar åldrar som erhållits i en undersökning av män som tränar i ett lokalt gym.

För att bestämma intervallen måste man veta storleken på provet eller antalet observationer; i det här fallet finns det 30.
Då gäller Sturges regel:
k = 1 + 3,322 * log 10 (N)
k = 1 + 3,322 * log (30)
k = 1 + 3,322 * 1,4771
k = 5,90 ≈ 6 intervaller.
Från antalet intervall kan amplituden som dessa har beräknas; det vill säga bredden på varje stapel representerad i frekvenshistogrammet:

Den undre gränsen betraktas som det minsta värdet på data, och den övre gränsen är det största värdet. Skillnaden mellan de övre och nedre gränserna kallas variabelns intervall eller intervall (R).
Från tabellen har vi att den övre gränsen är 46 och den nedre gränsen är 13; således kommer amplituden för varje klass att vara:

Intervallen består av en övre och en nedre gräns. För att bestämma dessa intervall, börjar vi med att räkna från den nedre gränsen och lägger till detta amplituden bestämd med regel (6) på följande sätt:

Därefter beräknas den absoluta frekvensen för att bestämma antalet män som motsvarar varje intervall; i det här fallet är det:
- Intervall 1: 13 - 18 = 9
- Intervall 2: 19 - 24 = 9
- Intervall 3: 25 - 30 = 5
- Intervall 4: 31 - 36 = 2
- Intervall 5: 37 - 42 = 2
- Intervall 6: 43 - 48 = 3
När du lägger till den absoluta frekvensen för varje klass måste detta vara lika med provets totala antal; i detta fall 30.
Därefter beräknas den relativa frekvensen för varje intervall och delar dess absoluta frekvens med det totala antalet observationer:

- Intervall 1: fi = 9 ÷ 30 = 0,30
- Intervall 2: fi = 9 ÷ 30 = 0,30
- Intervall 3: fi = 5 ÷ 30 = 0,1666
- Intervall 4: fi = 2 ÷ 30 = 0,0666
- Intervall 5: fi = 2 ÷ 30 = 0,0666
- Intervall 4: fi = 3 ÷ 30 = 0,10
Sedan kan du skapa en tabell som återspeglar data och även diagrammet från den relativa frekvensen i förhållande till erhållna intervaller, vilket kan ses i följande bilder:


På detta sätt tillåter Sturges-regeln att bestämma antalet klasser eller intervaller som ett prov kan delas in för att sammanfatta ett dataprov genom utarbetandet av tabeller och grafer.
referenser
- Alfonso Urquía, MV (2013). Modellering och simulering av diskreta händelser. UNED,.
- Altman Naomi, MK (2015). "Enkel linjär regression." Naturmetoder.
- Antúnez, RJ (2014). Statistik inom utbildning. Digital UNIT.
- Fox, J. (1997.). Tillämpad regressionsanalys, linjära modeller och relaterade metoder. SAGE-publikationer.
- Humberto Llinás Solano, CR (2005). Beskrivande statistik och sannolikhetsfördelningar. Northern University.
- Panteleeva, OV (2005). Grunderna för sannolikhet och statistik.
- O. Kuehl, MO (2001). Design av experiment: Statistiska principer för forskningsdesign och analys. Thomson Editors.
