- Uttalande av problemet i Mann-Whitney U-testet
- Kvalitativa variabler kontra kvantitativa variabler
- Normalt fall
- Fall med icke-normal trend
- Parade eller oparade prover
- Egenskaper vid Mann Whitney U-testet
- Mann - Whitney formel
- Steg för att tillämpa testet
- Praktiskt tillämpningsexempel
- - Steg 1
- - Steg 2
- Region A
- Region B
- Steg 3
- Steg 4
- Jämförelsekriterier
- Online-kalkylatorer för Mann-Whitney U-testet
- referenser
The Mann - Whitney U-test används för jämförelse av två oberoende prov när de har lite data eller inte följer en normalfördelning. På detta sätt betraktas det som ett icke-parametriskt test, till skillnad från det homologa Student's t-test, som används när provet är tillräckligt stort och följer den normala fördelningen.
Frank Wilcoxon föreslog det för första gången 1945, för prover av identiska storlekar, men två år senare förlängdes det för exempel på olika storlekar av Henry Mann och DR Whitney.
Figur 1. Mann-Whitney U-testet används för jämförelse av oberoende prover. Källa: Pixabay.
Testet används ofta för att kontrollera om det finns ett samband mellan en kvalitativ och en kvantitativ variabel.
Ett illustrativt exempel är att ta en uppsättning hypertensiva personer och extrahera två grupper, från vilka dagliga blodtrycksdata registreras under en månad.
Behandling A tillämpas på en grupp och behandling B. En annan här. Blodtrycket är den kvantitativa variabeln och typ av behandling är den kvalitativa.
Vi vill veta om medianen, och inte medelvärdet, för de uppmätta värdena är statistiskt lika eller olika, för att fastställa om det finns en skillnad mellan båda behandlingarna. För att få svaret tillämpas Wilcoxon-statistiken eller Mann-Whitney U-testet.
Uttalande av problemet i Mann-Whitney U-testet
Ett annat exempel där testet kan tillämpas är följande:
Anta att du vill veta om konsumtionen av läskedrycker skiljer sig väsentligt i två regioner i landet.
En av dem kallas region A och den andra regionen B. Ett register hålls över de liter som konsumeras varje vecka i två prover: en av 10 personer för region A och en annan av 5 personer för region B.
Uppgifterna är som följer:
-Region A : 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Region B : 12,14, 11, 30, 10
Följande fråga uppstår:
Kvalitativa variabler kontra kvantitativa variabler
-Kvalitativ variabel X : Region
-Kvantitativ variabel Y : konsumtion av läsk
Om mängden liter som konsumeras är densamma i båda regionerna kommer slutsatsen att det inte finns något beroende mellan de två variablerna. Sättet att ta reda på det är att jämföra medel- eller mediantrenden för de två regionerna.
Normalt fall
Om uppgifterna följer en normalfördelning tas två hypoteser upp: noll H0 och alternativ H1 genom jämförelse mellan medel:
- H0 : det finns ingen skillnad mellan medelvärdet för de två regionerna.
- H1 : medel för båda regionerna är olika.
Fall med icke-normal trend
Tvärtom, om uppgifterna inte följer en normalfördelning eller provet helt enkelt är för litet för att veta det, i stället för att jämföra medelvärdet, skulle medianen för de två regionerna jämföras.
- H0 : det finns ingen skillnad mellan medianen för de två regionerna.
- H1 : medianerna i båda regionerna är olika.
Om medianerna sammanfaller, uppfylls nollhypotesen: det finns inget samband mellan konsumtion av läsk och regionen.
Och om det motsatta händer, är den alternativa hypotesen sant: det finns en relation mellan konsumtion och region.
Det är i dessa fall där Mann-Whitney U-testet indikeras.
Parade eller oparade prover
Nästa viktiga fråga när man beslutar om man ska tillämpa Mann Whitney U-testet är om antalet data i båda proverna är identiskt, det vill säga att de är i par.
Om de två proverna är parade, kommer den ursprungliga Wilcoxon-versionen att gälla. Men om inte, såsom är fallet i exemplet, tillämpas det modifierade Wilcoxon-testet, vilket är exakt Mann Whitney U-testet.
Egenskaper vid Mann Whitney U-testet
Mann-Whitney U-testet är ett icke-parametriskt test, tillämpligt på prover som inte följer normalfördelning eller med lite data. Det har följande egenskaper:
1.- Jämför medianerna
2.- Det fungerar på beställda intervall
3.- Det är mindre kraftfullt, menande kraft är sannolikheten att avvisa nollhypotesen när den faktiskt är falsk.
Med hänsyn till dessa egenskaper tillämpas Mann-Whitney U-testet när:
-Data är oberoende
-De följer inte normalfördelningen
-Nollhypotesen H0 accepteras om medianerna för de två proverna sammanfaller: Ma = Mb
-Den alternativa hypotesen H1 accepteras om medianerna för de två proverna skiljer sig: Ma ≠ Mb
Mann - Whitney formel
Variabeln U är kontraststatistiken som används i Mann-Whitney-testet och definieras enligt följande:
Detta betyder att U är den minsta av värdena mellan Ua och Ub, tillämpade på varje grupp. I vårt exempel skulle det vara för varje region: A eller B.
Variablerna Ua och Ub definieras och beräknas enligt följande formel:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Här är Na- och Nb-värdena storleken på proverna som motsvarar regionerna A respektive B, och för deras del är Ra och Rb rankningssummorna som vi kommer att definiera nedan.
Steg för att tillämpa testet
1.- Beställ värdena för de två proverna.
2.- Tilldela en orderrankning till varje värde.
3.- Korrigera befintliga band i data (upprepade värden).
4.- Beräkna Ra = Summan av provens räkning.
5.- Hitta Rb = Summan av provens rankning.
6.- Bestäm värdet Ua och Ub, enligt formlerna i föregående avsnitt.
7.- Jämför Ua och Ub, och den mindre av de två tilldelas den experimentella U-statistiken (det vill säga data) som jämförs med den teoretiska eller normala U-statistiken.
Praktiskt tillämpningsexempel
Nu tillämpar vi de ovannämnda på problemet med läskedrycker som tidigare har uppstått:
Region A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Region B: 12,14, 11, 30, 10
Beroende på om medel för båda proverna är statistiskt lika eller olika, accepteras eller avvisas nollhypotesen: det finns inget samband mellan variablerna Y och X, det vill säga att konsumtionen av läskedrycker inte beror på regionen:
H0: Ma = Mb
H1: Ma ≠ Mb
Bild 2. Uppgifter om läskedryckskonsumtion i regionerna A och B. Källa: F. Zapata.
- Steg 1
Vi fortsätter att beställa data gemensamt för de två proverna och beställer värdena från lägst till högst:
Lägg märke till att värdet 11 visas två gånger (en gång i varje prov). Ursprungligen har det positioner eller intervall 3 och 4, men för att inte överskatta eller underskatta det ena eller det andra väljs medelvärdet som intervallet, det vill säga 3,5.
På liknande sätt fortsätter vi med värdet 12, som upprepas tre gånger med intervall 5, 6 och 7.
Värdet 12 tilldelas medelområdet 6 = (5 + 6 + 7) / 3. Och detsamma för värdet 14, som har ligatur (visas i båda proverna) i positionerna 8 och 9, det tilldelas medelområdet 8,5 = (8 + 9) / 2.
- Steg 2
Därefter separeras data för region A och B igen, men nu tilldelas motsvarande intervall i en annan rad:
Region A
Region B
Områdena Ra och Rb erhålls från summan av elementen i den andra raden för varje fall eller region.
Steg 3
De respektive Ua- och Ub-värdena beräknas:
Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2 -34 = 31
Experimentvärde U = min (19, 31) = 19
Steg 4
Det antas att den teoretiska U följer en normalfördelning N med parametrar som enbart ges av provens storlek:
N ((na⋅nb) / 2, √)
För att jämföra variabeln U erhållen experimentellt med det teoretiska U är det nödvändigt att göra en förändring av variabeln. Vi flyttar från den experimentella variabeln U till dess standardiserade värde, som kommer att kallas Z, för att kunna göra jämförelsen med den för en standardiserad normalfördelning.
Förändringen av variabeln är som följer:
Z = (U - na.nb / 2) / √
Det bör noteras att för ändring av variabel användes parametrarna för den teoretiska fördelningen för U. Då kontrastas den nya variabeln Z, som är en hybrid mellan den teoretiska U och den experimentella U, med en standardiserad normalfördelning N (0,1 ).
Jämförelsekriterier
Om Z ≤ Zα ⇒ accepteras nollhypotesen H0
Om Z> Zα ⇒ avvisar nollhypotesen H0
De standardiserade Za-kritiska värdena beror på den erforderliga nivån av konfidens, till exempel för en konfidensnivå a = 0,95 = 95%, vilket är det vanligaste, det kritiska värdet Za = 1,96 erhålls.
För data som visas här:
Z = (U - na nb / 2) / √ = -0,73
Vilket är under det kritiska värdet 1,96.
Så den slutliga slutsatsen är att nollhypotesen H0 godtas:
Online-kalkylatorer för Mann-Whitney U-testet
Det finns specifika program för statistiska beräkningar, inklusive SPSS och MINITAB, men dessa program betalas och deras användning är inte alltid lätt. Detta beror på det faktum att de erbjuder så många alternativ att deras användning praktiskt taget är reserverad för experter på statistik.
Lyckligtvis finns det ett antal mycket exakta, gratis och lättanvända online-program som låter dig köra Mann-Whitney U-testet, bland andra.
Dessa program är:
-Social Science Statistics (socscistatistics.com), som har både Mann-Whitney U-testet och Wilcoxon-testet för balanserade eller parade prover.
-AI Therapy Statistics (ai-therapy.com), som har flera vanliga tester av beskrivande statistik.
-Statistisk att använda (fysik.csbsju.edu/stats), en av de äldsta, så gränssnittet kan se ut daterat, även om det ändå är ett mycket effektivt gratisprogram.
referenser
- Dietrichson. Kvantitativa metoder: rankningstest. Återställd från: bookdown.org
- Marín J P. SPSS Guide: Analys och procedurer i icke-parametriska tester. Återställd från: halweb.uc3m.es
- USAL MOOC. Nonparametriska test: Mann-Whitney U. Återställd från: youtube.com
- Wikipedia. Mann-Whitney U-test. Återställd från: es.wikipedia.com
- XLSTAT. Hjälpcenter. Mann - Whitney testhandledning i Excel. Återställs från: help.xlsat.com