- exempel
- Klassificering av kategoriska variabler
- Nominella kategorier
- Ordinär kategorisk
- Binära kategorier
- Statistik med kategoriska variabler
- Grafisk representation av kategoriska variabler
- Lösta övningar
- Övning 1
- Exempel 2
- Exempel 3
- referenser
Den kategoriska variabeln är den som används i statistik för att tilldela en icke-numerisk eller kvalitativ egenskap eller egenskap till något objekt, individ, enhet, villkor eller procedur. Det är möjligt att definiera alla typer av kategoriska variabler efter varje behov.
Exempel på kategoriska variabler är: färg, kön, blodgrupp, civilstatus, typ av material, betalningsform eller bankkontotyp, och de används mycket dagligen.
Bild 1: Färg är en kategorisk variabel. Källa: pixabay
Ovanstående är variablerna, men deras möjliga värden är kvalitativa, det vill säga av kvalitet eller karakteristik och inte av en numerisk mätning. Till exempel är de möjliga värdena för det variabla könet: man, h embra.
När denna variabel lagras i ett datorprogram kan den deklareras som en textvariabel och de enda accepterade värdena är de som redan heter: Man, Kvinna.
Men samma variabla kön kan deklareras och lagras som ett heltal om Hane tilldelas 1 och Hona tilldelas värdet 2. Det är av detta skäl som kategoriska variabler ibland hänvisas till som en uppräknad typ.
Huvudkarakteristiken för kategoriska variabler är att till skillnad från andra variabler, såsom kontinuerliga och diskreta variabler, är det inte möjligt att göra aritmetik med dem. Statistik kan dock göras med dem, vilket kommer att ses senare.
exempel
Notera följande exempel på kategoriska variabler och deras möjliga värden:
- Group_Sanguíneo, Värdeintervall: A, B, AB, O
- Civil_status, kategoriska värden: singel (A), gift (B), änka (C), skild (D).
- Tipo_de_Material, kategorier eller värden: 1 = trä, 2 = metall, 3 = plast
-Form_of_ Betalning, värdepapper eller kategorier: (1) kontanter, (2) debitering, (3) överföring, (4) kredit
I de tidigare exemplen har ett nummer kopplats till varje kategori på ett helt godtyckligt sätt.
Man kunde då tro att denna godtyckliga numeriska förening gör den ekvivalent med en diskret kvantitativ variabel, men det är det inte, eftersom aritmetiska operationer inte kan utföras med dessa nummer.
För att illustrera idén i variabeln Form_of_Payment är summan inte vettigt:
(1) Kontanter + (2) Debitering kommer aldrig att vara lika (3) Överföring
Klassificering av kategoriska variabler
Rangordningen baseras på huruvida de har en implicit hierarki eller inte eller om antalet möjliga resultat är mer än två eller två.
En kategorisk variabel med endast ett möjligt resultat är inte en variabel, det är en kategorisk konstant.
Nominella kategorier
När de inte kan representeras av ett nummer eller har någon ordning. Till exempel har variabeln: Type_of_Material nominella värden (trä, metall, plast), de har inte hierarki eller ordning, även när ett godtyckligt nummer tilldelas varje svar eller kategori.
Ordinär kategorisk
Variabel: Academic_performance
Nominella värden: Hög, Medium, Låg
Även om värdena på denna variabel inte är numeriska, har de en implicit ordning eller hierarki.
Binära kategorier
Dessa är nominella variabler med två möjliga svar, till exempel:
-Variable: svar
-Nominalvärden: Sant, falskt
Observera att svarsvariabeln inte har en implicit hierarki och endast har två möjliga resultat, så det är en binär kategorisk variabel.
Vissa författare kallar denna typ för en binärvariabel och anser inte att den tillhör kategoriska variabler som är begränsade till de med mer än tre möjliga kategorier.
Statistik med kategoriska variabler
Statistik kan göras med kategoriska variabler, trots att de inte är numeriska eller kvantitativa variabler. Till exempel, för att lära känna trenden eller det mest sannolika värdet för en kategorisk variabel, tas läget.
Läget är i detta fall det mest upprepade resultatet eller värdet för en kategorisk variabel. För kategoriska variabler är det inte möjligt att beräkna varken medelvärdet eller medianen.
Medlet kan inte beräknas eftersom du inte kan göra aritmetik med kategoriska variabler. Det är inte heller medianen, eftersom de kvantitativa eller kategoriska variablerna inte har någon ordning eller hierarki, så det är inte möjligt att bestämma ett centralt värde.
Grafisk representation av kategoriska variabler
Med tanke på en viss kategorisk variabel kan frekvensen eller antalet gånger som ett resultat av denna variabel upprepas hittas. Om detta görs för varje utfall kan en graf över frekvensen mot varje kategori eller utfall göras.
Här är några exempel på hur kategoriska variabler kan representeras grafiskt.
Lösta övningar
Övning 1
Ett företag har uppgifter om 170 anställda. En av variablerna i dessa poster är: Estado_Civil. Denna variabel har fyra kategorier eller möjliga värden:
Singel (A), gift (B), änka (C), skild (D).
Även om det är en icke-numerisk variabel, är det möjligt att veta hur många av de totala posterna som finns i en viss kategori och representeras i form av ett stapeldiagram, som visas i följande figur:
Figur 2. Representation av resultaten av en kategorisk variabel. Källa: självgjord
Exempel 2
En skobutik håller reda på sin försäljning. Bland variablerna som hanterar sina poster är skofärgen för varje modell. Variabeln:
Color_Shoe_Model_AW3
Den är av kategorisk typ och har fem kategorier eller möjliga värden. För varje kategori av denna variabel är antalet försäljningar totalt och procenten av dem fastställs. Resultaten presenteras i diagrammet för följande figur:
Bild 3. Kategorisk variabel Färg _Skor. I denna variabel är läget Vitt. Källa: självgjord.
Det kan sägas att den av AW3-skomodellen som är i mode, den som säljs oftast är Vit, följt av Black.
Det kan också sägas att med en sannolikhet på 70% kommer nästa sko som säljs av denna modell vara vit eller svart.
Denna information kan vara användbar för butiken när du beställer nya beställningar, eller den kan till och med tillföra rabatter på de minst sålda färgerna på grund av överskott av lager.
Exempel 3
För en viss population av blodgivare vill du representera antalet personer som tillhör en viss blodgrupp. Ett grafiskt sätt att visualisera resultaten är med hjälp av ett piktogram, som är längst ner i ett bord.
Den första kolumnen representerar variabeln group_sanguíneo och dess möjliga resultat eller kategorier. Den andra kolumnen representerar i ikonisk eller bildform av antalet personer i varje kategori. I vårt exempel används en röd droppe som ikon som var och en representerar 10 personer.
Bild 4. Piktogram. Källa: självgjord
referenser
- Khan akademin. Analysera kategoriska data. Återställd från: khanacademy.org
- Universumformler. Kvalitativ variabel. Återställs från: univesoformulas.com
- Minitab. Vilka är kategoriska, diskreta och kontinuerliga variabler. Återställs från: support.minitab.com
- Excel-handledning. Karaktärisering av variabler. Återställs från: help.xlslat.com.
- Wikipedia. Statistisk variabel. Återställs från wikipedia.com
- Wikipedia. Kategorisk variabel. Återställs från wikipedia.com
- Wikipedia. Kategorisk variabel. Återställs från wikipedia.com