Stor ändring i spridning men inte median

Lådagram Lådagram är ett diagram som visar spridningsmått på ett tydligt vis och är nytt för kursen. I lektionen lådagram går vi ingående igenom hur man läser av och konstruerar ett lådagram, men redan nu får ni ett exempel på hur de kan se ut nedan. Nya lägesmått och spridningsmått Spridningsmått och lägesmått presenteras ofta tillsammans för att beskriva en undersökningsresultat så bra som möjligt.

I högstadiets kurser och Matematik 1 gick vi ingående igenom lägesmåtten medelvärde, median och typvärde. Där diskuterade vi även att de olika lägesmåtten passar bra att använda i olika situationer. Genom att känna till hur datamängdens observationer är fördelade kan man lättare avgöra vilket lägesmått som lämpar sig bäst.

I denna kurs kommer vi att fördjupa lägesmåtten genom att jobba med material som är normalfördelade. Det innebär att de fördelas sig på ett särskilt vis kring medelvärdet enligt en kurva som även finns på formelbladet för kursen. Är datamängden någorlunda normalfördelad är medelvärdet ett bra lägesmått. Däremot kan medianen eller typvärdet vara ett mer rättvisande lägesmått om materialet är snedfördelat.

Med andra ord får man vara observant på vilket mått som ger det tydligaste och mest sanningsenliga informationen. Sammanfattningsvis gäller att för olika datamängder är de tre lägesmåtten olika missvisande. Experter gör det, patienter gör det, barn och vuxna gör det — värderar och bedömer egenskaper såsom funktion, förmåga, kvalitet, upplevd hälsa, oro, smärta, lycka mm.

Kännetecknande för dessa variabler är att definitionen av dem, både teoretiskt och operationellt, beror på sammanhanget och tilllämpningsområdet. Det finns inga standardiserade regler för hur en egenskap som inte entydigt definieras av en fysikalisk eller kemisk lag skall mätas, och bedömningarna kan göras av personer med olika roller, tex studiepersonen, en närstående eller en utomstående bedömare.

Enkäter, skalor och olika former av mer eller mindre komplicerade bedömningsformulär är vanliga för mätning av denna typ av variabler, och det finns en uppsjö av olika formulär mätinstrument för att mäta samma variabel []. Detta är en av anledningarna till att studier med liknande syften kan vara upplagda och genomförda på olika sätt och ibland ge divergerande resultat, vilket kan vara både frustrerande och stimulerande.

Statistisk metodik är ett nödvändigt verktyg i vetenskapliga studier och för värdering av det vetenskapliga underlaget till evidensbaserade beslut. Valet av design får konsekvenser för den statistiska bearbetningens relevans och för resultatens tolkningsbarhet och giltighet. Valet av mätmetod och i vilken form mätvärdena skall användas i studien avgör datamaterialets matematiska och statistiska egenskaper och därmed vilken statistisk verktygslåda som är lämplig för bearbetning och analys.

Syftet med denna artikel är att fästa uppmärksamheten på hur valet av mätmetod får konsekvenser för valet av statistisk verktygslåda samt att ge en grund för kommande artiklar med exempel på statistiska lösningar på olika typer av frågeställningar inom kliniska studier. Operationalisering — länken mellan teori och mätning Det finns olika anledningar till att genomföra en studie.

Syftet kan vara att studera en eller flera egenskaper eller fenomen för att beskriva, kartlägga, utvärdera eller för att verifiera en hypotes, visa på en effekt, visa på en relation eller dylikt. Forskningsfrågan leder in på mätprocessen och på operationaliseringen Fakta 1 , som är länken mellan den teoretiska och den mätbara definitionen av variabeln. Vad skall mätas, hur skall egenskapen mätas och, framför allt, i vilken form skall mätvärdena användas i beskrivning och analys?

Vad är variabelns roll i studien: är den huvud-, bakgrunds- eller förklarande variabel? Det är ett komplext samspel mellan bakomliggande mätteorier, forskningsfrågans natur, resultatens betydelse och den operationella definitionen av variabeln []. Figur 1 ger exempel på länken mellan operationell definition, mätning och datamaterialets egenskaper för variabeln »fysisk belastning«.

Fysisk belastning kan definieras som den tid som en person tillbringar stående vid ett arbetsmoment, eller som tillryggalagd gångsträcka under en arbetsdag men kan också definieras utifrån vilka och hur många belastande arbetsställningar man har i arbetet. De olika operationella definitionerna av fysisk belastning kan komplettera varandra i samma studie.

Statistiskt viktiga mätnivåer De statistiskt viktiga egenskaperna hos olika typer av data kan karakteriseras av de mätnivåer som anges i Figur 1 och Tabell I. Dikotoma data består av två möjliga värden, eftersom datamaterialet grupperas i endast två kategorier. En indelning i fler kategorier, tex efter typ av belastande arbetsställningar, ger kategoridata utan ordningsstruktur; denna typ av data kallas nominal [7].

Bedömning på olika typer av skalor resulterar i ordnade kategoridata eller ordinaldata. Kännetecknande för ordinaldata är att mätvärdena har en ordningsstruktur men saknar information om storlek och avstånd []. Detta innebär att påståenden om »smärtlindring« eller »ökning av livskvalitet« kan verifieras, men däremot kan inte påståenden av typen »smärtan halverades« eller »livskvaliteten ökade med 30 procent« bli resultat av upprepade bedömningar på en skala.

De ordnade kategorierna i en skala kan ha olika utseenden.

Standardavvikelse formel

De kan utgöras av ord inga, lätta, måttliga, svåra besvär , beskrivande meningar eller av flera väl definierade kriterier för de olika nivåerna av tillstånd, som vid bedömning av reaktionsgrad enligt Reaction Level Scale RLS85 [12], men kategorierna kan också betecknas med siffror, bilder eller andra symboler. Skattningar på en visuell analog skala VAS ger upphov till i det närmaste kontinuerliga ordinaldata [13].

VAS består ofta av en mm rät linje, och mätningen består i en markering på linjen mellan det värsta och det bästa tänkbara tillståndet. De positionerna på VAS, definierade från linjens ena ändpunkt, utgör de möjliga mätvärdena för den bedömda variabeln Fakta 2.

Vad är lägesmått

Siffrornas frestelse Det är mycket vanligt att de olika kategorierna i en skala symboliseras av eller kodas om till siffror. Sifferbeteckningarna saknar matematisk innebörd utöver ordning och skall alltså inte uppfattas som matematiska tal. Detta är visserligen mycket vanligt, och frestelsen är stor att tillskriva siffrorna inte bara den ordningsstruktur som de är satta att symbolisera utan även matematiska egenskaper som den aktuella mätnivån inte har [5, 11, 14].

Beräkning av summor, differenser, medelvärden mm är inte meningsfull för ordinaldata men är extremt vanligt förekommande. Sifferbeteckningarna är endast koder för kategoriernas ordningsstruktur och skall kunna bytas ut mot en annan uppsättning av ordnade symboler utan att detta påverkar resultatet av den statistiska bearbetningen. Detta är för övrigt ett sätt att kontrollera om man valt relevant statistik.

Kvantitativa data — inget enhetligt begrepp Den statistiskt högsta mätnivån representeras av tal med matematisk innebörd, dvs av kvantitativa data. Detta innebär att uttryck som »dubbelt så mycket«, »en ökning med 3 cm« har väldefinierade betydelser. Kvantitativa data är inte ett enhetligt begrepp utan innefattar datamaterial med olika typer av begränsningar, men gemensamt är att värdena har en matematiskt väl definierad innebörd av storlek och avstånd.

Antalsdata, såsom antal attacker, antal barn per familj, antal återbesök är diskreta kvantitativa data. Men om någon beständig förändring verkligen har hänt, så berättar ju medelvärdet det.

Vad är lägesmått

Just det här fallet är ju ganska enkelt, med bara fem tal. I verkliga data kan det finnas hundratals, tusentals eller till och med miljontals tal. Då blir det bara förvirrande att titta på alla talen, och det behövs verkligen statistiska parametrar som medelvärde och median för att alls göra alla data begripliga. Med väldigt många tal, betyder förändringar i något tal dessutom inte lika mycket för median eller medelvärde.

Lika fullt kan mätfel eller tillfälliga förändringar ställa till det och ge en felaktig bild. Finns det några få väldigt avvikande värden, kan man dessutom undra vad medelvärdet egentligen visar. Jag ska ge ett exempel. I världen finns drygt sex miljarder människor och knappt länder. Följdaktligen är medelvärdet drygt 30 miljoner människor per land.

Här finns dock två väldigt avvikande värden. Kina och Indien har bägge över en miljard människor. Drar man bort bägge dessa länder, blir det cirka 4 miljarder kvar i övriga länder, som fortfarande är knappt stycken. Följdaktligen har medellandet, om Kina och Indien inte räknas med, drygt 20 miljoner människor.

Genom att inte räkna med de två folkrikaste länderna, faller alltså medelvärdet med cirka 10 miljoner människor per land, eller ungefär en tredjedel! Vad medianen är för befolkningen per land vet jag inte, med den ändras förmodligen väldigt lite om vi inte räknar med Kina och Indien. Att ta bort dessa två länder innebär ju att gå ner ett steg i den sorterade listan över befolkning per land, och förmodligen är det liten skillnad mellan länder vad gäller befolkning i mitten av listan.

Här kan den lilla grundkursen i statistik i och för sig påstås vara slut. Det viktigaste att komma ihåg här är att statistik kan beskriva olika sanningar beroende på vilken eller vilka parametrar som används. Detta alltså fastän de grundläggande data är desamma.