tisdag 6 november 2018

Statistik, lögner och halvsanningar

Det finns ett berömt och ofta upprepat citat som lyder:
"Det finns tre sorters lögn: lögn, förbannad lögn och statistik"
Ofta tillskrivs det felaktigt Mark Twain.

Citatet har helt klart sina poänger - det är lätt att luras med statistik. Sannolikt då många saknar grundläggande förståelse för statistik. Det är ofta ganska lätt att upptäcka konstigheter! (Om man vill bli bättre på detta rekommenderar jag Wikipedia-artikeln Misuse of statistics)

Jag är mycket förtjust i statistik och tycker att det (rätt använt) är ett fantastiskt verktyg för att förstå världen. Det finns ett annat citat om statstik som jag tycker är bättre än det ovanstående och som borde få större genomslag.
"Han använder statistik på samma sätt som en berusad man använder en lyktstolpe – som stöd snarare än för upplysning."  - Andrew Lang
Region Uppsala antog i juni 2018 en målbild för framtidens vård: Effektiv och nära vård 2030. Rapporten innehåller åtminstone ett utmärkt exempel på ovanstående användning av statistik. Så här skriver man: "En hög patientupplevd kvalitet korrelerar dessutom med lägre kostnader för landstingen. (Vårdanalys, 2017)." För att illustrera detta drömsamband för politikerna (billigare och bättre) har man lagt in ett punktdiagram. Jag ska återkomma till bilden de valt men först lite introduktion.

I ett punktdiagram så är datapunkter utplacerade utifrån 2 (eller flera) variabler. Detta kan bland annat användas för att illustrera samband. (Innan någon hinner säga det: Nej, givetvis måste inte korrelation innebära kausalitet.)

Här är ett exempel där man plottat längd och vikt på 500 personer. Man får massa spännande information av bilden. (T.ex. man ser inte någon tydlig tvåpucklighet pga. kön. Det finns mätfel med avrundning till vissa längder, men man ser inte motsvarande för vikt.) Man ser också ett tydligt samband mellan längd och vikt (även om vi såklart vet, och ser, att längd inte är den enda förklaringen till en persons vikt).


Det går alltid att dra ett streck i ett punktdiagram för att påvisa samband (göra en linjär regression). Men dessa samband/streck kan ha olika styrka. Nedan visas exempel på scatterplots som illustrerar detta. Sambandens styrka uttrycks som korrelationskoefficient R. Förenklat kan man säga att 0,3 är ett svagt samband; 0,5 är ganska starkt samband och  >0,7 är ett starkt samband. Personligen tycker jag att sambandets styrka uttrycks bäst av själva punktdiagrammet.
Bara för att det går att "dra ett streck" genom ett punktdiagram betyder inte det att det finns ett signifikant samband. Jag låter detta illustreras av studien Can shoe size predict penile length? som innehåller följande punktdiagram där man visar det (icke existernade) sambandet mellan panislängd och skostorlek.
För att återkomma till Region Uppsalas samband: "En hög patientupplevd kvalitet korrelerar dessutom med lägre kostnader för landstingen.". Hur ser detta samband ut?
Bilden visar inte det som sägs i rapporten. Bilden visar ju snarare att det inte finns något samband mellan kostnad per besök och patientupplevd kvalitet. Detta är också viktigt. Utan det svarta strecket hade bilden varit en god illustration av att man inte ser något samband mellan patientupplevd kvalitet och kostnad per besök. Men när utredarna ritade dit det svarta strecket började de genast raglande att luta sig mot lyktstolpen för att inte ramla omkull.
"Han använder statistik på samma sätt som en berusad man använder en lyktstolpe – som stöd snarare än för upplysning."  - Andrew Lang

Inga kommentarer:

Skicka en kommentar