De syv dødsynder i dataanalyse

Bær over med mig i dette forsøg på at smelte dødssynder og videnskab sammen.

Stolthed = “Tænker du ved bedre end dataene”
Lad os se det, grunden til, at vi analyserer data i første omgang, skyldes, at vi ikke har alle svarene. Intuition kan ofte lede på afveje, og efter en hunch kan koste millioner. Selvom det kan ydmyge for at anerkende vores begrænsninger og uvidenhed, skal vi respektere og revne data. Selv når det går imod vores ekspertise.
Sig du er en hjertekirurg, der forsøger at bestemme mellem to operationer på en patient. Fra din oplevelse mener du, at proceduren A er overlegen, fordi du husker mange patienter, der klager efter proceduren B. Der er dog et overbevisende bevismateriale, der tyder på, at proceduren B overstiger proceduren A på en række forskellige sundhedsresultater. Ignorerer du disse data og går med din tarm? Lad du anekdoter overskygger fakta?
Lyst = “Forbindelser med urene, men lokkende data”
De data, der vinder op i analytikernes hænder, er ofte rå og meget beskidte. Manglende værdier, outliers og transkriptionsfejl vrimler. Selv om det kan være fristende at ignorere disse problemer, skal vi sætte på vores kyskhedsbælter og få rengøring.
Den bedste måde at gøre dette på er at tage et kig på din beskrivende statistik. Lav nogle histogrammer. Graf et par scatter-plots. Tjek dine normalitetsforudsætninger og prøv at identificere eventuelle datapunkter, der virker ude af whack. Ellers løber du risikoen for, at dine resultater bliver skævt. Jeg bliver den første til at indrømme, at rengøringsdata ikke er den mest glamourøse proces, men hvis du vil have ærlige og meningsfulde resultater, er det et nødvendigt ondt.
Dovenskab = “At være doven og kun analysere en metrisk”
Statistikere som genveje. Skønheden i “gennemsnittet” for eksempel er, at den pakker en række værdier og og tal i et enkelt, fordøjeligt ciffer. Rigor er dog nøglen i enhver statistisk analyse, og datatiske forskere skal sørge for, at de ikke tager den nemme vej ud. Selvom det er nemmere at sige “Gruppe A har mere X end gruppe B” og indsamle din lønseddel, er det afgørende at altid se på flere variabler og forstå, hvordan de interagerer.
En undersøgelse om sumo wrestler dødelighed illustrerer mit punkt her. På overfladen er det let at sige “Sumo Wrestlers er overvægtige, derfor er de usunde.” Men når du ser på deres renter af hjertesygdomme og diabetes, vil du opdage, at din konklusion ikke kunne være længere fra sandheden. Hvorfor? Fordi sumo wrestlers er aktive. Meget aktiv. Således ser vi, at simpelthen at bruge metrisk af “BMI” kan føre til vildledende resultater. Men når vi faktor i andre variabler, som “motion”, kan vi tegne et klarere billede af deres helbred.
Grådighed = “Testing for mange hypoteser”
I statistik er der sjældent nogen sikkerheder. Det er ikke som matematik, hvor 1 + 1 altid vil svare til to. Chance og sandsynlighed er brød og smør af statistikker. En statistisk test vil ikke føre til et konkret svar. I stedet håber vi at få en P-værdi lav nok til at sige noget som “Vi er 99% sikre på, at dette er rigtigt.” Vi er aldrig helt sikre. Der er altid et antydning af usikkerhed. Det uventede, på en måde forventes.
En statistisk signifikant P-værdi – lad os tage det meget udbredte .05 – betyder, at der kun er en 5% chance for, at vi ville se resultater denne ekstreme under baselineforhold. Med andre ord, hvis du tror, at du har statistikker, der bukker konventionelle antagelser, er der en 5% chance for, at de simpelthen er en anomali, og antagelserne bør ikke bucked! Så hvis du bliver lidt grådig og begynder at teste en masse hypoteser på én gang, er du bundet til at opnå statistisk signifikans. For eksempel, hvis du tilslutter 20 forudsigere i din model, er der en 65% sandsynlighed for, at man mindst vil opnå statistisk signifikans, simpelthen ved en tilfældighed! Som sådan vil du bygge en streng model, der minimerer usikkerhed og test dine resultater gentagne gange.

Umættelighed = “Konverterer for mange data til for mange dashboards”
I en alder af store data er tal og figurer billigere og lettere at komme forbi. Men som fastfood skal vi være opmærksomme på, hvordan vi spiser dem. Hvis din chef spørger dig om en kvartalsrapport, skal du ikke klikke på hver semi-relevant statistik, du kan finde i rapporten. Prøv i stedet at identificere dine KPI’s-Key Performance-indikatorer. Fokusere på de statistikker, der betyder mest. Dem der vil resonere og påvirke forandring.
Prøv også at finde en måde at lave data på! Få kreativ! Din chef må ikke flyttes af bar diagrammer og line grafer, så det er vigtigt at sætte mennesket tilbage i dataene. I bogafbryderen: Sådan ændres ting Når der skiftes hårdt, beskriver forfatterne et fascinerende eksempel på en dataanalytiker, der opdagede, at hans firma spildte penge, og han ønskede at stoppe det. De købte handsker fra forskellige producenter frem for at reducere omkostningerne ved at købe i bulk. I stedet for at skabe en humdrum powerpoint præsentation købte den enkelte alle de forskellige typer handsker og klistermed dem med deres varierende prismærker. Da ledelsen kom ind og så denne skarpe visuelle repræsentation af deres fejl, var de hurtige til at løse fejlen.
Vrede = “Kongen Af Data ved bedst, og forlader logikken ved døren”
Jeg sætter dette under vrede, fordi dette problem aldrig undlader at gøre mig vred. Opmærksomhed Alle, statistikker handler ikke om at plugge data til computere og lade dem gøre alt arbejdet. Der er kritisk tænkning involveret. Der er behov for mennesker. Selvom vi bruger P-værdier og T-tests i forskellige analyser på tværs af forskellige domæner, har hvert projekt sine egne nuancer og kontekstuelle faktorer, der skal forstås. Og fra nu af kan selv de mest sofistikerede computere ikke gøre det hele.
Hvis du har en stor nok prøve størrelse, kan du finde statistisk signifikans ret regelmæssigt. Men det betyder ikke, at dine resultater er nødvendigvis meningsfulde. Det er vigtigt at tænke kritisk på graden af forskel i dine resultater. En 5-punktsforskel i gennemsnittet SAT-score mellem mænd og kvinder kan vise sig at være statistisk signifikante, men ville den forskel være nok til at kræve definitivt, at et køn er overlegen i at udfylde boblede scantroner? Ak, hvis du har en stor prøvestørrelse, vil du måske nøje sænke din P-værdi og sætte højere standarder for statistisk betydning.
Misundelighed = “Skeler til din nabos data”
Selv vi ydmyge statistikere er tilbøjelige til at være lidt jaloux til tider. Vi ønsker måske at replikere vores konkurrents succes. Vi kan desperat længes efter at møde industriens benchmarks. Men dermed er det vigtigt at anerkende, at vi kan indstille urealistiske mål.
Når vi udfører analyser, er det vigtigt at være så objektiv og upartisk som muligt. Strategier, der er effektive med dine konkurrenter, kan være ineffektive med din særlige kundekreds. Hvis vi ikke tjekker vores bias fra starten, når vi begynder vores forskning, risikerer vi at følge falske stier og få vildledende resultater. Du bør lade dig blive overrasket over dataene og være fortrolig med at nå uventede konklusioner. Lad dataene pege i den rigtige retning. Du må ikke blot kopiere dine konkurrenter.

Der er sikkert andre synder, der kan friste selv de mest dydige statistikere. Men ved at styre disse syv kan vi sikre, at vores arbejde vil blive fundet nyttigt.

De syv dødsynder i dataanalyse

1 kommentar til “De syv dødsynder i dataanalyse”

Hvem er vi

Kommentarer

Cookies

Indlejret indhold fra andre websteder

Hvem vi deler dine data med

Hvor længe vi gemmer dine data

Hvilke rettigheder har du over dine data

Hvor vi sender dine data