De syv dødsynder i dataanalyse

Bær over med mig i dette forsøg på at smelte dødssynder og videnskab sammen.

  1. Stolthed = “Tænker du ved bedre end dataene”
    Lad os se det, grunden til, at vi analyserer data i første omgang, skyldes, at vi ikke har alle svarene. Intuition kan ofte lede på afveje, og efter en hunch kan koste millioner. Selvom det kan ydmyge for at anerkende vores begrænsninger og uvidenhed, skal vi respektere og revne data. Selv når det går imod vores ekspertise.
    Sig du er en hjertekirurg, der forsøger at bestemme mellem to operationer på en patient. Fra din oplevelse mener du, at proceduren A er overlegen, fordi du husker mange patienter, der klager efter proceduren B. Der er dog et overbevisende bevismateriale, der tyder på, at proceduren B overstiger proceduren A på en række forskellige sundhedsresultater. Ignorerer du disse data og går med din tarm? Lad du anekdoter overskygger fakta?
  2. Lyst = “Forbindelser med urene, men lokkende data”
    De data, der vinder op i analytikernes hænder, er ofte rå og meget beskidte. Manglende værdier, outliers og transkriptionsfejl vrimler. Selv om det kan være fristende at ignorere disse problemer, skal vi sætte på vores kyskhedsbælter og få rengøring.
    Den bedste måde at gøre dette på er at tage et kig på din beskrivende statistik. Lav nogle histogrammer. Graf et par scatter-plots. Tjek dine normalitetsforudsætninger og prøv at identificere eventuelle datapunkter, der virker ude af whack. Ellers løber du risikoen for, at dine resultater bliver skævt. Jeg bliver den første til at indrømme, at rengøringsdata ikke er den mest glamourøse proces, men hvis du vil have ærlige og meningsfulde resultater, er det et nødvendigt ondt.
  3. Dovenskab = “At være doven og kun analysere en metrisk”
    Statistikere som genveje. Skønheden i “gennemsnittet” for eksempel er, at den pakker en række værdier og og tal i et enkelt, fordøjeligt ciffer. Rigor er dog nøglen i enhver statistisk analyse, og datatiske forskere skal sørge for, at de ikke tager den nemme vej ud. Selvom det er nemmere at sige “Gruppe A har mere X end gruppe B” og indsamle din lønseddel, er det afgørende at altid se på flere variabler og forstå, hvordan de interagerer.
    En undersøgelse om sumo wrestler dødelighed illustrerer mit punkt her. På overfladen er det let at sige “Sumo Wrestlers er overvægtige, derfor er de usunde.” Men når du ser på deres renter af hjertesygdomme og diabetes, vil du opdage, at din konklusion ikke kunne være længere fra sandheden. Hvorfor? Fordi sumo wrestlers er aktive. Meget aktiv. Således ser vi, at simpelthen at bruge metrisk af “BMI” kan føre til vildledende resultater. Men når vi faktor i andre variabler, som “motion”, kan vi tegne et klarere billede af deres helbred.
  4. Grådighed = “Testing for mange hypoteser”
    I statistik er der sjældent nogen sikkerheder. Det er ikke som matematik, hvor 1 + 1 altid vil svare til to. Chance og sandsynlighed er brød og smør af statistikker. En statistisk test vil ikke føre til et konkret svar. I stedet håber vi at få en P-værdi lav nok til at sige noget som “Vi er 99% sikre på, at dette er rigtigt.” Vi er aldrig helt sikre. Der er altid et antydning af usikkerhed. Det uventede, på en måde forventes.
    En statistisk signifikant P-værdi – lad os tage det meget udbredte .05 – betyder, at der kun er en 5% chance for, at vi ville se resultater denne ekstreme under baselineforhold. Med andre ord, hvis du tror, ​​at du har statistikker, der bukker konventionelle antagelser, er der en 5% chance for, at de simpelthen er en anomali, og antagelserne bør ikke bucked! Så hvis du bliver lidt grådig og begynder at teste en masse hypoteser på én gang, er du bundet til at opnå statistisk signifikans. For eksempel, hvis du tilslutter 20 forudsigere i din model, er der en 65% sandsynlighed for, at man mindst vil opnå statistisk signifikans, simpelthen ved en tilfældighed! Som sådan vil du bygge en streng model, der minimerer usikkerhed og test dine resultater gentagne gange.
  1. Umættelighed = “Konverterer for mange data til for mange dashboards”
    I en alder af store data er tal og figurer billigere og lettere at komme forbi. Men som fastfood skal vi være opmærksomme på, hvordan vi spiser dem. Hvis din chef spørger dig om en kvartalsrapport, skal du ikke klikke på hver semi-relevant statistik, du kan finde i rapporten. Prøv i stedet at identificere dine KPI’s-Key Performance-indikatorer. Fokusere på de statistikker, der betyder mest. Dem der vil resonere og påvirke forandring.
    Prøv også at finde en måde at lave data på! Få kreativ! Din chef må ikke flyttes af bar diagrammer og line grafer, så det er vigtigt at sætte mennesket tilbage i dataene. I bogafbryderen: Sådan ændres ting Når der skiftes hårdt, beskriver forfatterne et fascinerende eksempel på en dataanalytiker, der opdagede, at hans firma spildte penge, og han ønskede at stoppe det. De købte handsker fra forskellige producenter frem for at reducere omkostningerne ved at købe i bulk. I stedet for at skabe en humdrum powerpoint præsentation købte den enkelte alle de forskellige typer handsker og klistermed dem med deres varierende prismærker. Da ledelsen kom ind og så denne skarpe visuelle repræsentation af deres fejl, var de hurtige til at løse fejlen.
  2. Vrede = “Kongen Af Data ved bedst, og forlader logikken ved døren”
    Jeg sætter dette under vrede, fordi dette problem aldrig undlader at gøre mig vred. Opmærksomhed Alle, statistikker handler ikke om at plugge data til computere og lade dem gøre alt arbejdet. Der er kritisk tænkning involveret. Der er behov for mennesker. Selvom vi bruger P-værdier og T-tests i forskellige analyser på tværs af forskellige domæner, har hvert projekt sine egne nuancer og kontekstuelle faktorer, der skal forstås. Og fra nu af kan selv de mest sofistikerede computere ikke gøre det hele.
    Hvis du har en stor nok prøve størrelse, kan du finde statistisk signifikans ret regelmæssigt. Men det betyder ikke, at dine resultater er nødvendigvis meningsfulde. Det er vigtigt at tænke kritisk på graden af ​​forskel i dine resultater. En 5-punktsforskel i gennemsnittet SAT-score mellem mænd og kvinder kan vise sig at være statistisk signifikante, men ville den forskel være nok til at kræve definitivt, at et køn er overlegen i at udfylde boblede scantroner? Ak, hvis du har en stor prøvestørrelse, vil du måske nøje sænke din P-værdi og sætte højere standarder for statistisk betydning.
  3. Misundelighed = “Skeler til din nabos data”
    Selv vi ydmyge statistikere er tilbøjelige til at være lidt jaloux til tider. Vi ønsker måske at replikere vores konkurrents succes. Vi kan desperat længes efter at møde industriens benchmarks. Men dermed er det vigtigt at anerkende, at vi kan indstille urealistiske mål.
    Når vi udfører analyser, er det vigtigt at være så objektiv og upartisk som muligt. Strategier, der er effektive med dine konkurrenter, kan være ineffektive med din særlige kundekreds. Hvis vi ikke tjekker vores bias fra starten, når vi begynder vores forskning, risikerer vi at følge falske stier og få vildledende resultater. Du bør lade dig blive overrasket over dataene og være fortrolig med at nå uventede konklusioner. Lad dataene pege i den rigtige retning. Du må ikke blot kopiere dine konkurrenter.

    Der er sikkert andre synder, der kan friste selv de mest dydige statistikere. Men ved at styre disse syv kan vi sikre, at vores arbejde vil blive fundet nyttigt.

Der er lukket for kommentarer.

Vi bruger cookies til at tilpasse indhold og annoncer, til at levere funktioner på sociale medier og til at analysere vores trafik. Vi deler også oplysninger om din brug af vores websted med vores sociale medier, reklame- og analysepartnere. Se mere
Cookie indstillinger
Accepter
Privatlivsindstillinger
Cookie- og Privatlivspolitik
Cookie navn Aktiv

Hvem er vi

Vi er FM Connect
CVR: 42363103
Vores webstedsadresse er: https://fmconnect.dk.

Kommentarer

Når besøgende skriver kommentarer på webstedet, indsamler vi de data, som vises i kommentarformularen, og også den besøgendes IP-adresse og browserens user agent string for at hjælpe med at opdage spam.

En anonymiseret streng som er oprettet ud fra din e-mailadresse (også kaldet et hash), kan leveres til Gravatar tjenesten for at se om du bruger denne. Gravatar tjenestens privatlivspolitik er tilgængelig her: https://automattic.com/privacy/. Efter godkendelse af din kommentar, vil dit profilbillede være synligt for offentligheden sammen med din kommentar.

Cookies

Hvis du skriver en kommentar på vores websted, kan du vælge at gemme dit navn, e-mailadresse og websted i cookies. Disse er til din bekvemmeligehed, så du ikke skal udfylde dine oplysninger igen, når du skriver endnu en kommentar. Disse cookies vil holde i et år.

Hvis du besøger vores loginside, opretter vi en midlertidig cookie for at afgøre om din browser accepterer cookies. Denne cookie indeholder ingen personlige data og slettes, når du lukker din browser.

Når du logger ind, vil vi opsætte en række cookies og gemme din logininformation og dine valg af skærmvisning. Login cookies holder i to dage, og skærmvalg cookies holder i et år. Hvis du vælger "Husk mig", vil dit login holde i to uger. Hvis du logger ud af din konto, vil login cookierne forsvinde.

Hvis du redigerer eller udgiver en artikel, vil en yderligere cookie blive gemt i din browser. Denne cookie indeholder ikke nogle personlige data og opgiver simpelthen indlægsID på den artikel, du lige har redigeret. Den udløber efter 1 dag.

Indlejret indhold fra andre websteder

Artikler på dette websted kan indeholde indlejret indhold (f.eks. videoer, billeder, artikler osv.). Indlejret indhold fra andre websteder opfører sig på nøjagtig samme måde, som hvis den besøgende har besøgt det andet websted.

Disse websteder indsamler måske data om dig, bruger cookies, indlejrer ekstra tredjeparts sporing, og overvåger din interaktion med dette indlejrede indhold, heriblandt at spore din interaktion med indlejret indhold, hvis du har en konto og en logget ind på det websted.

Hvem vi deler dine data med

Hvis du anmoder om en nulstilling af adgangskoden, medtages din IP-adresse i e-mailen med nustillingen.

Hvor længe vi gemmer dine data

Hvis du skriver en kommentar, så bliver kommentarer og dens metadata bevaret på ubestemt tid. Dette er så vi kan genkende og godkende enhver opfølgende kommentar automatisk i stedet for at have dem i en moderationskø.

Hvilke rettigheder har du over dine data

Hvis du har en konto på dette websted, eller har skrevet kommentarer, kan du bede om en eksporteret fil med de personlige data vi har liggende om dig, heriblandt alt data, du har givet os. Du kan også bede om, at vi sletter alle personlige data, vi har om dig. Dette indbefatter ikke nogen form for data, som vi er forpligtede til at gemme af administrative, lovmæssige eller sikkerhedsmæssige grunde.

Hvor vi sender dine data

Besøgendes kommentarer kan muligvis blive kontrolleret af en automatisk spam-genkendelse tjeneste.

Gem indstillinger
Cookie indstillinger