Så kan vi lita på big data - Del 2

Det varnas för en övertro på big data - att det är en hajp som inte motsvarar verkligheten. Men big data går att göra pålitliga, det enda vi behöver göra är att förstå dem fullt ut. Här är affärsdataanalytikern Ida Bodéns andra och sista del av hennes presentation av hur vi kan lära oss att lita på big data. 

Computer Sweden publicerade nyligen en artikel som lyfter fram åtta begränsningar med big data. Bakom begränsningarna står de amerikanska forskarna Ernest Davis och Gary Marcus som också konstaterar att big data är en hajp som inte motsvarar verkligheten.

Nedan följer de sista fyra av Ernest Davis och Gary Marcus åtta begränsningar med big data, som sammanfattade av Computer Sweden, samt mina personliga reflektioner på hur vi kan överkomma dem.

 De första fyra kan du läsa om här


5. Det kan uppstå en ekokammare-effekt där informationen studsar runt och förstärker sig själv. Det kan exempelvis handla om verktyg som Google Translate som för att lära sig språkmönster använder sig av att jämföra samma text på olika språk - exempelvis genom att titta på samma uppslagsord på olika språk i Wikipedia. Men samtidigt används ofta Google Translate för att översätta uppslagsord in i Wikipedia. Det gör att fel som funnits i Google Translate från början, går in i Google Translate igen och förstärks. 

Även detta är ett problem för att man inte förstår de ingående datan. Förhoppningsvis kunde de som gjorde denna algoritm förutse problemet. Var ifrån hämtas de data som ens modeller ska byggas på? Det är en mycket viktig fråga.


6. För många korrelationer. Om man letar hundra gånger för att se om två kurvor samvarierar så kommer de att dyka upp fem tillfällen där de ser ut att verka statistiskt signifikanta även om det egentligen inte finns något samband. 

Detta är ett mycket vanligt problem när man tittar på få faktorer samtidigt. Med multivariat dataanalys där flera tusen olika faktorer kan analyseras samtidigt får man fram de korrelationer som verkligen är samma. Man ska aldrig bara förlita sig på en analysmetod. Kurvorna i påståendet kan till exempel vara tidsserier av olika slag. Förutom tidsserieanalyser kan en principalkomponentsanalys avslöja om kurvorna verkligen skiljer sig åt eller har signifikanta likheter.



7. Big data kan ge skenbart tillförlitliga svar på imprecisa frågor. Exempelvis har försök att ranka personer efter deras historiska betydelse genom att analysera data från Wikipedia inte hamnat helt rätt. Allt för att frågan i grunden är alltför vag. 

Big data är inget magiskt trollspö. Man måste veta vad man gör och man måste ha koll på vilket typ av svar man behöver för att kunna ställa adekvata frågor. En felaktig fråga ger ett felaktigt svar även om det är en korrekt algoritm bakom modellen.


8. Big data är som bäst när man ska analysera sådant som är vanligt förekommande men betydligt sämre när det gäller mindre vanliga saker. När exempelvis text analyseras används ofta så kallade trigram, tre ord i rad. Men datamängderna är helt enkelt aldrig tillräckligt stora för att rymma alla de möjliga kombinationer av tre ord som människor kan tänkas använda eftersom språket konstant förnyas.

Med de analyser vi gör kan vi förvisso förutspå framtiden, men endast utifrån den erfarenhet vi har skaffat oss historiskt. Världen är i ständig förändring, verkligheten är där vi är exakt i den stund vi är. En sekund sedan är dåtid och nästa kommande sekund är framtid. Vi vet var vi varit men vi kan aldrig med 100% säkerhet säga vad som ska komma. Det är exakt på samma sätt med data. Vi kan aldrig samla in data, och bygga modeller, på sådant som skall komma utan endast på det som redan finns. En sak vet vi dock, ju mer erfarenhet vi har desto säkrare kan vi förutse framtiden. Big data är stort, men det blir allt större. Våra modeller blir säkrare och säkrare för varje dag och inom en snar framtid har vi tillräckligt mycket data för att det som nu är mindre vanligt förekommande har förekommit tillräckligt många gånger för att vi ska kunna förutse även liknande mindre vanliga saker. Detta, mina vänner, är alltså bara en fråga om tid.

Som med så mycket annat är kunskap nyckeln även till begränsningarna med big data. Här är mina tips för att konkret komma runt de ovan beskrivna begränsningarna.

  • Förstå dina data. Datans natur och vad du kan få ut för något av de data du har.
  • Förstå vad analysen egentligen gör och vilket typ av svar det ger och varför du får just det svaret.
  • Förstå att datan, och därmed att de analyser du gör, inte är statiska. Analyserna måste ständigt ses över och kontrolleras.
  • Förstå att den modell du sitter med är just en modell av verkligheten och inte verkligheten i sig. Det finns alltid något okänt som du antingen missar eller råkar få med dig i din modell.

Text: Ida Bodén

Ida Bodén är affärsdataanalytiker och grundare av företaget iViDA. Med en bakgrund som filosofie doktor inom kirurgi och biofysikalisk kemi med inriktning mot multivariat dataanalys hjälper hon forskare, organisationer och företag att skapa nya insikter ur befintliga eller nya data. Ida håller också kursen Dataanalys i praktiken på DF Kompetens.