Data science har seglat upp som forskningsparadigm
Området ”data science” handlar om hur man behandlar, analyserar och utvinner kunskap från mycket stora datamängder, det man brukar kalla ”big data”. Området växer lika explosionsartat som datamängderna i sig och IT-fakulteten har sedan några år tillbaka ett masterprogram inom data science. En av de största utmaningarna är den tvärvetenskapliga kompetens som behövs för att få ut mesta möjliga av datamängderna.
Vad gör vi med alla datamängder som genereras runt om i samhället? Vad innebär de för möjligheter och risker ur ett samhällsperspektiv? Vad kan de tillföra forskningen? Hur kan man samköra dem? Och hur undviker vi att datamängderna feltolkas?
Området data science, storskalig databehandling, har vuxit fram som ett resultat av de senaste årens ökade tillgång till en allt större mängd komplex data. Datamängderna har inneburit helt nya möjligheter för vitt skilda fält, från kartläggning av arvsmassa till att göra affärsanalyser och att förutspå klimatscenarier. Data science används även inom många områden som ett stöd för beslutsfattande, där de mönster som kan urskiljas i befintliga datamängder blir ett underlag för prognoser inför framtiden.
Berör alla områden där datamängder genereras
Data science berör alla områden där stora mängder data genereras – och vilka områden genererar inte data idag? Kollektivtrafiken, sökningar på internet, sjukjournaler, passerkort, övervakningskameror, intrångsdetektering, EAN-koder, försäkringskassans statistik, GPS-er, samtalsstatistik, ekonomiska transaktioner, miljöstationer, färdskrivare, inbyggda datorer i hemelektronik och i våra bilar, incidentrapportering, rörelsedetektorer, datorer i maskinparker i industrin. Listan blir oändlig.
Något som är utmärkande för data science som område är att det är tekniken som i stor utsträckning styr utvecklingen; vilket både innefattar att datamängderna genereras, att det sedan finns möjligheter att lagra dem – och slutligen att det finns datorprogram som gör analyserna möjliga.
Komplex kombination av teknik, tvärvetenskap och analys
Utvecklingen ställer stora krav på de datavetare och analytiker som ska hantera tekniken och datamängderna, eftersom området befinner sig i skärningspunkten mellan statistik, artificiell intelligens och databashantering. För att få något användbart ur de enorma datamängderna måste man ställa rätt frågor, kombinera och samköra väldefinierade datamängder på ett mycket genomtänkt sätt – och ha mycket god analytisk kunskap för att tolka de resultat man får och vilka variabler som påverkat vad.
Att ägna sig åt data science kräver goda kunskaper i det område man utforskar, oavsett om det handlar om biologiska data, webbstatistik eller data genererad från finansmarknaden. Det ställer krav på tvärvetenskapligt arbete, att biologen eller börsmäklaren har insikter i förutsättningarna när man ska analysera datamängder och vice versa – att datavetaren behärskar och förstår villkor och samband inom det område som ska undersökas.
Nya möjligheter för forskningen – och krav på ny forskning
Helt nya möjligheter har också uppstått inom forskningen, där man ur datamängderna kan extrahera forskningsmaterial som tidigare inte varit åtkomliga. Det handlar både om mer välkänd forskning som kartläggning av DNA till exempel, men också om nya forskningsområden som uppstått just för att datamängderna gör det möjligt.
En annan aspekt är att det nu krävs forskning på området som sådant – hur hanterar vi de enorma datamängderna på det mest optimala sättet?
Text: Catharina Jerkbrant