Forskningsmiljön ”Mormor Karl är 27 år: automatisk pseudonymisering av forskningsdata” har getts nästan 18 miljoner i bidrag från Vetenskapsrådet.

Foto: Montage av bilder från Pixabay och Unsplash.

”Mormor Karl” ska göra personuppgifter anonyma

Publicerad

8 november 2022

vid

Institutionen för svenska, flerspråkighet och språkteknologi

Texter som används som forskningsdata får inte innehålla personuppgifter som kan avslöja riktiga personer, något som i dag ofta hindrar forskare från att fritt använda textmaterialet. Forskningsmiljön ”Mormor Karl är 27 år” har getts nästan 18 miljoner kronor i bidrag från Vetenskapsrådet för att utveckla språkteknologiska algoritmer som automatiskt byter personuppgifter till en pseudonym i texter.

- I dag finns det risk att personer som nämns i ord i olika textmassor går att identifiera. Det kan vara med namn eller yrke, men också annan känslig information som politiska åsikter, berättar Elena Volodina, forskare vid Språkbanken Text vid Institutionen för svenska, flerspråkighet och språkteknologi.

Elena Volodina är huvudsökande till Vetenskapsrådet för forskningsmiljön Mormor Karl är 27 år: automatisk pseudonymisering av forskningsdata som i november getts 17,6 miljoner kronor i bidrag. Under de sex kommande åren ska gruppen systematiskt studera pseudonymer i större textmassor. Målet är att skapa språkteknologiska algoritmer som kan upptäcka personuppgifter och känslig information i stora textmassor och automatiskt ersätta orden med lämpliga pseudonymer. På så sätt kan personuppgifter skyddas och alla texter användas i olika slags forskning.

Algoritmer ska upptäcka personuppgifter automatiskt

Mormor Karl är 27 år samlar forskare från tre vetenskapliga discipliner: språkteknologi, datavetenskap och dataintegritet, samt lingvistik och språkinlärning. Tre nordiska universitet är engagerade i forskningsmiljön: Göteborgs universitet, Umeå universitet och Helsingfors universitet.

Forskarna i Mormor Karl är 27 år ska inledningsvis ringa in olika typer av identifikationer, alltså vad i texten som avgör om det är en personuppgift eller inte. Därefter kan de skapa språkteknologiska algoritmer som söker efter dessa identifikationer och ordet kan automatiskt bytas ut till ett annat.

Exempel på hur det skulle kunna se ut när de språkteknologiska algoritmerna testas för att byta ord till pseudonymer.

Flera utmaningar ska lösas

För att kunna utveckla språkteknologiska algoritmer som upptäcker, markerar och ersätter personuppgifter behöver forskargruppen lösa olika utmaningar. Till exempel hur stavfel och flertydiga ord automatiskt ska upptäckas, men också säkerställa att texten som helhet stämmer överens med kontexten.

- Vi kommer också att analysera hur den här pseudonymiseringen påverkar texterna för andra forskare som i nästa led ska använda dem i sin egen forskning, säger Elena Volodina. Det kan vara att undersöka hur läsbarheten förändras när personuppgifter byts ut, eller vilket forskningsvärde de anonymiserade texterna kan ha för studier av till exempel språkinlärning.

Verktyget ska göras öppet och tillgängligt

Till en början utgår forskarna i Mormor Karl är 27 år från fritt skrivna texter, som studentuppsatser och sociala medier. När metoderna och de språkteknologiska algoritmerna är testade och med säkerhet fungerar på olika typer av texter kommer verktyget att göras tillgängligt för användning.

- Med den här forskningsmiljösatsningen kan vi stödja svenskt arbete med öppen tillgång till forskningsdata, säger Elena Volodina.

Text: Karin Wenzelberg

Medverkande i forskningsmiljön "Mormor Karl är 27 år: automatisk pseudonymisering av forskningsdata"

Elena Volodina, Institutionen för svenska, flerspråkighet och språkteknologi, Göteborgs universitet
Simon Dobnik, Institutionen för filosofi, lingvistik och vetenskapsteori, Göteborgs universitet
Xuan-Son Vu, Institutionen för datavetenskap, Umeå universitet
Therese Lindström Tiedemann, Department of Finnish, Finnougrian and Scandinavian studies, Helsingfors universitet
Två doktorander - en vid Göteborgs universitet och en vid Helsingfors universitet

Område

Kultur & språk Naturvetenskap & IT

Relaterat innehåll

Språkbanken Text

Institutionen för svenska, flerspråkighet och språkteknologi

Hos oss arbetar studenter, lärare och forskare med det svenska språket på alla tänkbara sätt. Vi undersöker hur svenskan ser…