Breadcrumb

Nationella språkbanken förbättrar digitaliseringen av dagstidningar

Nu är det klart att Nationella språkbanken och Kungliga biblioteket ingår i ett samarbete för att förbättra processen vid massdigitalisering av text. Projektet, som löper 2019–2020, kommer att vara en viktig del i den pågående digitaliseringen av dagstidningar vid Kungliga biblioteket.

 
Bild: Kungliga biblioteket

Kungliga bibliotekets databas med svenska dagstidningar innehåller idag material från över 400 titlar, från 1645 till idag, och databasen utökas ständigt. Samtidigt har datadriven forskning de senaste åren blivit ett centralt begrepp inom humaniora och samhällsvetenskap och tekniken för att överföra bild till maskinläsbar text är av avgörande betydelse inom båda fälten.

Image
Dana Dannélls
Photo: Jessica Oscarsson

Dana Dannélls från Nationella språkbanken menar att projektet har goda chanser att förbättra digitaliseringsprocessen.

- Bland annat kommer vi att genomföra en utvärdering och förbättring av de redskap som används i digitaliseringen, så kallad Optical Character Recognition (OCR). Främst gäller det att förbättra dessa redskap genom systematiska textanalyser, lexikon och ordlistor, säger Dana Dannélls.

Digitaliserad text – möjligheter och krav

Det digitala formatet möjliggör helt nya sätt att bearbeta text som det tryckta formatet tidigare inte har kunnat erbjuda. När den digitala texten bearbetas algoritmiskt ökar dock kraven på tillförlitlighet, och OCR-tekniken är central för att göra tidningsresurser tillgängliga. Faktorer som tryckteknik, layout och papperskvalitet försämrar dock ofta korrektheten hos den OCR-producerade texten och detta hoppas nu deltagarna i projektet att avhjälpa genom att utveckla en modul för OCR-bearbetning som kan justeras för att matcha ett specifikt källmaterial.

- Språkbanken har stora mängder historisk text som är fritt sökbar via sökverktyget Korp. En del av texterna i Språkbankens databas är digitaliserade dagstidningar som kommer från Kungliga biblioteket. Genom att minska OCR-felen i dessa kommer tillgänglighet till materialet förbättras, säger Dana Dannélls.

Projektet finansieras med 1 689 000 SEK från Riksbankens Jubileumsfond och förväntas pågå mellan januari 2019 och december 2020. Deltar i projektet gör Dana Dannélls från Nationella språkbanken tillsammans med Lars Björk och Torsten Johansson vid Kungliga Biblioteket.

Läs mer om projektet här

Till Språkbankens webbplats