Forskningsingenjörer på Språkbanken Text vid Göteborgs universitet har för första gången samlat alla nyhetstexter på SVT:s webbplats i ett sökbart format. Textsamlingen, eller korpusen, gör det möjligt att göra större automatiska textanalyser på forskningsdatan. – Det är många som är intresserade av materialet eftersom det gör det möjligt att analysera modernt vårdat språk, säger Anne Schumacher som är huvudansvarig för arbetet.
Behovet av att samla in materialet uppstod i arbetet med Svensk ordbok (SO) och Svenska akademiens ordlista (SAOL) som bedrivs vid institutionen för svenska språket. Redaktionsgruppen ville ha ett referensmaterial för att veta vilka nya ord som uppstår, hur frekventa orden är och hur de används. Då är modern nyhetstext lämplig.
– Korpusen innehåller alla nyhetstexter som finns på SVT:s webbplats sedan 2004 fram till september 2021 och ger ett rikt underlag för modern vårdad svenska. Det här kan man jämföra med att några av våra andra korpusar består av texter från exempelvis Flashback eller Familjeliv där det finns en helt annan språkanvändning – som inte klassificeras som vårdad text – men som är intressant på sitt sätt, säger Anne.
SVT:s nyhetstexter intressanta för många
Eftersom SVT:s texter ligger fritt tillgängliga på internet har arbetet med att samla in materialet varit relativt enkelt.
– Vi tog fram ett script som hämtade ut alla artiklar från SVT:s API, alltså deras nättjänst som hämtar informationen från deras databas. Det var väl den svåraste delen av arbetet eftersom den inte är avsedd att användas av någon annan än deras egna webbsida. Vi fick testa och gissa lite innan vi kom fram till hur vi skulle göra.
Textsamlingen har sedan omarbetats för att kunna bli till en sökbar textsamling i korpusverktyget Korp. Eftersom texterna från SVT är i ett välstrukturerad digitalt format med rik metadata – dvs att man tydligt kan se vad som är en avgränsad artikel, vilken författaren är, när den har skapats och vilket ämne den handlar om – har materialet varit tacksamt att arbeta med.
– Bra metadata gör en textsamling mer värdefull eftersom den delvis styr hur man kan använda resursen. Detta gör också att korpusen inte bara kommer att vara användbar för vår ordboksredaktion, förklarar Anne och fortsätter:
– Det är många som är intresserade av materialet eftersom det gör det möjligt att analysera modernt vårdat språk över tid. Sedan tidigare erbjuder Språkbanken Text Göteborgs-Postens samlade texter men de sträcker sig bara fram till 2013 vilket gör att man inte har kunnat analysera användningen av ord efter det. SVT:s texter blir en fortsättning och ett bra komplement till det materialet.
Uppdateras två gånger per år
Planen är att korpusen nu ska uppdateras två gånger om året. Varje halvår ska man lägga till de texter som tillkommit och dessutom kommer korpusen att delas upp årsvis.
– Just nu ligger allt material samlat i en enda korpus men det är egentligen lite opraktiskt. Med en årsvis uppdelning går den snabbare att uppdatera och det går att göra bättre sökningar i materialet. Exempelvis skulle man med den nya uppdelningen kunna göra sökningar för att se hur ett särskilt ord används ett år i jämförelse med andra år – det tror jag är väldigt värdefullt!
Text: Sven Lindström
Fakta om korpusen
Korpusen SVT Nyheter består av 200 miljoner tokens. En token är ungefär att likställa med ett ord men en token också kan innebära exempelvis skiljetecken. Korpusen finns sökbar i sökverktyget Korp men hela materialet, med ordfrekvenser och automatiskt framtagna textanalyser, finns också nedladdningsbart om du vill använda det utanför Korp. Ladda ner korpusen här.
Korp är Språkbanken Texts korpusverktyg där du kan söka i stora mängder text från bland annat dagstidningar, skönlitteratur och sociala medier. Läs mer och använd verktyget Korphär.