Af Philip Diderichsen, Peter Juel Henrichsen, Sabine Kirchmeier og Bolette Sandford Pedersen
Sprogresurser kan deles og genanvendes
Fordi håndopmærket sprogligt materiale er så dyrt at udvikle, er det vigtigt at det kan deles og bruges til flere forskellige formål.
Vi er i Danmark blevet langt bedre til at genanvende elektroniske ordbøger, dvs. både til “almindelig” opslagsbrug og til brug i mange forskellige sprogteknologiske tjenester.
Fx bruges Retskrivningsordbogens grunddata i dag både i bibliotekernes informationssøgning, i Microsoft Words stavekontrol og i Wordfeud.
Men uanset hvor gode vi er til at udnytte resurserne effektivt, ændrer sproget sig løbende, og behovet for at sprogteknologien kan tilpasse sig denne udvikling ligeså.
Der bør derfor satses vedholdende og aktivt på en opdateret værktøjskasse, allerhelst i en åben sprogbank der kan sørge for den nødvendige kontinuitet.
Det er der heldigvis rig mulighed for, eftersom forskellige sprogteknologiske værktøjer som nævnt deler mange principper og metoder. Så man vil i princippet til hver en tid kunne fokusere på én anvendelse og samtidig hjælpe flere andre.
Begynd med stave- og grammatikkontroller
For at stavekontroller skal fungere godt og også kunne hjælpe med grammatik, faste udtryk og måske endda hele tekstens opbygning, kræves der mere omfattende modeller af det danske sprog.
De kan indbefatte forskellige komponenter. En navnegenkender kan fx afgøre at et navn med flere led (fx bogtitler, for- og efternavne eller flerleddede firmanavne) kun skal opfattes som ét ‘ord’ i sammenhængen.
Hvis der er adgang til en komponent med de relevante termer og synonymer, vil systemet også kunne fange “forkerte” eller ukonventionelle faste udtryk, sikre den korrekte terminologi eller foreslå danske alternativer til engelske udtryk.
Flere af disse komponenter kan også indgå i maskinoversættelse, talegenkendelse osv., og kan derfor være relevante til mere end ét formål.
Af den grund findes der repositorier, dvs. hjemmesider hvor man kan deponere både data og værktøjer med en selvvalgt grad af offentlighed, så andre forskere og udviklere kan få glæde af dem.
Repositorium
Et repositorium beskrives i Meyers Fremmedordbog som: ‘Hylde; Boghylde, Bogskab; Opbevaringssted, Gemme’.
Eksempler på repositorier:
- CLARIN (European Research Infrastructure for Language Resources and Technology)
- META-SHARE (META står for Multilingual Europe Technology Alliance).
Resurser og værktøjer ved Center for Sprogteknologi (CST):
- CST’s online-værktøjer
- CST’s sproglige resurser
- Adgang til kode og øvrige sproglige resurser (GitHub).
Aktuelt udvalg om sprogteknologi
Kulturministeriet har iværksat et sprogteknologisk udvalg der i 2018-19 skal kortlægge behovene for dansk sprogteknologi. Læs mere på Dansk Sprognævns hjemmeside og på det sprogteknologiske udvalgs blog, Sprogtek2018.dk.
Denne tekst er et redigeret uddrag af sidste del af artiklen “Hverdagens sprogteknologi nu og i fremtiden” af Philip Diderichsen, Peter Juel Henrichsen, Sabine Kirchmeier og Bolette Sandford Pedersen, bragt i Nyt fra Sprognævnet 2016/1 .
Læs mere om de politiske og strategiske overvejelser i artiklen.
NB! Sprogteknologi udvikler sig hurtigt
Ligesom al anden teknologi udvikler sprogteknologien sig i en rasende fart, så når denne artikel læses, har nye generationer af teknologien allerede set dagens lys. Redaktionen og forfatterne tager derfor forbehold for at oplysningerne i dette tema kan være forældede. Temaet er redigeret og offentliggjort i maj 2018.