Sprogteknologi

Sprogteknologi gør det muligt at analysere, genkende eller producere menneskeligt sprog. Det bruges fx i talegenkendelse og maskinoversættelse. Læs om hvad sprogteknologi er, og hvordan det virker.

Af Philip Diderichsen, Peter Juel Henrichsen, Sabine Kirchmeier og Bolette Sandford Pedersen

Sprogteknologi vinder mere og mere indpas i vores dagligdag, nemlig i de digitale værktøjer vi bruger privat og på arbejde, både i den offentlige og private sektor. Her kan du blive klogere på hvad sprogteknologi egentlig er.

Hvad er sprogteknologi?

Sprogteknologi er ifølge Den Danske Ordbog ‘datalogiske metoder, computerprogrammer el. elektroniske apparater der er i stand til at analysere, genkende el. producere menneskeligt sprog, fx brugt til talegenkendelse, syntetisk tale el. maskinoversættelse’.

Sprogteknologi bruges til stavekontroller, til oplæsning af stoppesteder i bussernes højtalere, til automatisk oversættelse mellem fx dansk og engelsk og meget andet.

Læs mere om sprogteknologi

Læs Peter Juel Henrichsens artikel om sprogteknologi på Dansk Sprognævns sprogteknologiske udvalgs blog, Sprogtek2018: Peter Juel Henrichsen: Hvad er sprogteknologi?

Basiskomponenter til sprogteknologi

De forskellige sprogteknologiske værktøjer bruger i vid udstrækning de samme basiskomponenter. Grundlæggende er der to metoder til at foretage automatisk analyse af sprog: regelbaserede modeller og statistiske modeller.

I udviklingen af sprogteknologi er der rige muligheder for at slå flere fluer med ét smæk ved at forbedre de sprogteknologiske basiskomponenter så de bliver bedre – især til at håndtere dansk – og det ligger der et spændende potentiale i.

Forskellige kombinationer af sprogteknologiske komponenter kan udnyttes til

  • oversættelse
  • brug af store tekstkorpusser til vigtig grundforskning i sproget
  • kundetilfredshedsundersøgelser ved big data-analyse og “text mining” (dvs. statistiske undersøgelser af store mængder af fx tweets)
  • hurtigere sagsbehandling (fx diktering af journaler)
  • støtte og hjælpemidler til ordblinde
  • forbedring af tekniske hjælpemidler (fx udvikling af høreapparater)
  • menneske-maskine-interaktion (fx talestyrede industrirobotter og robotter til ældrepleje)
  • oplevelseskoncepter (fx computerspil)
  • … og nye emner som ingen endnu har tænkt på.

Men det er dyrt at lave de nødvendige sprogteknologiske basiskomponenter, og erfaringen viser at Danmark er så lille at danske sprogteknologifirmaer har svært ved at trives på rene markedsvilkår.

Derfor er meget af den sprogteknologi vi kender fra hverdagen, blevet udviklet af internationale firmaer, der ikke prioriterer relativt små sprog som dansk så højt, og som derfor heller ikke nødvendigvis benytter sig af danske sprogeksperter.

Mange synes der er behov for en sprogstrategi der tilgodeser dansk sprogteknologi på danske præmisser.

Læs mere om de strategiske overvejelser inden for sprogteknologi i afsnittet Videre med dansk sprogteknologi.

Hvorfor er sprogteknologi dyr?

Sprogteknologi handler teknisk set om analyse og opmærkning af sprogligt input.

Tag fx talesyntese: Skal bande have en udtale der rimer på vande, eller en der rimer på vante? Det kan løses ved hjælp af grammatisk opmærkning. Hvis bande enten får etiketten ‘verbum’ eller ‘substantiv’, giver udtalen sig selv; de rimer på hhv. vande og vante.

Hvis de teknologiske sprogtjenester skal kunne håndtere betydningsforskellen på om ordet skade refererer til ‘en fugl’ eller til ‘en beskadigelse’, må der derimod sættes betydningskategorier på ordet.

Der er overordnet set to måder at opmærke på:

  1. via sandsynligheder beregnet statistisk ud fra andre data der er opmærket i forvejen – dvs. af mennesker
  2. via regler formuleret ud fra sproglig grundviden.

Begge metoder er dyre fordi man i begge tilfælde er afhængig af den menneskelige indsats med opmærkningen af ordene, dels grammatisk med ordklasse mv., dels semantisk med betydningsdetaljer.

Bliv klogere på talesyntese og talegenkendelse

Læs mere om hvordan man omsætter tekst til tale og tale tekst ved hjælp af computerteknologi i afsnittet Talesyntese og talegenkendelse.

Den statistiske tilgang

Den statistiske tilgang er den fremherskende i øjeblikket, og der er derfor fokus på indsamling og opmærkning af store mængder grunddata.

Selve de store datamængder er blevet nemmere at få fat på, for når først et system som fx Google Oversæt eller Apples Siri kører, genererer det en konstant brusende strøm af sproglige data. Og de statistiske opmærkningsalgoritmer raffineres hele tiden.

Efterhånden som systemerne ser flere og flere data, bliver de bedre og bedre til at håndtere ord- og sætningsmønstre.

Udviklingen går i retning af at systemerne selv hjælper til med at udvælge data de har brug for at lære mere om, og som der derfor skal opmærkes flere af; en tilgang der går under navnet aktiv læring.

Men ofte skal materialet stadig opmærkes af mennesker, og det er den menneskelige indsats der koster penge – både de sprogeksperter der opmærker materialet, og de sprogteknologer der programmerer de sprogteknologiske værktøjer.

Den regelbaserede tilgang

Den regelbaserede tilgang er selvsagt også meget dyr på grund af de mange sprogregler der skal formuleres af ordbogsredaktører og sprogeksperter.

Teksten er et redigeret uddrag af første del af artiklen “Hverdagens sprogteknologi nu og i fremtiden” af Philip Diderichsen, Peter Juel Henrichsen, Sabine Kirchmeier og Bolette Sandford Pedersen, bragt i Nyt fra Sprognævnet 2016/1.

NB! Sprogteknologi udvikler sig hurtigt

Ligesom al anden teknologi udvikler sprogteknologien sig i en rasende fart, så når denne artikel læses, har nye generationer af teknologien allerede set dagens lys. Redaktionen og forfatterne tager derfor forbehold for at oplysningerne i dette tema kan være forældede. Temaet er redigeret og offentliggjort i maj 2018.