Du er her: Forside Temaer Sprogteknologi Maskinoversættelse

Maskinoversættelse

Maskinoversættelse oversætter fra et sprog til et andet. Læs her hvordan det virker.
MaskinoversættelseMaskinoversættelse oversætter fra et sprog til et andet. Læs her hvordan det virker.

Af Philip Diderichsen

Hvad karakteriserer egentlig en god oversættelse? I bund og grund er der hovedsageligt to faktorer: 1) hvor direkte en oversættelse det er (dvs. hvor loyal mod originalsproget den er), og 2) hvor flydende resultatet er (dvs. hvor loyal mod målsproget den er).

For oversættere er det en grundlæggende udfordring at tilgodese begge hensyn, og det kan ofte være tæt på umuligt. Se fx dette eksempel fra "Bøfsiden: bommerter og fusere på tv og tryk", hvor det dog er mislykkedes mere end nødvendigt:

Original sætning (i tv-film)

It's nice to have an early bird dinner here.

Undertekst på tv

Jeg nyder denne fjerkræsmiddag.

Det burde fx have været 

Jeg nyder denne tidlige (evt. billige) middag.

(En "early bird dinner" er en middag, som visse restauranter tilbyder til nedsat pris sent om eftermiddagen før almindelig spisetid. Selskabet spiste i øvrigt bøffer!)

Kunsten er at finde en oversættelse af early bird dinner der ikke enten går ud over målsproget (tidlig fugl-middag) eller går ud over originalsproget (tidlig middag eller billig middag).

Det ene er tydeligvis ikke vellykket på dansk, og det andet mister enten nuancen 'billig' eller nuancen 'tidlig' (hvor tidlig, billig middag allerede begynder at blive for kluntet på dansk).

Oversættere og maskiner møder samme udfordringer

Udfordringen er den samme for maskinoversættelse som den menneskelige oversætter.

En for direkte oversættelse er grinagtig fordi den lyder som cirkusdansk – en for flydende oversættelse kan være ubrugelig fordi meningen pludselig er blevet en helt anden. Maskinoversættelser kan lide af begge disse dårligdomme i varierende grad.

Det kan bl.a. have at gøre med hvilken grundide maskinoversættelsessystemet er opbygget efter. Som det omtales andre steder i dette tema, er der overordnet set to forskellige tilgange til sprogteknologi, og de går igen i maskinoversættelse:

  • den regelbaserede tilgang
  • den statistiske tilgang.

Her er et rids af hvordan de virker.

Regelbaseret maskinoversættelse

Hvad vil det sige at maskinoversættelse er regelbaseret – hvordan ser reglerne ud? Tænk på ordet regne, der kan kræve et af disse ord i en engelsk oversættelse (se Bick 2009): rain, calculate, expect, include m.fl.

Hvis der er et ikke-menneskeligt subjekt i sætningen (fx det i det regner), så vælges vejrbetydningen, og oversættelsen bliver rain.

Hvis subjektet er et menneske (fx udtrykt ved et pronomen eller et navn), så udløser det oversættelsen calculate.

En trumfende regel lyder at hvis regne efterfølges af med, så bliver oversættelsen expect – dog kun hvis med er en præposition, ikke hvis det er en adverbialpartikel; så bliver oversættelsen i stedet include.

Disse regler giver fx en fornuftig oversættelse af begge disse sætninger: De regner ofte med et underskud (med er præposition, altså: They often expect a deficit) og De regner ofte et underskud med (med er adverbialpartikel, altså: They often include a deficit).

Reglerne kan stilles lidt mere overskueligt op i et hierarki som det nedenstående. Hierarkiet vil selvfølgelig i praksis være langt større – der er ganske mange flere oversættelser til regne, ja, alene til regne med er der mange flere oversættelser end vist.

Regne:
  • Ikke-menneskeligt subjekt? (= Det)
    • Ja => rain
    • Nej => Efterfølgende med?
      • Ja => Med er præposition?
        • Ja => expect
        • Nej => include
      • Nej => calculate

Denne opstilling giver en ide om hvordan et regelbaseret maskinoversættelsessystem har brug for en endog meget lang og kompleks liste med regler for ordoversættelser – ikke bare en liste over de danske ord og en liste over de tilsvarende udenlandske ord og så færdig.

Ordenes rækkefølge kan være forskellig

Også ordrækkefølgen i en sætning skal ofte laves om. Et simpelt eksempel kunne være sætningen Hende1 kender2 de3 ganske4 godt5 (=> Her1 they3 know2 fairly4 well5), se illustrationen nedenfor. Det er der andre regler for.

Regler for ordrækkefølge1

Dertil kommer omfattende sproglige analyser af det sprog der skal oversættes fra (i dette tilfælde dansk), analyser der også foregår vha. regler. Én sådan regel er allerede antydet i det ovenstående:

Oversættelsen calculate kræver et menneskeligt subjekt, der i givet fald skal findes i den danske originalsætning.

En regel for dansk for om et ord refererer til et menneske, kunne være noget i retning af: Hvis ordet er et personligt pronomen (de er hurtigt opregnet), eller hvis udtrykket er et personnavn (langt sværere, det kræver et særligt navnegenkendelsesmodul i systemet), så refererer udtrykket til et menneske.

At identificere ordet som sætningens subjekt kan opnås bl.a. med syntaktiske analyseregler, fx ”Hvis X står før verbet, så er X sætningens subjekt” (en regel der selvfølgelig har masser af undtagelser).

Og at regner hedder rains når originalsætningen er Det regner hvert 10. år (=> It rains every 10 years), men rain når originalsætningen er Frøer regner ned fra himlen hvert 10. år (=> Frogs rain from the sky every 10 years). Spørgsmålet om ental eller flertal i verbet kan som regel klares med morfologiske analyseregler.

De morfologiske regler afgør om det danske verbums subjekt står i singularis eller pluralis (fx ”Hvis subjektet ender på ‑(e)r, så står det i pluralis” – selvfølgelig igen med mange undtagelser).

Regler, regler, regler. Regelbaseret maskinoversættelse kræver store mængder regler, der møjsommeligt skal formuleres af sprogeksperter, og denne tilgang er derfor meget dyr – selvfølgelig desto mere jo flere sprogpar der skal kunne oversættes indbyrdes.

Til gengæld kan der i princippet opnås oversættelser af meget høj kvalitet. Fejl er nemlig ofte forholdsvis gennemskuelige og kan lokaliseres præcist til en bestemt regel, der så kan rettes (hvis der ellers er penge og ekspertise til det).

Heroverfor står statistisk baseret maskinoversættelse, der ikke kræver nær så meget sprogligt ekspertarbejde, men til gengæld avanceret matematisk ekspertise.

Statistisk baseret maskinoversættelse

Statistisk maskinoversættelse af en sætning foregår groft sagt ved at der genereres et antal oversættelser af forskellige delmængder af sætningen, hvorefter en sandsynlighedsberegning afgør hvilken kombination af de resulterende byggeklodser der er den bedste.

Hvilken oversættelse der er bedst, kan som nævnt bedømmes på hvor direkte og hvor flydende en oversættelse det er (dvs. hvor loyal den er mod originalsprog og målsprog).

Faktorerne, direkte og flydende oversættelse, kan tages helt bogstaveligt og beregnes som sandsynligheder der ganges med hinanden for at give et mål for den maskinelle oversættelseskvalitet.

Jo større de begge er, des bedre er oversættelsen.

Hvordan beregner et maskinoversættelsessystem loyaliteten mod original- og målsprogene – og hvorfor beregnes de som sandsynligheder? Lad os vende tilbage til underteksterens bøf ovenfor, således at originalsproget nu er engelsk og målsproget dansk.

Hvad målsproget angår, så kan man benytte sig af en af de allermest udbredte komponenter i statistisk sprogteknologi, nemlig sprogmodellen, som også nævnes andre steder i dette tema.

En sprogmodel bygger på en liste af ordhyppigheder. Og, i, at og jeg er ekstremt hyppige i løbende tekst; fjerkræsmiddag er ikke.

Hyppige naboord

Udover hyppigheder for enkeltord udnytter sprogmodellen også hyppigheder for flere ord efter hinanden. Jeg nyder denne vil være hyppigere end nyder denne fjerkræsmiddag, som igen vil være hyppigere end i at fjerkræsmiddag (som højst sandsynligt aldrig er forekommet før nu).

Ordenes hyppigheder svarer til rå sandsynligheder for at støde på dem som det næste ord i en tekst.

Ligesom sandsynligheden for at slå to seksere efter hinanden er 1/6 * 1/6, kan man bruge ordsandsynlighederne til at udregne sandsynligheden for en sætning ved at gange kæden af ordsandsynligheder med hinanden.

En hel sætnings sandsynlighed kan så bruges som et mål for hvor god en sætning det er: jo højere sandsynlighed, des bedre.

I praksis tager sprogmodellen dog flere ord i betragtning ad gangen, og en sætnings sandsynlighed kan således beregnes ved at gange sandsynligheden for hver af rækkerne i følgende skema med hinanden (jf. det tilsvarende skema på siden om stavekontrol).

<start>

Jeg

nyder

 

 

 

 

Jeg

nyder

denne

 

 

 

 

nyder

denne

fjerkræsmiddag

 

 

 

 

denne

fjerkræsmiddag

<slut>

Fjerkræsmiddag er i sig selv et meget lidt hyppigt ord, meget mindre hyppigt end ordfølgen tidlige middag. Så den ringe sandsynlighed for at møde fjerkræsmiddag i en dansk sætning vil i sig selv gøre oversættelsesbøffen i eksemplet til en lavere rangerende oversættelse i et maskinoversættelsessystem til fordel for Jeg nyder denne tidlige middag.

Der er dog mange oversættelser der er "gode" hvis "god" alene betyder at en oversættelse består af hyppige ord i hyppige kombinationer.

Statistikken suppleres med loyalitet overfor originalsproget

Hvis systemet ikke skal ende med at oversætte It’s nice to have an early bird dinner here til I eftermiddag kun lidt sol, og de fleste steder byger af og til eller en anden helt urelateret, men i sig selv meget sandsynlig dansk sætning, så er loyaliteten overfor originalsproget nødt til at indgå i beregningen. Hvilket den selvfølgelig også gør.

Originalsproget tilgodeses ved hjælp af flere sandsynlighedsberegninger. Statistisk maskinoversættelse går ud fra at sandsynligheden for at to sætninger svarer til hinanden på original- og målsproget, stiger jo flere ord og ordforbindelser der er oversat direkte. Denne sandsynlighed beregnes af en oversættelsesmodel.

En oversættelsesmodel minder lidt om sprogmodellen fra før. I bund og grund er det en statistisk tosprogsordbog – en liste med ord og ordforbindelsers oversættelser og disses sandsynligheder.

Hvor ordet regne i regelbaseret maskinoversættelse har en betydelig mængde oversættelsesregler, så har hver mulig oversættelse (rain, expect, include, calculate etc.) i statistisk maskinoversættelse en sandsynlighed baseret på hvor hyppigt den enkelte oversættelse forekommer i oversat tekst.

Oversættelsesmodellen har også oversættelser af flerordsforbindelser (hvis systemet ellers har haft adgang til passende mængder oversat tekst hvor de forekommer).

Det regner vil således have oversættelsen it rains med en høj sandsynlighed, og fx regnet med vil både have oversættelsen expected og included med hver sin sandsynlighed (regnet med et underskud => expect a deficit; var underskuddet regnet med => the deficit was included).

Disse sandsynligheder kan dog ikke som i sprogmodellen findes ved simpelthen at tælle oversatte ord og flerordsforbindelser – for hvilke hører sammen?

Ord og ordforbindelser i originalteksten skal først kobles sammen med ord og ordforbindelser i målteksten.

Dette kræver sin egen sandsynlighedsberegning, der i sidste ende afhænger af hvor ofte de enkelte ord i en samling oversatte tekster forekommer sammen med deres oversættelse indenfor den tilsvarende sætning på det andet sprog.

En sidste, vigtig del af oversættelsesmodellen sørger for at trække ned i sandsynligheden for en bestemt oversættelse af et ord eller en ordforbindelse hvis den ender for langt væk fra sin pendant. Et eksempel kunne være:

Gør de

noget

ved

den

nye

diskussion

om

læring?

Are they doing

anything

about

the

new

discussion

on

learning?

Ofte oversættes om til about – men ikke i denne sætning. Sandsynligheden for at det er om der skal oversættes til about, mindskes fordi ved og about står tættere på hinanden.

Guidet af sprogmodellen og oversættelsesmodellen orkestrerer et statistisk maskinoversættelsessystem oversættelsen af en given sætning ved at generere deloversættelser af alle de enkeltord og ordkombinationer der kan tænkes (dvs. har en rimelig sandsynlighed for) at være oversættelser af hinanden.

Det følgende konstruerede eksempel er lavet ved at indsætte hvert ord, hver toordsforbindelse osv. i Google Oversæt. Det er antydet hvordan der kan findes adskillige forskellige observerede oversættelser af såvel enkeltordene som flerordsforbindelserne.

Det man altså skal se for sig, er at Google Oversæt har genereret en endnu større tabel af mulige deloversættelser ved hele tiden undervejs at 'slå op i' sprogmodellen og oversættelsesmodellen.

Til sidst vælges den bedste vej gennem alle kombinationsmulighederne ved at vælge de ord og ordforbindelser der maksimerer sandsynligheden for en god (dvs. originalsprogs- OG målsprogsloyal) oversættelse. 

Deloversættelse af sætning, ét ord ad gangen:

Vi regner med et overskud
We/Marry(1)/… rains/calculates/… with/by/… a/an/… profits/excess/…

(1) Bemærk at dansk ”vi” kan være en (sjælden) bydeform af "at vie". Derfor foreslås "(to) marry" som en oversættelse!

Deloversættelse af sætning, to ord ad gangen:

Vi regner regner med med et et overskud
We expect/We calculate/… expect/count on/… with a/with one/… a profit/an excess/…

Deloversættelse af sætning, tre ord ad gangen:

Vi regner med regner med et med et overskud
We expect/We are counting on/… counting on one/expect a/… with a profit/with an excess/…

Deloversættelse af sætning, fire ord ad gangen:

Vi regner med et regner med et overskud
We count on one/We expect/… expect a profit/...

Oversættelse af sætning:

Vi regner med et overskud
We expect a profit/...

Sandsynligheder, sandsynligheder og atter sandsynligheder, beregnet i et hierarki af komponenter – det er sådan der ser ud når man kigger ned i maskinrummet på et statistisk maskinoversættelsessystem.

God statistisk baseret oversættelse:
  • Høj sætningssandsynlighed via sprogmodel (= vellykket sætning på målsproget)
  • Høj oversat ord-/ordforbindelsessandsynlighed via oversættelsesmodel (= direkte oversættelse)
    • Høje oversættelsessandsynligheder for ord og ordforbindelser
      • Høje sandsynligheder for sammenfaldende enkeltord
      • Kobling af oversatte enkeltord til oversatte ordforbindelser
    • Høj sandsynlighed for korrekt kobling (tættere sammen = højere sandsynlighed)

Sandsynlighederne kommer fra ordhyppigheder, og i sidste ende er den statistiske tilgang til maskinoversættelse således baseret på optælling af ord. Det sprogligt-grammatiske arbejde kommer i anden række.

Det kan virke fremmedgørende for sprogeksperter, og tilgangen fik derfor i starten øgenavnet 'antilingvistik'. Selv om selve maskinoversættelsessystemet i princippet er støvsuget for sprogeksperters viden, skal man dog huske på at der stadig er indlejret en enorm sproglig viden i systemets input i form af de store mængder oversat tekst som systemet afhænger af.

Dertil kommer at der i praksis også vil ligge avanceret sproglig indsigt til grund for de finjusteringer der foretages af sprogteknologerne bag et sådant system. 

Men eftersom statistisk maskinoversættelse hovedsageligt afhænger af statistisk ekspertise, rå regnekraft og store samlinger af oversat tekst, giver det næsten sig selv at det er forholdsvis billigt at overføre teknologien på nye sprogpar – så længe der altså findes oversatte tekstsamlinger hvor man både har teksten på original- og målsproget (parallelle tekster).

Bl.a. på grund af ophavsretsmæssige problemstillinger er dette ikke en selvfølge, især ikke for mindre sprog som dansk (for slet ikke at tale om virkelig små sprog som fx grønlandsk eller færøsk). Jo færre tilgængelige parallelle tekster, des dårligere statistisk maskinoversættelse.

Maskinoversættelse i din hverdag

Efterhånden dukker maskinoversættelse op i sammenhænge hvor vi ikke kan undgå at støde ind i den. Det har i adskillige år været muligt at få en tålelig oversættelse af alt fra afrikaans til zulu på Google Oversæt.

Hvis man har udenlandske venner på Facebook, vil man somme tider se linket "Se oversættelse" (dog endnu kun for udvalgte statusopdateringer og udvalgte sprog, for forfatteren til denne sides vedkommende: ikke engelsk og italiensk, men derimod svensk).

Internetgiganter som Google og Facebook er åbenlyst privilegerede idet de hele tiden kan høste sproglige data fra deres milliarder af brugere. Denne overflod af data er som skabt til den statistiske tilgang til sprogteknologi, herunder maskinoversættelse, som derfor nok må siges at have været den dominerende i de senere år.

For sprog uden store mængder oversat tekst som fx grønlandsk og samisk arbejder man dog støt og målrettet ud fra den regelbaserede tilgang, ikke bare for at hjælpe med at føre disse sprogområder ind i den digitale tidsalder, men også for at forhindre sprogene i at uddø.

Så længe der endnu findes modersmålstalende af disse små sprog, er det muligt at nedskrive deres sproglige intuitioner i form af grammatikker, der så igen kan overføres til regelbaseret sprogteknologi, der fx kan bruges i sprogundervisning.

I forbindelse med EU-initiativet det digitale indre marked er der kommet fornyet fokus på maskinoversættelse. Initiativet skulle bl.a. gøre det lettere for små og mellemstore virksomheder i EU at drive e-handel.

Det var i første omgang blevet overset hvor stor en rolle sprogbarrierer spiller i den forbindelse, men det er lykkedes en kreds af europæiske sproginstitutioner at sætte på den europæiske dagsorden hvor stort et potentiale der faktisk er i maskinoversættelse.

Projektet Cracking the Language Barrier fandt fx ud af at under 5 % af de små og mellemstore virksomheder i EU solgte varer på andre sprog end deres eget samtidig med at e-handelskunder er seks gange mere tilbøjelige til at købe varer hvis det foregår på deres eget sprog.

Blandt andet pga. projektet ønsker man derfor nu et flersprogligt digitalt indre marked hvor virksomhederne hjælpes til at bruge maskinoversættelse m.m. En vigtig opgave er at anspore virksomheder og institutioner til at donere deres data i form af oversatte tekster for at forbedre kvaliteten af maskinoversættelse.

Teksten er en redigeret version af artiklen "Maskinoversættelse" af Philip Diderichsen, bragt i Nyt fra Sprognævnet 2015/3.
NB! Sprogteknologi udvikler sig hurtigtLigesom al anden teknologi udvikler sprogteknologien sig i en rasende fart, så når denne artikel læses, har nye generationer af teknologien allerede set dagens lys. Redaktionen og forfatterne tager derfor forbehold for at oplysningerne i dette tema kan være forældede. Temaet er redigeret og offentliggjort i maj 2018.