Tale løsner dit forhold til computeren

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 17. november 2006.


En milepæl i voresbrug af computere blev nået i dette efterår. Medierne troede, det handlede om handikappede og undertekster til tv-udsendelser, men det handler i høj grad om dig og mig og vores samliv med vores computere.

Denne tekst er dikteret til min computer. I dette øjeblik ligger jeg mageligt henslængt i en komfortabel stol og kigger ud i luften. Med den bærbare computer på skødet og et headset på hovedet kan min computer (næsten) forstå, hvad jeg siger.
Det er talegenkendelse, og det er en luksus. For første gang kan jeg gøre noget, der indtil nu har været forbeholdt Hollywoodmoguler og rejsebureauejere: Jeg kan ligge i min hvilestol og diktere mine tekster direkte ud i luften til en effektivt lyttende sekretær.
Der mangler selvfølgelig stadig to unge kvinder til at massere mig, men der er grænser for, hvad man kan forlange af et stykke software - endnu i hvert fald.
Men alvorligt talt er det første gang i den tid, jeg har brugt en computer, at jeg har mine hænder fri, når jeg skriver en tekst. Det er en virkelig overraskende fornemmelse. Jeg kan for eksempel folde hænderne bag nakken, mens jeg kigger op i loftet - og stadig skrive tekster på computeren.
Pludselig opdager jeg, hvor meget denne kropslige frihed betyder. Når jeg sidder foran en computer, er jeg tvunget til at sidde i én bestemt stilling. Ret ryg, hænderne frem foran mig og ansigtet mod skærmen. Det minder i mistænkeligt om en hund, der er blevet trænet til at gøre latterlige ting til ydmygende perfektion. Sit computerbruger!
Jeg har vænnet mig til det, men nu, hvor jeg pludselig er fri, er det tydeligt, hvor meget denne træning kræver af mig. Denne holden kroppen stiv, det stirrende blik på ét sted, de staccatoagtige bevægelser på tastaturet. Det er antiliv.
Forsøg har vist, at mennesker, der har mistet deres tænder, husker dårligere. Det er sandsynligvis, fordi de tygger mindre hårdt og derfor bruger muskulaturen i hovedet mindre. Gad vide, hvad der sker med hjernen, når man kun bruger muskulaturen i hele kroppen til denne stive dans foran computeren?
Talegenkendelsesprogrammet hedder Dictus og er noget så usædvanligt som et vellykket og billigt offentligt projekt udført af et privat firma - eller noget i den stil. For både finansiering og organisering er usædvanlig.
Det er lykkedes at samle en lang række aktører med interesse i talegenkendelse og få dem alle til at investere i det samme projekt: Både Videnskabsministeriet, Kulturministeriet, DR og TV2 er med på vognen med hver deres begrundelse. Tv-selskaberne vil blandt andet gerne have et program, der kan lave let realtime tekstning af udsendelser. Ministerierne ønsker blandt andet, at dansk skal kunne bruges på lige fod med engelsk, hvor man selvfølgelig har haft denne funktionalitet i nogle år.
Den samlede støtte er omkring fem millioner kroner.

Firmaet bag er Prolog Development Center, PDC, som har fået støtten til at lave programmet, som de derefter kan sælge som deres eget produkt på helt normale vilkår. En væsentlig betingelse var dog, at de skulle sælge en version til private brugere, som ikke måtte koste over 100 euro. Det er grunden til, at Dictus i den private version kan løbes til kun 937, 50 kroner.
Jens Kjærum, der er chefudvikler på projektet fortalte mig om tilblivelsesprocessen, som har været overraskende kort. Kun omkring to år har det taget for et projekt, som andre har brækket halsen grundigt på - og som der er blevet forsket i i mindst tredive år.
En af grundene til den hurtige udvikling er, at de generiske sprogsystemer til talegenkendelse er blevet så gode, at versionering på et nyt sprog er blevet væsentligt forsimplet. Dictus bygger på et system fra Philips, som PDC har licenseret.
Men programmets succes skyldes også helt enkle udviklinger i hardware og software.
For eksempel fortæller Jens Kjærum, at udviklingen i retning af at bruge headsets med USB-tilslutning forbedrer programmets præcision væsentligt. Hovedtelefonens indbyggede mikrofon sørger for, at mikrofonen sidder i en bestemt position foran munden - og ganske tæt på. Det giver mindre støj og langt mindre variation i lydbilledet

På softwareområdet har det især betydning, at Windows XP er blevet forsynet med rutiner, der gør det meget lettere at få talegenkendelse til at virke i andre programmer. Derfor virker Dictus i næsten alle moderne Windowsprogrammer - men desværre kun på Windows XP.
Dictus findes både en privat og en professionel version. Den sidste er betydeligt dyrere, nemlig ti gange den private version - 9.375 kroner. Desuden er der specialversioner, som dem tv-selskaberne har fået. PDC arbejder også på en udgave, som vil kunne indbygges i andre former for software og elektronik. I princippet er det hårde arbejde med opbygning af sprogmodel og orddatabaser gjort, så yderligere versionering og integration af dansk talegenkendelse burde være betydeligt lettere.

Op til hvert gang med at diktere. For der gik godt hjemvendt siger, hun har hærget med ...
Ups, den foregående sætning var en smutter. Desværre er den også et godt eksempel på manglerne i Dictus.
Træerne er ikke er vokset ind i himlen.
Dictus er et fuldt fungerende program, og det virker overraskende godt, men det er stadig langt fra at opfylde alle vores ønsker til talegenkendelse på computeren.
Det er rigtigt, at Dictus giver frihed fra den fastlåste stilling foran skærm og tastatur. Til gengæld stiller det nogle temmelig bastante krav til den måde, man taler til det på. Almindelig sjusket dansk tale i normalt tempo går ganske enkelt ikke. Programmet fanger ikke endelserne, dropper helt ord og opfører sig generelt uterligt (den private version, som jeg har prøvet, kender heller ikke ord som uterlig eller henslængt).
Den eneste tale, som Dictus kan genkende, er den, der kommer jævnt flydende ud af munden på en person, der taler tydeligt og noget unormalt. Selv for mig, der har adskillige års øvelse i et lave radiospeak, kommer det ikke naturligt. Det er alt for let at falde hen til normale talemønstre - og få volapyk, som eksemplet ovenfor (volapyk, endnu et ord som programmet ikke kender).
Dictus bygger på en model, der både indeholder akustisk genkendelse af ord og statistiske mønstre for vores sprog. Det betyder, at programmet ganske begavet forsøger at genkende ordblokke fremfor enkelte ord. Det giver langt højere præcision. Men da programmet blandt andet bruger pauser som tegn på, at en blok er afsluttet, så skal man tale forholdsvis flydende for at få det til at virke bedst muligt.
Programmet bliver ved med at lære efterhånden, som man bruger det. Man kan også lære det flere af sine egne ord og ordmønstre på en elegant måde. Programmet kan simpelthen læse og analysere tidligere tekster, man har skrevet, og indarbejde dem i sin sprogmodel.
Så min oplevelse af programmet kan blive forbedret efterhånden.
Der er også et anstrengende kognitivt aspekt ved at bruge talegenkendelse. I mit hoved er det en helt ny fornemmelse ikke at tænke med hænderne på et tastatur. Tastatur er noget, jeg har over tyve års øvelse i, og det betyder, at langt de fleste ord, jeg skriver, sidder som subrutiner et eller andet sted i min rygmarv. Jeg skal ikke tænke for at skrive ordet "skrive". At skrive ordet stiller så små krav til min bevidsthed, at det nærmest automatisk falder ned på tastaturet.
Sådan er det ikke med talegenkendelse. Det kræver stadig en betydelig del af min opmærksomhed at bruge den - især når der dukker stærkt forstyrrende fejl op, som sætningen ovenfor. Det er også problematisk, at det er så godt som umuligt at lave korrektur via talte kommandoer - det er langt lettere at bruge tastaturet.

Så Dictus er langt fra det ideelle talegenkendelsesprogram. Det ville være et program, der kan genkende alt, hvad vi siger, uanset hvor og hvordan vi siger det. Sådan et program ligger langt ude i fremtiden, 20-30 år er ikke usandsynligt.
Men programmet er første version af et svært projekt og set i det lys, er det imponerende vellykket. Det er handikappede og andre, der har svært ved at bruge et tastatur, der umiddelbart vil føle det største fremskridt. På sigt vil det give alle dansktalende nye muligheder i kommunikation med computeren og for en frigørelse fra mus og tastatur som eneste inputmulighed.
Til offentlig støtte på en krone per dansker er det exceptionelt fornuftigt brugte penge.

www.pdc.dk/dk/speechlogic/

Jan Skøt skriver hver uge om grænsefladen mellem menneske og maskine - der hvor den digitale kultur tager form. Jan Skøt er cand.phil. i dansk med speciale i medieanalyse. www.skot.dk

OriginalModTime: 16-11-2006 14:31:14




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
JN Data A/S
Driver og udvikler it-systemer for finanssektoren.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Virksomhedsplatforme i forandring: Hvordan navigerer du i den teknologiske udvikling?

Hvordan finder du balancen mellem cloud- og hybride løsninger? Hvordan integrerer du legacy-applikationer ind i dit nye ERP-setup? Hvordan undgår du at havne i statistikken over store ERP-projekter, der fejler eller overskrider budgetterne?

14. maj 2025 | Læs mere


Computerworld Summit 2025, København – AI transforming business

Årets uomgængelige konference for dig, der er med til at træffe beslutninger om din organisations teknologiske fremtid, og vil have det samlede overblik over aktuelle tendenser i IT-branchen.

27. maj 2025 | Læs mere


Årets CIO 2025

Vi skal finde Årets CIO 2025 og den kvinde eller mand, som i et helt år kan bryste sig af at være landets bedste CIO.

03. juni 2025 | Læs mere






Premium
Hun har rådgivet regeringen om de store techgiganter: De europæiske brugere kommer til at betale en høj pris for Microsofts cloud-løfte til Europa, mener hun