Talegenkendelse i 2019: Derfor er et parløb mellem AI og UX helt nødvendigt

Klumme: Talegenkendelse har siden 1950’erne været et problem for eksperter indenfor software og kunstig intelligens. De næste problemer skal løses af eksperter inden for UX og design.

31. juli 2019 kl. 12.35

(Foto: More Human Than Human film)

Anders Hasselstrøm Co-founder & director of education, Konch

Denne klumme er et debatindlæg og er alene udtryk for skribentens synspunkter.

Microsoft har Cortana, Amazon har Alexa og Apple har Siri. Præcis og hurtig talegenkendelse er et aktuelt og interessant problem, som en stor skare af verdens bedste AI eksperter har arbejdet på i årtier.

Der er ikke nogen tvivl om, at vi er kommet langt. Vi er faktisk kommet meget længere end de fleste tror - også på dansk. Med klar tale er det realistisk at komme tæt på 90%. Problemet er, at de resterende 10procent ofte kan være meningsforstyrrende.

Tag nedenstående eksempel, som vores platform har transskriberet:

Original: Velkommen til ‘Ingen Shortcuts’ med mig, Tommy Ahlers, og dagens gæst Lars Løkke Rasmussen.

Transskriberet: Velkommen til et kort med mig, Tommy Ahlers, og dagens gæst Lars Løkke Rasmussen.

Selvom det kun er to ord, som er forkerte, så bliver det meningsforstyrrende. De resterende 10 procent er vigtige for at forstå sammenhængen, og det ødelægger brugeroplevelsen.

Sætningen er en god indikation på, hvor langt vi er kommet med teknologien. Under gode forhold kan vi komme meget tæt på men alligevel er der lang vej igen. E

ftersom alle de største tech virksomheder arbejder på problemet, så er der ikke nogen tvivl om, at teknologien kommer til at blive bedre over tid.

Der er også god grund til at tro, at det på et tidspunkt bliver så godt, at der ikke er meningsforstyrrende fejl.

Det kritiske spørgsmål er:

Hvad gør vi indtil da?

Vi tror på, at det er UX- og designeksperterne, som skal tage det næste skridt. I stedet for udelukkende at kaste flere ressourcer efter optimering af sprogmodeller fra AI-eksperter, så er der nødt til at være en række virksomheder, som fokuserer på optimering af brugeroplevelsen og gøre det nemt at redigere det uperfekte resultat fra algoritmerne.

Målet for UX- og designeksperterne bør være at gøre processen fra uperfekt til perfekt så brugervenlig, hurtig og nem som muligt.

Det store spørgsmål er så, hvordan vi gør det?

1. Highlight ord, som med høj sandsynlighed er forkerte

Når man sender lydfiler igennem en algoritme så modtager man en transskriberet tekst tilbage samt en ‘confidence score’ på hvert ord. Det kunne se således ud: [{confidence: "0.9", content: "navn"}]. Det vil sige, at der er 90 procent sandsynlighed for, at ordet 'navn' er korrekt.

Hvis vi arbejder med samme metode hele vejen igennem en transskriberet lydfil kan vi visualisere de ord, som har en høj sandsynlighed for at være forkert.

Resultatet er, at brugeren får visualiseret dele af teksten, som skal rettes igennem i stedet for at skulle lytte det hele igennem.

Herunder et eksempel, som gør det nemt at finde de ord, som højst sandsynligt er forkerte og derfor skal rettes. Det reducerer redigeringsarbejdet markant.

2. Foreslå alternativer baseret på lignende lyd eller synonymer

Homofoner er ord, der staves forskelligt, men udtales ens. Ordene 'vær', 'hver', 'værd', og 'vejr' er indbyrdes homofoner.

Vi mennesker kan skelne imellem dem, fordi vi er gode til at forstå kontekst.

Hvis vi siger: ‘Det er ikke det værd’, så ved vi godt, at det er ‘værd’ og ikke ‘vejr’, som der er tale om. Det kan dog være en udfordring for sprogmodellerne.

Heldigvis har vi godt styr på de homofoner, som findes i dag.

Hvorfor ikke foreslå alternativer til brugeren, så man kan klikke sig igennem rettelser, i stedet for at skulle skrive det selv? Det gør processen sjovere, nemmere og hurtigere. Igen en markant forbedring af redigeringsprocessen.

3. Automatisk forslag til grammatiske forbedringer

Grammatik er endnu en stor udfordring for sprogmodeller, eftersom det ikke udelukkende handler om at identificere ord men også kontekst og typer af ord.

Der er dog en række simple regler, som kan implementeres for at gøre oplevelsen bedre for brugerne. Nogle simple eksempler kunne være:

● Hv-ord er typisk spørgsmål og bør ende med et spørgsmålstegn
● Ord, som kommer lige efter punktum, bør starte med et stort bogstav

Udover simple regler som ovenstående, kan man også sende den rå data i gennem eksisterende sprogservices, som optimerer grammatikken og returnere et mere læseligt og gennemført resultat til brugeren, der kan rettes.

Ovenstående er tre eksempler på, hvordan vi kan gøre redigeringsprocessen hurtigere og mere overskuelig for brugeren, hvilket gør sprogmodellerne langt mere anvendelige.

Hvem har brug for det?

Det næste relevante spørgsmål er så, hvem det er relevant for.

Som udgangspunkt er det relevant for alle personer og virksomheder, der behandler lyd- og video data, som efterfølgende skal analyseres. Eksempler kunne være studerende, forskere, jurister, journalister samt virksomheder, som laver store markedsundersøgelser.

Lad os tage markedsundersøgelser som eksempel.

Målet for virksomheder, som laver markedsundersøgelser er, at finde interessante trends i større datamængder. Traditionelt set, har de virksomheder interviewet hundred- eller tusindvis af mennesker og efterfølgende brugt specialister til at transskribere data og finde trends.

Højtuddannede sociologer og andre specialister skal bruge deres tid på det de gør bedst - analysere, finde sammenhænge og konkludere. På den traditionelle måde er størstedelen af tiden brugt på tekstbehandling, som, efter min mening, kan gøres meget smartere.

Lad maskinerne gøre det de gør bedst; behandle millioner af datapunkter hver sekund. Lad os så gøre det nemt og hurtigt for os mennesker at rette de fejl, som sniger sig ind. Maskiner kommer ikke til at overtage specialistens arbejde men gør det muligt for specialisten at bruge tiden på det, som de er dygtigst til.

Udviklingen indenfor talegenkendelse har været for ensidig.

Der har været fokus på teknologien, ikke brugeren. Der bliver nødt til at være et parløb i mellem virksomheder, som udvikler bedre sprogmodeller, og virksomheder, som optimerer brugeroplevelsen af den nuværende teknologi.

Sprogmodellerne bliver en dag gode nok til at stå alene. Indtil da er der brug for, at vi gør brugeroplevelsen markant bedre.

På den måde kan vi allerede nu få endnu større gavn af talegenkendelse.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.