Googles pondus lægges bag stemme-teknologi

Googles størrelse vil hjælpe i udviklingen af talegenkendelse, mener forsker. Udgangspunktet er 230 millioner ord. Se hvad det kan blive til.

Artikel top billede

Computerworld News Service: Google udnytter sin cloud-infrastruktur og den kolossale mængde af indtastede søgeforespørgsler til at raffinere sin stemmesøgnings-funktion som en del af en massiv forskningsindsats inden for talegenkendelse.

Google stemmesøgning blev introduceret for omkring 18 måneder siden og gør det muligt for mobilbrugere at søge på nettet ved at tale ind i deres telefoner frem for at indtaste søgeforespørgslen. Funktionen er tilgængelig på iPhone, BlackBerry, Nokia Series 60 og visse Android-modeller.

Nøjagtighed udgør et af de store succeskriterier, så brugerne får brugbare søgeresultater, der gør, at de vender tilbage til tjenesten, forklarer Michael Cohen, der er chef for stemme-teknologi hos Google, i et oplæg torsdag under Mobile Voice Conference i San Francisco.

Virksomheden arbejder på at gøre stemmesøgning til en "gnidningsfri" oplevelse for brugeren, der ubesværet får korrekte søgeresultater. Det har dog været en lang kamp, der har taget årtier, at gøre talegenkendelse nøjagtig nok, og Google lægger sin store vægt bag indsatsen for at løse problemet, fortæller Cohen.

Hunde taler ikke

Googles stemmesøgning er baseret på "sprogmodeller", som er statistiske modeller for hvilke sekvenser af ord, der fremkommer med størst sandsynlighed. En god sprogmodel ved eksempelvis, at det er mere sandsynligt, at en person siger "the dog barked", end at nogen siger "the dog talked".

Google "træner" konstant nye sprogmodeller til sin talegenkendelses-engine, fortæller Cohen. Det gør virksomheden blandt andet ved at udnytte de søgetermer, som brugerne indtaster i Googles søgemaskine. Ud fra 230 millioner ord, der er indtastet i søgeforespørgsler på Google.com, har forskerne samlet de en million mest almindeligt brugte unikke ord i en ordliste til at træne stemme-systemet.

Begge disse tal er arbitrære, og 230 millioner repræsenterer ikke det samlede antal ord, der er indtastet i Googles søgemaskine i nogen given periode, afklarer Cohen.

AskOxford.com fra forlaget bag Oxford English Dictionary, vurderer, at der mindst er 250.000 ord i det engelske sprog; Cohen forklarer, at de en million unikke ord inkluderer flertalsformer og andre former af ordene.

Langt træningsprogram

Det tager 70 "CPU-år" - den mængde arbejde, en CPU kan udføre på et år - at behandle disse 230 millioner ord fra Google.com og optræne en ny sprogmodel, oplyser Michael Cohen. Google optræner konstant nye sprogmodeller som en del af forskningen.

"Der stilles enorme beregningsmæssige krav, da vi hele tiden udvider med mere og mere data og større og større modeller," fortæller stemme-teknologichefen.

"Heldigvis har vi masser af beregningskraft, som vi kan benytte. Der stilles også krav til infrastrukturen, og heldigvis har Google en meget veldesignet software-infrastruktur, så vi kan gøre ting såsom hurtigt at parallelisere noget" ved at køre det på tusindvis af computere samtidigt, forklarer Cohen.

En cloud-infrastruktur giver også andre fordele inden for talegenkendelse, siger han. Google kan hurtigt teste og raffinere sin talegenkendelses-software og udsende nye versioner, mens forbrugerne allerede benytter sig af produktet. Derudover lærer Google af erfaringerne, ved at rigtige brugere benytter sig af funktionen stemmesøgning.

Udover at gøre talegenkendelse lettere at bruge sigter Google efter at gøre teknologien alment tilgængelig. Det var et stort skridt i den retning at inkludere en funktion i mobiltelefonen Nexus One, der giver brugeren mulighed for at afgive tale- i stedet for tasteinput, hver gang tastaturet er synligt på skærmen, fortæller Cohen.

YouTube - nu med undertekster

Talegenkendelse spiller også en stor rolle i Google Voice, der er virksomhedens tjeneste til transskription af talemeddelelser, også kaldet voicemail. Men Googles interesse i stemmeteknologier rækker længere end mobiltelefoni, siger Cohen.

Voice er den største gruppe i Google Research og forskningsresultater fra dette område kan vise sig at være brugbare i mange forskellige områder, fortæller han. Virksomheden vil gerne kunne forstå og levere tale-indhold på nettet på samme måde som med tekstindhold.

Som et skridt i denne retning har Google for nylig tilføjet mulighed for undertekster til YouTube-videoer. I forbindelse med denne funktionalitet er Google også begyndt at tilbyde fremmedsprogede undertekster ved hjælp af tekst-til-tekst-oversættelser af disse undertekster.

Michael Cohen var medstifter af Nuance Communications og har arbejdet med talegenkendelse i 25 år. I løbet af den tid er "teknologien kommet langt, men der er lang vej endnu," siger han.

Også Microsoft udvikler funktionalitet til stemmegenkendelse til sin søgemaskine, Bing.

Oversat af Thomas Bøndergaard

Computerworld Events

Vi samler hvert år mere end 6.000 deltagere på mere end 70 events for it-professionelle.

Ekspertindsigt – Lyt til førende specialister og virksomheder, der deler viden om den nyeste teknologi og de bedste løsninger.
Netværk – Mød beslutningstagere, kolleger og samarbejdspartnere på tværs af brancher.
Praktisk viden – Få konkrete cases, værktøjer og inspiration, som du kan tage direkte med hjem i organisationen.
Aktuelle tendenser – Bliv opdateret på de vigtigste dagsordener inden for cloud, sikkerhed, data, AI og digital forretning.

It-løsninger | Nordhavn

SAP Excellence Day 2026

Få konkrete erfaringer med S/4HANA, automatisering og AI i praksis. Hør hvordan danske virksomheder realiserer gevinster og etablerer effektive SAP-løsninger. Vælg fysisk deltagelse hos SAP eller deltag digitalt.

Infrastruktur | København

Datacenterstrategi 2026

Denne konference bidrager med viden om, hvordan du balancerer cloud, on-premise og hybrid infrastruktur med fokus på kontrol, compliance og forretning.

Sikkerhed | Aarhus C

Identity Festival 2026 - Aarhus

Er du klar til en dag, der udfordrer din forståelse af, hvad Identity & Access Management kan gøre for din organisation? En dag fyldt med indsigt, inspiration og løsninger, der sætter kursen for, hvordan vi arbejder med IAM i de kommende år.

Se alle vores events inden for it

Navnenyt fra it-Danmark

inciro K/S har pr. 1. februar 2026 ansat Lasse Fletcher som Cloud Consultant. Han skal især beskæftige sig med Governance og struktur i cloud miljøer. Han kommer fra en stilling som IT Tekniker hos CBrain A/S. Han er uddannet datatekniker med speciale i infrastruktur. Han har tidligere beskæftiget sig med kunde onboarding, Identitets styring, sikkerhed og IaC. Nyt job

Lasse Fletcher

inciro K/S

Lector ApS har pr. 5. januar 2026 ansat Per Glentvor som Seniorkonsulent i LTS-gruppen. Per skal især beskæftige sig med med videreudvikling af Lectors løsning til automatisering og forenkling af toldprocesser. Per kommer fra en stilling som freelancekonsulent. Per har tidligere beskæftiget sig med løsninger indenfor trading, løsninger til detail, mobil samt logistik. Nyt job

Per Glentvor

Lector ApS

Lars Jul Jakobsen, chefkonsulent hos Region Nordjylland, har pr. 28. januar 2026 fuldført uddannelsen Master i it, linjen i organisation på Aarhus Universitet via It-vest-samarbejdet. Færdiggjort uddannelse

Lars Jul Jakobsen

Region Nordjylland