Googles pondus lægges bag stemme-teknologi

Googles størrelse vil hjælpe i udviklingen af talegenkendelse, mener forsker. Udgangspunktet er 230 millioner ord. Se hvad det kan blive til.

Artikel top billede

Computerworld News Service: Google udnytter sin cloud-infrastruktur og den kolossale mængde af indtastede søgeforespørgsler til at raffinere sin stemmesøgnings-funktion som en del af en massiv forskningsindsats inden for talegenkendelse.

Google stemmesøgning blev introduceret for omkring 18 måneder siden og gør det muligt for mobilbrugere at søge på nettet ved at tale ind i deres telefoner frem for at indtaste søgeforespørgslen. Funktionen er tilgængelig på iPhone, BlackBerry, Nokia Series 60 og visse Android-modeller.

Nøjagtighed udgør et af de store succeskriterier, så brugerne får brugbare søgeresultater, der gør, at de vender tilbage til tjenesten, forklarer Michael Cohen, der er chef for stemme-teknologi hos Google, i et oplæg torsdag under Mobile Voice Conference i San Francisco.

Virksomheden arbejder på at gøre stemmesøgning til en "gnidningsfri" oplevelse for brugeren, der ubesværet får korrekte søgeresultater. Det har dog været en lang kamp, der har taget årtier, at gøre talegenkendelse nøjagtig nok, og Google lægger sin store vægt bag indsatsen for at løse problemet, fortæller Cohen.

Hunde taler ikke

Googles stemmesøgning er baseret på "sprogmodeller", som er statistiske modeller for hvilke sekvenser af ord, der fremkommer med størst sandsynlighed. En god sprogmodel ved eksempelvis, at det er mere sandsynligt, at en person siger "the dog barked", end at nogen siger "the dog talked".

Google "træner" konstant nye sprogmodeller til sin talegenkendelses-engine, fortæller Cohen. Det gør virksomheden blandt andet ved at udnytte de søgetermer, som brugerne indtaster i Googles søgemaskine. Ud fra 230 millioner ord, der er indtastet i søgeforespørgsler på Google.com, har forskerne samlet de en million mest almindeligt brugte unikke ord i en ordliste til at træne stemme-systemet.

Begge disse tal er arbitrære, og 230 millioner repræsenterer ikke det samlede antal ord, der er indtastet i Googles søgemaskine i nogen given periode, afklarer Cohen.

AskOxford.com fra forlaget bag Oxford English Dictionary, vurderer, at der mindst er 250.000 ord i det engelske sprog; Cohen forklarer, at de en million unikke ord inkluderer flertalsformer og andre former af ordene.

Langt træningsprogram

Det tager 70 "CPU-år" - den mængde arbejde, en CPU kan udføre på et år - at behandle disse 230 millioner ord fra Google.com og optræne en ny sprogmodel, oplyser Michael Cohen. Google optræner konstant nye sprogmodeller som en del af forskningen.

"Der stilles enorme beregningsmæssige krav, da vi hele tiden udvider med mere og mere data og større og større modeller," fortæller stemme-teknologichefen.

"Heldigvis har vi masser af beregningskraft, som vi kan benytte. Der stilles også krav til infrastrukturen, og heldigvis har Google en meget veldesignet software-infrastruktur, så vi kan gøre ting såsom hurtigt at parallelisere noget" ved at køre det på tusindvis af computere samtidigt, forklarer Cohen.

En cloud-infrastruktur giver også andre fordele inden for talegenkendelse, siger han. Google kan hurtigt teste og raffinere sin talegenkendelses-software og udsende nye versioner, mens forbrugerne allerede benytter sig af produktet. Derudover lærer Google af erfaringerne, ved at rigtige brugere benytter sig af funktionen stemmesøgning.

Udover at gøre talegenkendelse lettere at bruge sigter Google efter at gøre teknologien alment tilgængelig. Det var et stort skridt i den retning at inkludere en funktion i mobiltelefonen Nexus One, der giver brugeren mulighed for at afgive tale- i stedet for tasteinput, hver gang tastaturet er synligt på skærmen, fortæller Cohen.

YouTube - nu med undertekster

Talegenkendelse spiller også en stor rolle i Google Voice, der er virksomhedens tjeneste til transskription af talemeddelelser, også kaldet voicemail. Men Googles interesse i stemmeteknologier rækker længere end mobiltelefoni, siger Cohen.

Voice er den største gruppe i Google Research og forskningsresultater fra dette område kan vise sig at være brugbare i mange forskellige områder, fortæller han. Virksomheden vil gerne kunne forstå og levere tale-indhold på nettet på samme måde som med tekstindhold.

Som et skridt i denne retning har Google for nylig tilføjet mulighed for undertekster til YouTube-videoer. I forbindelse med denne funktionalitet er Google også begyndt at tilbyde fremmedsprogede undertekster ved hjælp af tekst-til-tekst-oversættelser af disse undertekster.

Michael Cohen var medstifter af Nuance Communications og har arbejdet med talegenkendelse i 25 år. I løbet af den tid er "teknologien kommet langt, men der er lang vej endnu," siger han.

Også Microsoft udvikler funktionalitet til stemmegenkendelse til sin søgemaskine, Bing.

Oversat af Thomas Bøndergaard

Læses lige nu

    Event: Årets CIO 2026

    Andre events | Kongens Lyngby

    Vi samler Danmarks stærkeste digitale ledere til en dag med viden og visioner. Årets CIO 2026 fejrer 21 års jubilæum, og NEXT CIO sætter spotlight på næste generation. Deltag og bliv inspireret til at forme fremtidens strategi og eksekvering.

    4 juni 2026 | Gratis deltagelse

    Netcompany A/S

    Erfaren Linux Operations Engineer

    Københavnsområdet

    Timengo DPG

    Teknisk Konsulent til vores Service Center

    Københavnsområdet

    Danoffice IT

    Infrastructure Specialist

    Københavnsområdet

    Navnenyt fra it-Danmark

    Renewtech ApS har pr. 15. marts 2026 ansat Jouni Salo som Account Manager for Sverige. Han skal især beskæftige sig med med at styrke Renewtechs nordiske tilstedeværelse med fokus primært på det svenske marked. Han kommer fra en stilling som Key Account Manager hos GoGift. Han har tidligere beskæftiget sig med udvikling af salgsaktiviter og kunderelationer på tværs af flere markeder. Nyt job

    Jouni Salo

    Renewtech ApS

    IFS Danmark A/S har pr. 1. april 2026 ansat Sarah Warm som Account Executive, Energy & Utilities. Hun skal især beskæftige sig med salg af IFS' løsninger til nye kunder inden for energibranchen. Hun kommer fra en stilling som Account Executive hos Synergy Investment Group i Holland. Hun er uddannet BSc Economics and Business Economics, Neuroscience & MSc Business Administration Digital Business. Hun har tidligere beskæftiget sig med Solution Sales & Cybersecurity. Nyt job

    Sarah Warm

    IFS Danmark A/S

    Netip A/S har pr. 1. marts 2026 ansat Maria Lyng Refslund som Marketing Project Manager ved netIP Herning. Hun kommer fra en stilling som Marketing Project Manager hos itm8. Nyt job
    Alexander Hoffmann, SVP, Technology & IT hos GlobalConnect, er pr. 1. maj 2026 forfremmet til EVP, Tech, IT & Security. Han skal fremover især beskæftige sig med at lede den fortsatte udvikling af en mere integreret og software-drevet infrastrukturplatform. Forfremmelse

    Alexander Hoffmann

    GlobalConnect