Googles pondus lægges bag stemme-teknologi

Googles størrelse vil hjælpe i udviklingen af talegenkendelse, mener forsker. Udgangspunktet er 230 millioner ord. Se hvad det kan blive til.

Artikel top billede

Computerworld News Service: Google udnytter sin cloud-infrastruktur og den kolossale mængde af indtastede søgeforespørgsler til at raffinere sin stemmesøgnings-funktion som en del af en massiv forskningsindsats inden for talegenkendelse.

Google stemmesøgning blev introduceret for omkring 18 måneder siden og gør det muligt for mobilbrugere at søge på nettet ved at tale ind i deres telefoner frem for at indtaste søgeforespørgslen. Funktionen er tilgængelig på iPhone, BlackBerry, Nokia Series 60 og visse Android-modeller.

Nøjagtighed udgør et af de store succeskriterier, så brugerne får brugbare søgeresultater, der gør, at de vender tilbage til tjenesten, forklarer Michael Cohen, der er chef for stemme-teknologi hos Google, i et oplæg torsdag under Mobile Voice Conference i San Francisco.

Virksomheden arbejder på at gøre stemmesøgning til en "gnidningsfri" oplevelse for brugeren, der ubesværet får korrekte søgeresultater. Det har dog været en lang kamp, der har taget årtier, at gøre talegenkendelse nøjagtig nok, og Google lægger sin store vægt bag indsatsen for at løse problemet, fortæller Cohen.

Hunde taler ikke

Googles stemmesøgning er baseret på "sprogmodeller", som er statistiske modeller for hvilke sekvenser af ord, der fremkommer med størst sandsynlighed. En god sprogmodel ved eksempelvis, at det er mere sandsynligt, at en person siger "the dog barked", end at nogen siger "the dog talked".

Google "træner" konstant nye sprogmodeller til sin talegenkendelses-engine, fortæller Cohen. Det gør virksomheden blandt andet ved at udnytte de søgetermer, som brugerne indtaster i Googles søgemaskine. Ud fra 230 millioner ord, der er indtastet i søgeforespørgsler på Google.com, har forskerne samlet de en million mest almindeligt brugte unikke ord i en ordliste til at træne stemme-systemet.

Begge disse tal er arbitrære, og 230 millioner repræsenterer ikke det samlede antal ord, der er indtastet i Googles søgemaskine i nogen given periode, afklarer Cohen.

AskOxford.com fra forlaget bag Oxford English Dictionary, vurderer, at der mindst er 250.000 ord i det engelske sprog; Cohen forklarer, at de en million unikke ord inkluderer flertalsformer og andre former af ordene.

Langt træningsprogram

Det tager 70 "CPU-år" - den mængde arbejde, en CPU kan udføre på et år - at behandle disse 230 millioner ord fra Google.com og optræne en ny sprogmodel, oplyser Michael Cohen. Google optræner konstant nye sprogmodeller som en del af forskningen.

"Der stilles enorme beregningsmæssige krav, da vi hele tiden udvider med mere og mere data og større og større modeller," fortæller stemme-teknologichefen.

"Heldigvis har vi masser af beregningskraft, som vi kan benytte. Der stilles også krav til infrastrukturen, og heldigvis har Google en meget veldesignet software-infrastruktur, så vi kan gøre ting såsom hurtigt at parallelisere noget" ved at køre det på tusindvis af computere samtidigt, forklarer Cohen.

En cloud-infrastruktur giver også andre fordele inden for talegenkendelse, siger han. Google kan hurtigt teste og raffinere sin talegenkendelses-software og udsende nye versioner, mens forbrugerne allerede benytter sig af produktet. Derudover lærer Google af erfaringerne, ved at rigtige brugere benytter sig af funktionen stemmesøgning.

Udover at gøre talegenkendelse lettere at bruge sigter Google efter at gøre teknologien alment tilgængelig. Det var et stort skridt i den retning at inkludere en funktion i mobiltelefonen Nexus One, der giver brugeren mulighed for at afgive tale- i stedet for tasteinput, hver gang tastaturet er synligt på skærmen, fortæller Cohen.

YouTube - nu med undertekster

Talegenkendelse spiller også en stor rolle i Google Voice, der er virksomhedens tjeneste til transskription af talemeddelelser, også kaldet voicemail. Men Googles interesse i stemmeteknologier rækker længere end mobiltelefoni, siger Cohen.

Voice er den største gruppe i Google Research og forskningsresultater fra dette område kan vise sig at være brugbare i mange forskellige områder, fortæller han. Virksomheden vil gerne kunne forstå og levere tale-indhold på nettet på samme måde som med tekstindhold.

Som et skridt i denne retning har Google for nylig tilføjet mulighed for undertekster til YouTube-videoer. I forbindelse med denne funktionalitet er Google også begyndt at tilbyde fremmedsprogede undertekster ved hjælp af tekst-til-tekst-oversættelser af disse undertekster.

Michael Cohen var medstifter af Nuance Communications og har arbejdet med talegenkendelse i 25 år. I løbet af den tid er "teknologien kommet langt, men der er lang vej endnu," siger han.

Også Microsoft udvikler funktionalitet til stemmegenkendelse til sin søgemaskine, Bing.

Oversat af Thomas Bøndergaard

Annonceindlæg fra DE-CIX

Enhver strategi for applikationsmodernisering bør tage netværket med fra start

Modernisering af ældre on-premise-applikationer til cloud-løsninger er en topprioritet for virksomheder globalt.

Navnenyt fra it-Danmark

EG Danmark A/S har pr. 1. december 2025 ansat Søren Jermiin Olesen som Senior Product Manager. Han skal især beskæftige sig med finans- og debitorstyring i det offentlige med ansvar for økonomistyringssystemet EG ØS Indsigt. Han kommer fra en stilling som Product Manager hos KMD A/S. Han er uddannet Cand. oecon. Han har tidligere beskæftiget sig med økonomi bl.a. i Aarhus Kommune og været med til at udvikle NemØkonom før og efter salget til KMD. Nyt job

Søren Jermiin Olesen

EG Danmark A/S

Sentia har pr. 1. oktober 2025 ansat Morten Jørgensen som Chief Commercial Officer. Han skal især beskæftige sig med udbygning af Sentias markedsposition og forretningsområder med det overordnede ansvar for den kommercielle organisation. Han kommer fra en stilling som Forretningsdirektør hos Emagine. Nyt job
Norriq Danmark A/S har pr. 1. september 2025 ansat Søren Vindfelt Røn som Data & AI Consultant. Han skal især beskæftige sig med at effektivisere, planlægge og implementere innovative, digitale løsninger for Norriqs kunder. Han kommer fra en stilling som Co-founder & CMO hos DrinkSaver. Han er uddannet Masters of science på Københavns IT-Universitet. Nyt job

Søren Vindfelt Røn

Norriq Danmark A/S

Netip A/S har pr. 1. november 2025 ansat Laura Bøjer som Consultant, GRC & Cybersecurity på afd. Thisted. Hun kommer fra en stilling som Assistant Consultant hos PwC i Hellerup. Hun er uddannet med en kandidat i Business Administration & Information System på Copenhagen Business School. Nyt job

Laura Bøjer

Netip A/S