Artikel top billede

Chihuahua eller muffin – hvad ser du på billedet?

Klumme: Når alle taler om digitaliseringens gigantiske potentiale, bør man i samme moment italesætte de gigantiske udfordringer, der også er med moderne teknologi.

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Djævlen ligger i detaljen. Det udtryk kender de fleste, men når man bliver iværksætter, går udtrykket fra at være en kliche til at blive hverdag og virkelighed.

En god måde at illustrere det på er i min egen vækstvirksomhed, hvor vi arbejder med billeder.

Vi bygger en søgemaskine, der skal gøre det let og hurtigt at finde det helt rigtige billede til ethvert formål, og hvor svært kan det lige være, tænker du nok.

Det tænkte vi i hvert fald selv, da vi gik i gang for to år siden.

På billedet i artiklens indledning ser du en hel masse fotos, der er meget tætte på hinanden i udtryk.

For en computer kan det være enormt vanskeligt at skelne imellem, hvorvidt der er tale om en nuttet lille hund eller en kage, og det illustrerer udmærket problemet. Billedgenkendelse er hamrende komplekst.

Lad mig gi’ dig et andet eksempel – en mand der surfer:

Din hjerne er et fantastisk værk, så den ser den lynhurtigt, og så snart du har fået forklaret, at det er en person, der surfer, så kan du genkende det i søvne. Så intelligent og god til mønstergenkendelse er den menneskelige hjerne.

Så har vi den hersens kunstige intelligens; maskinlæring; pattern recognition; computer vision. Kært barn har mange navne.

Der er ingen grænser for de computerkræfter, vi har til rådighed i dag, hører man ofte, så hvor svært kan det lige være at bede en computer gøre det, som din banale hjerne kan lære på få sekunder?

Det er fandens svært, skal jeg hilse og sige.

Her er det, at al hypen og alle de fluffy ord omkring kunstig intelligens, der overtager verden, bliver til hverdag og virkelighed på en skøn iværksætteragtig måde, for det at træne en maskine til at forstå billeder er vanvittigt komplekst.

Store virksomheder som Microsoft, Google, Amazon, Clarifai m.fl. poster milliarder i det, men der er fortsat et utal af tilfælde, hvor deres algoritmer tager fejl på ganske både grinagtige og pinagtige måder.

For at forstå kompleksiteten i opgaven så lad os vende tilbage til surferen. Kører man ham igennem en såkaldt attention-baseret model – dvs. en model, der forklarer os, hvordan computeren dissekerer billedet for at forstå dets indhold - så får du følgende output:

Computeren har endda forsynet billedet med en såkaldt ’caption’ – dvs. en titel og maskinens bedste forsøg på at beskrive, hvad den ser, og som det fremgår ovenfor rammer den rent faktisk plet i dette tilfælde.

Udfordringen er imidlertid, at den måde, hvorpå den deler billeder op, samtidig illustrerer, at den er ganske sårbar, når det kommer til den forståelse af pixels, indhold og koncepter i motivet. I nogle mere enkle eksempler er den ganske god såsom dette billede, hvor dens angivelse af labels er korrekt:

Imidlertid kræver det blot nogle få justeringer af billeder i deres naturlige form, før det går fuldstændig galt for maskinen, som disse eksempler viser:

For det blotte øje kan det være vanskeligt at se, hvad der er sket, men det er en række AI-forskere på Berkeley universitetet, som bevidst har indsat små forskydninger i motiverne for at forvirre computeren, og det er de i den grad lykkedes med.

Tager man billedet med menneske, der jubler, så vil den menneskelige hjerne uden problemer kunne identificere tre mennesker, der formentlig fejrer en veloverstået eksamen eller lignende, men computeren identificerer en fakkel – og endda med 98 procents sikkerhed.

Jeg fortæller dig alt dette for at illustrere, at når alle taler om digitaliseringens gigantiske potentiale, så bør man i samme moment italesætte de gigantiske udfordringer, der også er med moderne teknologi.

Vores eksempel med billedgenkendelse og forståelse viser, at hele snakken omkring maskiners intelligens nogen gange løber fuldstændig løbsk i fascination og glemmer at forholde sig til kompleksiteten i detaljerne.

Derfor bør vi som virksomheder og ledere huske at grave ned under hypen og virkelig sætte os ind i disse teknologier, før vi tror, at de kan løse alverdens problemer for os.

Når vi gør dette, så oparbejder vi samtidig den dybdeviden indenfor et givent domæne, som kan blive rigtig mange penge værd i fremtiden. Uanset om det så måtte være indenfor algoritmer, der kan genkende billeder; forudsige aktiekurser; spotte cancer eller noget helt fjerde.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.