Øjet er en dataminer

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 15. december 2006.


Vores syn er fantastisk effektivt til at forstå data. Med bedre teknologi kan det gøre os klogere og dygtigere.

Lad os starte med et tankeeksperiment: Hvis der stod mellem ti og tyve q'er i teksten på denne side, hvor lang tid ville det så tage dig at finde dem alle sammen?
For mig ville det tage nogle minutter, og jeg ville være betragteligt usikker på, om jeg havde fundet alle.
Hvis nu de samme q'er var trykt med orange farve? Så kunne de fleste af os formentlig finde dem på få sekunder og med større sikkerhed.
Det er så indlysende, at det næsten er fornærmende at konstatere, men vores øjne ser ikke på alting på samme måde. De orange q'er fanger vores øje, fordi de afviger - en simpel analyse af det sete.

Men synet er ikke simpelt, det er snarere et mirakel, hvordan øjet og synet - dette stykke wetware - kan forvandle strømmen af lys til relevant information.
Det reflekterede lys fra disse bogstaver går først gennem en tynd hinde af vand. Derefter passerer det gennem hornhinden, som er lavet af stoffet keratin. Det kender vi fra vores negle og såmænd også edderkoppers spind. Det er et superstærkt protein, der kan organiseres i bundter af fibre, og når det sker på den helt rigtige måde, bliver de gennemsigtige - en slags lysledere.
Derefter passerer lyset gennem linsen og glaslegemet, indtil det rammer nethinden, hvor det udløser en kolossal mængde kemiske processer med masser af proteiner, blod og ilt.
Lige under laget af lysfølsomme celler ligger der lag på lag af nerveceller, som efterhånden samles og strækker sig og bliver til synsnerven. Her begynder lyset at blive lavet om til data - eller hvad vi skal kalde det, for faktisk aner vi ikke, hvilken struktur informationer båret af nervesignaler har.
Meget tyder på, at data ikke bliver sendt og modtaget på den måde, vi kender fra computere. Snarere er der tale om, at informationerne bliver bearbejdet af hver eneste nervecelle, de passerer.
Men der er to ting, vi kan være rimeligt sikre på:
Det er rasende komplekst.
Det virker - ellers kunne du ikke læse det, du lige har læst.

Wetwaren er udviklet gennem millioner af års evolution, så vores syn reagerer på ting, der har betydning for os.
Det er selvfølgelig ting fra Wet World. Modne frugter, der hænger skjult blandt blade, et jagende dyrs pupiller og de små muskelbevægelser i ansigtet på et andet menneske.
Det har ikke meget at gøre med data fra den digitale verden. Men det kan det få, hvis vores data bliver præsenteret på den rigtige måde. Videnskaben om denne præsentation hedder visuel analytics og en fremtrædende forsker på området er professor Daniel Keim fra Universitet i Konstanz i Tyskland.
Han har lavet nogle højst interessante eksperimenter med visualisering af data inden for felter, der går fra at opdage hackertrafik på store netværk til, hvordan vi kan organisere og forstå vores e-mail bedre.

Eksemplet med q'erne handler om, hvordan øjet prioriterer. Daniel Keim giver et mere komplekst eksempel med en lønstatistik. Hvis den indeholder 10.000 tal, så er den uhyre vanskelig at håndtere, hvis man læser tallene - selv hvis man både har søgeredskaber og statistiske redskaber.
Hvis man derimod kan lave en visuel model, forstår man på få sekunder datasættet på en måde, som dages talanalyse ikke vil give. Man får et kort over fordelingen af lønningerne, og for eksempel større grupper med afvigende lønninger vil straks falde i øjnene.
Det mest spændende er, at med talanalyser får man kun det at vide, som man søger efter - væsentlige bevægelser kan være skjult, fordi man ikke finder på at søge efter dem. I den visuelle præsentation vil de i mange tilfælde dukke op af sig selv som en slags orange streger, der påkalder sig opmærksomhed og nærmere analyse.

Vi har alle prøvet at bruge den slags, fordi ethvert regneark kan lave en visuel præsentation. Men professor Keim har for længst forladt søjlediagrammerne. Han arbejder blandt andet med nogle teknikker, hvor hver eneste pixel i diagrammet har betydning. Det giver en meget mere finkornet analyse, og så giver det billeder, der begynder at ligne fotografier.
Faktisk har han forsøgt at bruge denne teknik sammen med søjlediagrammer. Nemlig ved at lade hver enkelt pixel i søjlen repræsentere et enkelt undersæt af data og så lade pix­elen skifte farve og placering i søjlen alt efter, hvilke særlige egenskaber dette undersæt har. Det kan give en mere nuanceret forståelse af for eksempel kundeadfærd.

Det er ikke helt så intuitivt forståeligt, som hans arbejde med at organisere e-mail. Det startede med et projekt, der skulle gøre det lettere at forstå, hvor spammail kom fra. Normalt ser vi på mail sorteret efter bibliotek, afsender og måske emne eller dato -men vi kan kun sortere efter en egenskab ad gangen.
Keim lavede et program, der kunne kortlægge mails efter alle de oplysninger, der altid er kendte - tidspunkt, afsender, afsenders geografiske placering, mailens placering på ens harddisk og emneord. På den måde får man et dynamisk kort, der organiserer e-mail helt anderledes, end vi ellers kender det.
For Keim betød det blandt andet, at han straks opdagede, at en fjerdedel af al hans spammail kom fra Indiana i USA - den spam blev pludselig let at sortere væk.
Systemet kan ikke bruges til at finde en enkelt mail med et bestemt emne. Det er beregnet til at forstå mailtrafik. Men det er for eksempel meget effektivt til at se fejl med de mailsorteringsmekanismer, de fleste af os bruger. Mails, der bliver fejlsorteret, vil være meget tydelige at se på kortet.

Et lovende område er analyse af vores gener. Her har man stærkt brug for nye teknologier til at forstå, hvordan generne fungerer. Kortlægningen af vores gener, som under stor medieopmærksomhed blev færdig for et par år siden, er kun første skridt i den retning. Det viser sig, at generne har enorme og meget komplekse relationer, hvor de er gensidigt afhængige af hinanden i netværk.
Samtidig er biologernes viden om generne meget usikker - lidt chokerende for den tyske matematiker Keim. Gener har mange variabler, og de fleste er behæftet med usikkerheder så store, at det i mange tilfælde er mere korrekt at tale om antydninger end viden.
Hvis man skulle sammenligne med tankeeksperimentet først i artiklen, så svarer forståelsen af et gen til at finde femten mørkeblå bogstaver, der danner navnet på en ukendt landsby i Qinghai provinsen - i samtlige udgaver af Computerworld, og mens man bærer fedtede briller af forkert styrke.

Daniel Keims opgave er at justere brillernes styrke og pudse glassene. Visuel analytics bygger på en intuitiv forståelse af visuelle data. Ordet intuitiv bliver ofte brugt som betegnelse for en magisk sort kasse, hvor der sker noget smart, som vi ikke forstår.
Men en del af vores visuelle intui­tion er allerede udforsket. Perceptionspsykologer har i årtier studeret, hvordan vi opfatter verden. Jo mere der forskes i synet, jo tydeligere bliver det, at vores perception har et hav af særheder - og at vi indtil nu sandsynligvis kun har opdaget de simplere af dem. Det er også tydeligt, at den måde, vores hjerne danner forståelse på, starter helt ude i øjnene.
Synet er en integreret del af både bevidsthed og intuition. Daniel Keim tror, at hvis vi er i stand til at udvikle tilstrækkeligt avancerede visualiseringer, så vil de øge vores evne til at forstå komplekse sammenhænge. Man kan næsten sige, at vi bliver klogere.

Det er imidlertid ikke kun percep­tionspsykologi. Daniel Keim har også store forventninger til en meget enkel teknologisk forbedring: større skærmareal og -opløsning. På hans institut i Konstanz har de en gigantisk skærm på fem gange to meter og en opløsning på 10 megapixels.
Når han har samarbejdspartnere på besøg, og de for første gang ser deres data præsenteret på den skærm, sker det ofte, at de bliver hængende en hel aften foran skærmen. Deres data taler pludselig til dem en ny måde.
Hvis flere pixels er nok til at forstå mere, så er der rige udviklingsmuligheder. En normal 21" skærm har en opløsning lige under to megapixel, en 30" kommer over fire megapixel og man mener, at vores syns fysiske opløsning ligger på 300-600 megapixel.
Vi aner en fremtid, hvor 60" skærme er en eksistensbetingelse, og hvor børn fra børnehaven og frem trænes i at forstå og analysere kompleks datagrafik. Vores børn kunne blive hjemmevante i en avanceret grafisk forståelse af verden, som er bedre end noget, vi i dag har en anelse om.

Mere om Daniel Keim: infovis.uni-konstanz.de/~keim

Jan Skøt skriver hver uge om grænsefladen mellem menneske og maskine - der hvor den digitale kultur tager form. Jan Skøt er cand.phil. i dansk med speciale i medieanalyse. www.skot.dk

Billedtekst: indbakke?Sådan ser din mailboks ud, hvis mailen er sorteret med Daniel Keims Mailexplorer. Her er mailen sorteret efter geografisk område, først lande og siden byer.

Billedtekst: Kundeanalyse?Hver enkelt pixel i søjlediagrammet har en særlig betydning. På den måde bliver det lettere at se, hvordan en enkelt kundes adfærd adskiller sig fra andre, der gør næsten det samme.

Billedtekst: overflow?VisualPoints systemet er et forsøg på at visualisere den type geografiske data, hvor man ofte har mange punkter tæt på hinanden og derfor får informa­tionsoverflow på en lille skærm.

OriginalModTime: 14-12-2006 12:35:13




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Brother Nordic A/S
Import og engroshandel med kontormaskiner.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Virksomhedsplatforme i forandring: Hvordan navigerer du i den teknologiske udvikling?

Hvordan finder du balancen mellem cloud- og hybride løsninger? Hvordan integrerer du legacy-applikationer ind i dit nye ERP-setup? Hvordan undgår du at havne i statistikken over store ERP-projekter, der fejler eller overskrider budgetterne?

14. maj 2025 | Læs mere


Computerworld Summit 2025, København – AI transforming business

Årets uomgængelige konference for dig, der er med til at træffe beslutninger om din organisations teknologiske fremtid, og vil have det samlede overblik over aktuelle tendenser i IT-branchen.

27. maj 2025 | Læs mere


Årets CIO 2025

Vi skal finde Årets CIO 2025 og den kvinde eller mand, som i et helt år kan bryste sig af at være landets bedste CIO.

03. juni 2025 | Læs mere