Nu er det i tekstdokumenter der skal graves efter guld

19. december 2003 kl. 00.00

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 19. december 2003.

80 procent af en virksomheds viden er lagret i tekster, men det har hidtil kun været muligt at anvende en brøkdel af informationerne. Text mining er en helt ny mineskakt, hvor analyseguldet ligger og venter.

Minedrift
Du mener at have fundet en kur mod psoriasis, men først skal du have tjekket 12 millioner artikel-resumeer i den amerikanske National Library of Medicine's PubMed database. I øvrigt et antal, der øges med 40.000 om måneden fra 4.600 magasiner.
Det er en grim bestilling at få noget fornuftigt ud af sådanne oceaner af informationer, men fortvivl ej. Løsningen venter lige om hjørnet i form af det sidste nye inden for business intelligence: text mining.
Op mod 80 procent af vores viden er angiveligt lagret i tekstform såsom e-mails, breve, hjemmesider, artikler og så videre. Hidtil er der ikke blevet gravet særlig dybt efter værdifuld viden i disse tekstbaserede informationer, men det bliver der nu med lanceringen af endnu et data mining/ business intelligence buzz word - text mining.
- I Japan supplerer mange data mining med text mining, og den tendens er også på vej i Europa og herhjemme, siger Torben Gadfelt, dansk direktør for den amerikanske BI-leverandør SPSS, der har et text mining-produkt at gøre godt med.

250.000 sider i minuttet
Et menneskes læsehastighed er normalt cirka 60 sider i timen. Dertil skal lægges tid til at tage noter og tænke over teksterne. Med værktøjer som SPSS LexiQuest til text mining kan der opnås læsehastigheder på op til 250.000 sider i timen - kun begrænset af den tilgængelige computerkraft. Ved text mining bliver teksterne "læst" for specifikke ord, kendte såvel som nye begreber, relationer mellem begreber i den enkelte tekst og sammenhænge, der går på tværs af teksterne. Resultaterne bliver præsenteret i grafiske informationstræer og dynamiske kort, der illustrerer kildernes indhold og tilknytning til hinanden. Man kan umuligt nå selv at læse teksterne, men med text mining får man indblik i deres indhold og konklusioner og kan få blotlagt de sammenhænge, man leder efter.
SPSS forestiller sig, at politiefterforskning, medicinsk forskning, sprogforskning, aktieanalyser og analytisk CRM (Customer Relationship Management) er oplagte områder at kaste efter det nye BI-koncept.
Ifølge ledelsen hos SPSS er firmaet tæt på at lukke den første ordre, der omfatter text mining. Angiveligt er et af Danmarks største teleselskaber interesseret i at bruge text mining til at analysere kundeinformationerne i dets call center. Flere medicinalvirksomheder har også vist interesse for værktøjerne.
Ifølge SPSS har politiet i en række europæiske lande brugt text mining til at optrevle netværk af pædofile, som kommunikerer over nettet ved hjælp af tekstbeskeder skrevet i kode. Ligeledes er redskaberne blevet brugt til at
kortlægge kommunikation mellem medlemmer af terrororganisationer.

Avanceret teknik
I teknisk forstand består tekster af ustrukturerede data, hvor betydningen er afhængig af den sammenhæng, ordene optræder i. Kort sagt går text mining derfor ud på at omdanne ustruktureret tekstinformation til struktureret indhold. Den proces kræver to typer af analyse:
Lingvistisk analyse, som blandt andet opfanger forskellige typer af ord, den kontekst, de indgår i, og ordenes betydning.
Statistisk analyse, som blandt andet fortæller, hvor og hvor ofte ordene optræder, hvilke relationer teksterne har til andre tekster, og hvilke informationsmønstre teksterne indeholder.
Umiddelbart lyder processen måske enkel, men teknikken bag analyserne er meget avanceret. Værktøjerne lærer at genkende begreber ved, at man "fodrer" systemerne med emne- og branchespecifikke betegnelser. Man opbygger så at sige systemets ordforråd. Desuden bruger systemet referencetekster til at udlede indholdet.
SPSS har to text mining-løsninger: LexiQuest, som er et selvstændigt værktøj, og Text Mining for Clementine, der giver mulighed for at kombinere text mining og data mining.

Billedtekst:
- Mange virksomheder, private som offentlige, har store mængder ustrukturerede data, der med text mining kan indlemmes i de strukturerede data, som der laves data mining i, konstaterer Torben Gadfelt, direktør for SPSS i Danmark.