Artikel top billede

Dansk projekt: Udklæk brugbar data fra tekstfiler

Tema: En dansker er sammen med en gruppe spaniere i gang med at udvikle et system, der finder sammenhænge mellem tal i virksomhedens datawarehouse og tekstdokumenter.

I en virksomhed falder salgstallet i et bestemt marked, men måske findes forklaringen ikke i ens taldata, men i en e-mail, virksomheden tidligere har modtaget.

Sammen med spanske kolleger har Torben Bach Pedersen fra Center for Dataintensive Systemer på Aalborg Universitet i denne uge fremvist en prototype på et system, der kan finde forklaringer på dataudsving i "bløde" tekstkilder.

Det skete på en international konference for databaser i Tyrkiet, hvor der ifølge Torben Bach Pedersen var stor interesse for at høre om teknologien ved fremvisningen onsdag og torsdag.

Multidimensionelle data

Med OLAP – online analytical processing – kan business intelligence-programmer analysere datawarehouses, hvor data er "bundet til hinanden".

Man arbejder med multidimensionelle data, hvor dimensionerne for eksempel kan være måneder, typer, kunder, produkter og regioner.

Altså kan man finde meget snævre sammenhænge i tallene - men én dimension har manglet.

"Vi ser i virksomhederne, at de har deres datawarehouse og utrolig meget taldata fra regnskaber og så videre. Og så har de en masse tekst-information. Det kan både være fra eksterne kilder og interne dokumenter. Men det er svært at binde data og tekst sammen, så man kan finde sammenhænge på tværs af informationstypen," siger Torben Bach Pedersen.

Sammenhænge mellem aktiekurser og Irak

Prototypen er blevet testet ved at lade programmet hente data for verdens aktiemarkeder. Samtidig har gruppen bag indsat artikler fra erhvervsaviser.

Torben Bach Pedersen og kollegerne har så søgt efter "Iraq" i programmet. Derefter har den fundet de markedsudsving, der ifølge erhvervsaviserne har haft noget med Irak at gøre.

Den søger altså ikke bare efter ordet "Iraq", men også hvor relevant ordet er i sammenhængen.

Den ser blandt andet på, hvilke værdier, som artiklen nævner, og som den kan genkende i data fra datawarehouset.

"Det viser sig, at det traditionelt er det japanske marked, der er mest følsomt over for uro i Irak på grund af Japans olieafhængighed," siger Torben Bach Pedersen.

Derimod var det tyske aktiemarked ikke særligt påvirket, og programmet fandt tekstbidder, der fortalte, at Tyskland fik mindre end to procent af sin olie fra Irak og Kuwait.

Ingen textmining i Danmark endnu

Den dansk/spanske gruppe er ikke den eneste, der arbejder med at grave efter årsager og konsekvenser i tekster og ikke kun i traditionelle datawarehouses.

Ernst Kier er salgschef i det nordiske BI-konsulenthus Platon og fortæller, at især SAS Institute og SPSS arbejder med den relaterede textminingsteknologi.

Ved textmining er teksten en selvstændig datakilde, hvor det måske nok er muligt at finde sammenhænge mellem kurser og tekster, men du kan ikke søge automatisk i alle dimensioner på en gang.

Efterspørgslen er dog stadig efter den traditionelle datamining, og Platon har derfor slet ikke haft nogle textminingsopgaver.

"Der skal først være en businesscase, og derfor er nogle nødt til at løbe forrest. Det er fornuftigt, at universiteter hjælper med at løbe det i gang, og det skal nok blive stort på et tidspunkt," siger Ernst Kier.

Det dansk/spanske system henter for nuværende dokumenter ind i et dokument-warehouse via XML, men planen er på længere sigt, at det kan finde kilder på hele internettet via søgemaskiner.




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Despec Denmark A/S
Distributør af forbrugsstoffer, printere, it-tilbehør, mobility-tilbehør, ergonomiske produkter, kontor-maskiner og -tilbehør.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Datadrevet forretning: Skab enestående kundeoplevelser med viden og data i centrum

Data står i centrum, når du skal styrke kundeoplevelsen – eller det burde det i hvert fald gøre. På denne konference vil du møde eksperter indenfor CX og komme i dybden med, hvordan du sætter data, transparens og viden til at arbejde for dig i din Customer Experience-strategi.

07. maj 2024 | Læs mere


Kunstig Intelligens (AI) Masterclass - fra futuristisk idé til uundværlig ressource

Velkommen til en Masterclass om kunstig Intelligens (AI) og den transformative kraft, som kan tage din organisation og karriere til næste niveau. AI er gået fra at være en futuristisk idé til at blive en uundværlig ressource for virksomheder over hele verden og har allerede sat sit præg på den måde, som vi arbejder på, træffer beslutninger og kommunikerer med vores kunder.

07. maj 2024 | Læs mere


Parathed – Hvad gør din virksomhed, når I bliver ramt?

Cyberkriminalitet vokser som bekendt eksplosivt i takt med digitaliseringen i disse år og det kan være voldsomt dyrt at blive hacket. Potentielt kan det lægge jeres forretning helt ned, så I ikke kan rejse jer igen. Har jeres virksomhed styr på cybersikkerheden i en tid, der kalder på oprustning? Bliv inspireret til, hvad du som virksomhed kan gøre for at sikre virksomheden og medarbejdere, så I kan gå sikkert ind i fremtiden.

21. maj 2024 | Læs mere