Forskere udvikler ny søgeteknologi

En ny søgealgoritme skal redde nettets søgemaskiner, der truer med at drukne i informationsoceanet. Ved at analysere hyperlinks kan websider grupperes i tematiske fællesskaber.

Forskere fra NEC Research Institute har udviklet en ny søgemetode, som ikke beskæftiger sig med tekstindholdet på websider, men udelukkende bruger hyperlinks til at finde sider der hører sammen. Gary Flake, der leder forskerholdet, fortæller at nettets websider har en overraskende tendens til at organisere sig selv i små grupper eller fællesskaber. Søgealgoritmen finder sådanne grupper og ignorerer alt det irrelevante indhold.

- Hver side på nettet kunne teoretisk set linke til alle andre sider. Men det gør den ikke, siger Gary Flake. I stedet samler websiderne sig i "sociale grupper", der - i det mindste hvad angår links - holder sig for sig selv. Man linker til hinanden og markerer dermed, at man "hører sammen".

Flake definerer et "web community" som en gruppe af websider, hvor mere end halvdelen af alle links peger på andre medlemmer i den samme gruppe.

Metoden kan sammenlignes med kataloger som Yahoo og Jubii, hvor websider sorteres i kategorier, men de kræver en stor arbejdsindsats fra redaktører som skal vurdere hver enkelt side.

NEC Research Institute fortæller at denne form for sortering er overflødig - for nettet kan sagtens organisere sig selv. Den nye algoritme finder frem til de tematiske grupper, som allerede eksisterer gennem henvisninger på kryds og tværs af websider.

Den danske søgemaskine-ekspert Mikkel deMib Svendsen mener at projektet er interessant, men han peger på at teknologien ikke kan stå alene.

- Det er alene den automatiske klassificering af webdokumenter som NEC arbejder med - for at finde nært beslægtede grupper af dokumenter - og ikke indeksering, som også er meget vigtig. Det er en brik i et spil, der handler om at forbedre søgning generelt - ikke en magisk løsning på alle verdens problemer i sig selv, siger han.

For at afprøve metoden brugte Gary Flake tre berømte forskeres hjemmesider - Francis Crick, Ronald Rivest og Stephen Hawking - som udgangspunkt for en søgning. Til sidst havde computeren fundet omkring 200 websider i hver af de tre grupper, som indholdsmæssigt var meget tæt knyttet til startsiden. Til sammenligning returnerer Google omkring 58.000 træffere, hvis man søger efter "Stephen Hawking".

Indtast "september 11" hos Google og søgemaskinen fremtryller en uoverskuelig liste med 5,5 mio. træffere. Gary Flake bruger den 11. september som et eksempel på, hvordan den nye søgemetode kan bringe orden i kaos. Ved at starte med en håndfuld websider kunne søgeprogrammet identificere en gruppe med 6.257 websider som er direkte relateret til begivenhederne den 11. september og linker til hinanden.

Søgemetoden kan afprøves på nedenstående adresse.

Link:

  • Self-Organization and Identification of Web Communities




  • Brancheguiden
    Brancheguide logo
    Opdateres dagligt:
    Den største og
    mest komplette
    oversigt
    over danske
    it-virksomheder
    Hvad kan de? Hvor store er de? Hvor bor de?
    Konica Minolta Business Solutions Denmark A/S
    Salg af kopimaskiner, digitale produktionssystemer og it-services.

    Nøgletal og mere info om virksomheden
    Skal din virksomhed med i Guiden? Klik her

    Kommende events
    Cyber Security Summit 2025: Her er truslerne – og sådan beskytter du dine kritiske data

    Deltag og få værktøjer til at beskytte din virksomhed mod de nyeste cybertrusler med den rette viden og teknologi.

    19. august 2025 | Læs mere


    Cyber Security Summit 2025 i Jylland

    Deltag og få værktøjer til at beskytte din virksomhed mod de nyeste cybertrusler med den rette viden og teknologi.

    21. august 2025 | Læs mere


    AI i det offentlige: Potentiale, erfaringer og krav

    Hør erfaringerne med at anvende AI til at transformere og effektivisere processer i det offentlige – og med at sikre datakvalitet, governance og overholdelse af retningslinjer.

    27. august 2025 | Læs mere