I dette særtema om aspekter af AI ser vi på skiftet fra sprogmodeller til AI-agenter, og hvordan virksomheder kan navigere i spændet mellem teknologisk hastighed og behovet for menneskelig kontrol.
De bruger ikke relationsdatabaser og dertil hørende tabeller, kolonner osv. Det er simpelthen for langsomt til den type opgaver.
Dokumentet ovenfor giver en fin indføring i det grundlæggende princip, men man skal naturligvis holde tungen lige i munden for at danne sig et overblik over systemet :)
Ok, det ser godt nok en smugle forvierende ud, men er der istedet nogle der så kan give et bud på hvorledes det ville se ud i en normal trationel database ;-)
Well, jeg har tidligere gjort det samme, dog "kun" med et par millioner sider (bl.a. derfor lå linket ovenfor i mine bookmarks), og jeg kan godt love dig, at det er et stort arbejde, der ligger forude :-)
Hvis du vil indexere samme mængde data som google, kan du ganske enkelt ikke proppe det ned i en database - med mindre, at dine brugere skal opleve søgetider på et par døgn ;-) Desuden skal der ekstreme mængder hardware til, og ustyrlige mængder båndbredde til crawlingen.
Når du starter i det små, er du næsten nødt til at lave det på samme måde som det skal se ud i den "store" version - ellers skal du jo alligevel starte forfra senere.
Husk også på de skrevne og uskrevne regler ifbm. crawling (META robots tag, robots.txt mv.).
Alt i alt, så skal du påregne et meget stort researcharbejde og ikke satse på at bruge en database - hvis du gør, kan den i hvert fald ikke indrettes på "traditionel" vis.
Den blev sådan set færdig, men desværre blev crawleren for langsom, og jeg opgav at forbedre den. Dermed kunne jeg ikke refreshe indexet mere end et par gange om året, og det er ikke nok. Desuden ville omkostningerne til båndbredde blive for store til at den kunne komme i drift for alvor.
Dog er jeg ved at overveje at prøve igen. Sidst implementerede jeg crawleren i Java og indexeringssystem og søgesystem i Pascal - jeg vil måske portere det hele til C++. For ja, det er sjovt at bygge, også selvom det ikke altid bliver til noget i sidste ende ;-)
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.