Avatar billede chrisbookwood Nybegynder
21. september 2008 - 21:00 Der er 12 kommentarer

Indeksering af websider

Hej dav, (ser for meget comon webTV:P)
jeg sidder og skal have fat i forskellig informationer fra en bruger inputtet hjemmeside. At få fat i titlen på siden var nemt nok, men nu vil jeg også godt have fat i et resumé af (lad os sige det er et blog indlæg) så vil jeg godt kunne udtrække blogindlægget. - det kan i teorien være alt muligt andet end et blog indlæg.
Det åbner jo for nogen åbenlyse problemer, som f.eks. at man ikke på forhånd aner hvilke elementer der er menuen, indlægget, header osv.

Jeg prøver ikke at få noget kode af jer, men derimod teorien bag. Hvordan indeksering af ukendte hjemmesider virker, og evt. kan gøres.

På forhånd tak.
Avatar billede olebole Juniormester
21. september 2008 - 21:46 #1
<ole>

Hvorfor ikke bare skrive til indehaveren af sitet og spørge om du kan få et feed? Uden hans udtrykkelige, skriftlige tilladelse kan du jo alligevel ikke bruge hans indhold til ret meget  =)

Derudover kunne du jo kikke lidt i andre tråde på Eksperten - og evt. søge gennem Google's fremragende, avancerede søgeinterface:
    http://www.google.dk/advanced_search?hl=da

Såvidt jeg kan se, ligger der dog indenfor de seneste 15 tråde i kategorioversigten én om samme emne. Formålet med Eksperten er 'hjælp til selvhjælp' på alle måder - herunder at danne en enorm vidensbase  ;o)

/mvh
</bole>
Avatar billede chrisbookwood Nybegynder
21. september 2008 - 22:44 #2
Fordi det er en hjemmeside fra brugerinput - bruger skriver en hjemmeside, og webapp'n leverer så blandt andet et resumé af blog indlægget, hvis hjemmesiden var en blog.

Jeg har skam søgt på google, men kunne ikke rigtigt finde noget jeg kunne bruge:)
Avatar billede chrisbookwood Nybegynder
22. september 2008 - 12:16 #4
Jamen ole altså, det skal jo ikke være en crawler - spørgsmålet lyder; (omformuleret) hvordan indeksering jeg f.eks. tv2.dk? Hvordan får jeg applikationen til at finde ud af hvilke tags der indeholder main-inholdet, menuen, header, osv.?
Avatar billede olebole Juniormester
22. september 2008 - 13:56 #5
Jamen, chrisbookwood altså ... du beskriver jo en crawler så præcist, som det kan gøres. Svaret lyder: Det er en crawler, du skal bruge  ;o)
Avatar billede olebole Juniormester
22. september 2008 - 14:00 #6
- men derudover bliver du ved med at efterlyse ting, vi ikke kan hjælpe dig med. Da du har fortalt, du skal bruge resultatet på en hjemmeside, kan vi naturligvis ikke hjælpe dig med, hvordan du crawler/indekserer TV2's hjemmeside  =)

Derfor må det endelige svar nok lyde: Skriv til indehaveren og spørg, om du må få et feed
Avatar billede chrisbookwood Nybegynder
22. september 2008 - 17:29 #7
jamen, ikke hvordan du crawler tv2 ... hvordan du crawler en hvilken som helst hjemmeside... Der må jo være en måde f.eks. google osv gør det på. De har jo ikke en algoritme for hver evig eneste hjemmeside. Og jeg kan ikke skrive til indehaveren, for det er en automatiseret app, ikke noget som helst manuelt værk... Brugeren taster en url ind og sender det afsted, hvor app'n så skal crawle den hjemmeside og returnere forskelligt indhold til brugeren om den hjemmeside.
Avatar billede chrisbookwood Nybegynder
22. september 2008 - 17:31 #8
Oh, og ole - ja, det er rigtigt hvad du siger omkring crawler - jeg forbandt bare "crawler" med noget lidt andet, da jeg skrev det svar:P
Avatar billede olebole Juniormester
22. september 2008 - 18:23 #9
Men det er et kæmpe arbejde, når der ikke skal crawles specielle sider. Det eneste, du kan læse, er jo sidens markup kode - så du skal skrive både en HTML-parser og nogle algoritmer, der kan finde, hvad du er interesseret i udfra HTML-koden.

Hvis man skriver den slags, lægger man det ikke til gratis download - men tjener millioner i stedet. Derfor skal du nok påregne at skrive parser og algoritmer mere eller mindre selv  ;o)
Avatar billede chrisbookwood Nybegynder
22. september 2008 - 18:38 #10
ja, selvfølgelig - det var også det jeg skrev tidligere med at jeg ikke ledte efter kode, men derimod teknikken til hvordan det kan gøres ... ellers lærer jeg jo intet selv. Men jeg er jo lidt nød til at gøre det på den måde, eftersom det er en stor del app'n bygger på. Og det kan blive utroligt lærerigt.
Avatar billede olebole Juniormester
22. september 2008 - 19:01 #11
Præcis! Vi var vist mange, der i NewsBooster-dagene gik og rodede med gode idéer og fik lært en masse  ;o)

Du skal nok også have fat i:
    http://dk.php.net/manual/en/function.preg-match-all.php
    http://dk.php.net/manual/en/function.preg-replace.php
    http://dk.php.net/manual/en/function.preg-replace-callback.php
Avatar billede chrisbookwood Nybegynder
22. september 2008 - 19:33 #12
så kunne du jo passende dele nogen af dine idéer kort, mens jeg prøver at finde en måde at gøre det på selv. Jeg må ærligt indrømme - jeg har lidt svært ved at forestille mig hvordan jeg ud fra tags kan finde ud af hvad indholdet faktisk er, eftersom der jo ikke er nogen norm for hvordan man laver en hjemmeside ... Det er derfor xml er så smart, desværre har alle hjemmesider dog ikke et feed:P
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Vi tilbyder markedets bedste kurser inden for webudvikling

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester