Hej dav, (ser for meget comon webTV:P) jeg sidder og skal have fat i forskellig informationer fra en bruger inputtet hjemmeside. At få fat i titlen på siden var nemt nok, men nu vil jeg også godt have fat i et resumé af (lad os sige det er et blog indlæg) så vil jeg godt kunne udtrække blogindlægget. - det kan i teorien være alt muligt andet end et blog indlæg. Det åbner jo for nogen åbenlyse problemer, som f.eks. at man ikke på forhånd aner hvilke elementer der er menuen, indlægget, header osv.
Jeg prøver ikke at få noget kode af jer, men derimod teorien bag. Hvordan indeksering af ukendte hjemmesider virker, og evt. kan gøres.
Hvorfor ikke bare skrive til indehaveren af sitet og spørge om du kan få et feed? Uden hans udtrykkelige, skriftlige tilladelse kan du jo alligevel ikke bruge hans indhold til ret meget =)
Derudover kunne du jo kikke lidt i andre tråde på Eksperten - og evt. søge gennem Google's fremragende, avancerede søgeinterface: http://www.google.dk/advanced_search?hl=da
Såvidt jeg kan se, ligger der dog indenfor de seneste 15 tråde i kategorioversigten én om samme emne. Formålet med Eksperten er 'hjælp til selvhjælp' på alle måder - herunder at danne en enorm vidensbase ;o)
Fordi det er en hjemmeside fra brugerinput - bruger skriver en hjemmeside, og webapp'n leverer så blandt andet et resumé af blog indlægget, hvis hjemmesiden var en blog.
Jeg har skam søgt på google, men kunne ikke rigtigt finde noget jeg kunne bruge:)
Jamen ole altså, det skal jo ikke være en crawler - spørgsmålet lyder; (omformuleret) hvordan indeksering jeg f.eks. tv2.dk? Hvordan får jeg applikationen til at finde ud af hvilke tags der indeholder main-inholdet, menuen, header, osv.?
- men derudover bliver du ved med at efterlyse ting, vi ikke kan hjælpe dig med. Da du har fortalt, du skal bruge resultatet på en hjemmeside, kan vi naturligvis ikke hjælpe dig med, hvordan du crawler/indekserer TV2's hjemmeside =)
Derfor må det endelige svar nok lyde: Skriv til indehaveren og spørg, om du må få et feed
jamen, ikke hvordan du crawler tv2 ... hvordan du crawler en hvilken som helst hjemmeside... Der må jo være en måde f.eks. google osv gør det på. De har jo ikke en algoritme for hver evig eneste hjemmeside. Og jeg kan ikke skrive til indehaveren, for det er en automatiseret app, ikke noget som helst manuelt værk... Brugeren taster en url ind og sender det afsted, hvor app'n så skal crawle den hjemmeside og returnere forskelligt indhold til brugeren om den hjemmeside.
Men det er et kæmpe arbejde, når der ikke skal crawles specielle sider. Det eneste, du kan læse, er jo sidens markup kode - så du skal skrive både en HTML-parser og nogle algoritmer, der kan finde, hvad du er interesseret i udfra HTML-koden.
Hvis man skriver den slags, lægger man det ikke til gratis download - men tjener millioner i stedet. Derfor skal du nok påregne at skrive parser og algoritmer mere eller mindre selv ;o)
ja, selvfølgelig - det var også det jeg skrev tidligere med at jeg ikke ledte efter kode, men derimod teknikken til hvordan det kan gøres ... ellers lærer jeg jo intet selv. Men jeg er jo lidt nød til at gøre det på den måde, eftersom det er en stor del app'n bygger på. Og det kan blive utroligt lærerigt.
så kunne du jo passende dele nogen af dine idéer kort, mens jeg prøver at finde en måde at gøre det på selv. Jeg må ærligt indrømme - jeg har lidt svært ved at forestille mig hvordan jeg ud fra tags kan finde ud af hvad indholdet faktisk er, eftersom der jo ikke er nogen norm for hvordan man laver en hjemmeside ... Det er derfor xml er så smart, desværre har alle hjemmesider dog ikke et feed:P
Synes godt om
Ny brugerNybegynder
Din løsning...
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.