31. juli 2009 - 21:24Der er
15 kommentarer og 2 løsninger
snuppe overskrift og et par ord fra en anden side
Hey hvordan gør jeg hvis jeg friksempel vil have nyhederne fra ekstrabladet på min side altså jeg snupper overskriften og måske en 20 -25 ord fra beskrivelsen over på min side. men det skal selvfølig være når mine bruger trykker på det så kommer de ind på nyheden på ekstrabladet
I lang tid har samarbejdsbranchen fokuseret på at forbedre enhedsfunktioner – bedre kameraer, klarere lyd og smartere software. Men den virkelige forvandling handler ikke om funktioner.
Du skriver til ekstrabladet.dk og spørger om du må få deres tilladelse til at præsentere nogle nyheder fra deres website på dit eget, således du ikke bryder loven om ophavsret.
Dernæst tager du deres RSS feed og parser det (som den nemmeste løsning).
Så vil jeg anbefale dig at bruge cURL http://php.net/curl til at hente sidernes indhold. og uden at kende sidernes udformning, vil jeg mene du skal kigge på nogle regular expressions for at matche de områder du skal have fat i, på hver enkelte side. Kig på http://phpartikler.dk/artikler/regexp.php for at få lidt grundlæggende viden om reg exp.
En xml passering er vel stadig muligt hvis siden er skrævet i XHTML. Men uanset hvad så ville jeg anbefale at gemme output (det html som skal inkulderes) i en tmp fil, som måske minimum opdater her 30. min. Da det lyder som en server opgave der trækker på kræfterne.
Jeg ville nu mene at den rigtige måde at gøre det på var at benytte de XML feeds der som regel tilbydes fra diverse nyhedssider - så er vi også i den boldgade som jeg oprindeligt talte om og som #4 også er inde på.
#5 Jeg vil bare sige at hvis de ikke havde et RSS- eller Atom feed så er det muligt at parser XHTML, men ikke HTML. Men det alt sammen afhænger af hvilken siden der er tale om.
Preg_match virker bare lidt for komplekst, hvis man skal køre en hel side igennem. Alt bliver normal bedst hvis man holder det simpelt.
Min tanke var at man med XPath kunne søge efter fx alle <h1> og så lave en preg_match på indholdet for at afgøre om det er en overskrift.
PS: jeg tror bare vi bekræfter hinanden lige nu repox, og hvad var det enlig du vil sige coderdk.
andreas13_fam >> problemet er bare, at de fleste XHTML sider jo ikke er skrevet i valid (eller bare velformet) XHTML. Den side, vi sidder og skriver på her, ville f.eks. også få parseren til at dø ;o)
Derudover bliver der i professionelt regi næppe skrevet ret mange XHTML sider i fremtiden. XHTML har idag kun historisk interesse og er stort set droppet af W3C.
#9 Helt enig - XHTML skrives nærmest kun af nostalgisk interesse; vi gør det på min arbejdsplads da nogle af vores kunder forlanger valid og 'moderne' XHTML. Kunden har altid ret - eller noget... :)
Er nu også med på den mening i dag, men ville bare lige nævne det. Hvad er enlig W3C interesse lige nu - HTML 5 ? Når det var et sidesping kan vi ikke få en kommentar fra spørgeren.
XHTML-gruppens charter er opsagt fra og med årsskiftet og W3C har valgt at satse på HTML. Det vil i fremtiden formodentligt betyde en version 5.0 - men hvordan den kommer til at se ud, er stadig yderst usikker. Vi kender endnu kun 'arbejdspapiret' =)
Tilbage til spørgsmålet: Jeg ville helt klart forsøge at overtale dem til at lave et feed, man kunne trække på. Det ville måske endda kunne blive til stor fordel for dem i forhold til at få hyped deres indhold.
Screen scraping kan lade sig gøre, men det er ofte et pokkers arbejde at vedligeholde, når 'den anden ende' skifte design, m.m.
repox du må godt komme med et svar så du også kan få lidt point, jeg er ved at ryde op i mine mange åbne spørgsmål. mange af dem kan jeg ikke huske om jeg fik løst eller ej :S sorry
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.