Avatar billede simon1978 Nybegynder
17. februar 2008 - 19:58 Der er 7 kommentarer

Crawling / screen scraping

Jeg skal lave et jobsite, hvor vi crawler jobs fra en stripe sites, lige som www.jobindex.dk gør.

Jeg søger derfor en programmør, som kan gøre dette.

Lidt på engelsk om dette:

We wanna crawl websites for job ads, showing them on our web/database. Our web/database is based on a Postgreskr database, but as we often have changes in this, it might be we simply wanna place the crawled data into another new database, and when let our system/database extract data from it. Simple.

Some of the websites we wanna crawl:
-    eures.dk (http://ec.europa.eu/eures/main.jsp?lang=da&acro=job&catId=482&parentCategory=482)
-    jobnet.dk
-    etc.
What we wanna scrape:
-    Provider name and logo (e.g.  Manpower)
-    Job title
-    Body text/job description
-    Location
-    Sector
-    Date of publicity
, so its going to look like others doing so, like www.jobindex, www.simplyhired.com etc.

Requirements:
-    It shall be possible to hide some of the information in our database. E.g. if we wanna hide provider and contact information, and put our contact information instead.
-    It shall not be possible for the web we are crawling, to track this (hide/change IP address)
-    The information being crawled shall be updated at least every second day.
-    No doublet jobs/data – meaning we don’t wanna crawl jobs from e.g. 2 different websites, having the same job, so the system shall be able to track and remove doublet data/jobs.
-    No errors (?; o)

Wishes:
-    Translation of job ads in different languages (e.g. using http://www.google.com/translate_t API http://googlified.com/2006unofficial-google-translate-api/)
-    Possible search agent, letting users/jobseekers create a job agent, sending them relevant jobs as they will appear in the database.

Possible software:
-    E.g. using http://www.screen-scraper.com/, standard software, paying the programmer for each robot (crawler made crawling a website). E.g. www.botcode.com in India (who can make robots for 60 USD/robot, using standard software) or a Danish programmer.
-    many other standard software like http://lucene.apache.org/nutch/about.html, http://www.velocityscape.com/Products/WebScraperLite.aspx etc. could be used.

Sig venligt til, hvis du er den rette, eller kan henvise til den rette.

Mvh
Simon
Avatar billede ph0071 Nybegynder
17. februar 2008 - 20:29 #1
http://lucene.apache.org/nutch/about.html er jo blot nogle generelle java-klasser. Du skal vel have et specifikt program; det svarer til at Swing kan lave brugergrænseflader eller at httpsocket kan lave internetapplikationer.

Det lyder meget rodet det, som du har gang i. Burde du ikke skrive en meget specifik kravsspecifikation, og så sætte nogle rigtige udviklere igang ?
Avatar billede olebole Juniormester
18. februar 2008 - 00:02 #2
<ole>

Der er folk på dette site, der driver den slags tjenester, du ønsker at leeche - ligesom der er folk, der bl.a. lever af at kode for firmaer, som driver den slags tjenester. Det er nok ikke det mest begavede sted at lede efter hjælp til at nasse sig til indhold, man ikke selv gider/evner at arbejde for.

Professionelle webfolk er ikke venligt stemt overfor parasitter - men på den anden side ... hvem er det?!

/mvh
</bole>
Avatar billede simon1978 Nybegynder
18. februar 2008 - 08:38 #3
Som sagt søger jeg en programmør, som kan bygge robotter ved brug af http://www.screen-scraper.com/ eller ligende. Hvis der er nogen der kan hjælpe, er de velkommen til at give en pris per robot. Min email hedder sf@daicon.dk. Til dem der ikke kan eller vil hjælpe, ønsker jeg dem blot en god dag.

Mvh
Simon
Avatar billede olebole Juniormester
18. februar 2008 - 14:24 #4
Jeg efterlyste såmænd blot en smule begavet omtanke ... blot et lillebitte skrabet minimum!
Avatar billede nielle Nybegynder
22. februar 2008 - 23:02 #5
Og lad os endelig ikke snakke alt for højt om copyright og den slags ting...
Avatar billede olebole Juniormester
23. februar 2008 - 15:21 #6
Spørgeren i denne tråd har ikke fattet det første af, hvad lovgivning er - eller hvordan jobindex's forretningsmodel ser ud. Han er blot en ynkelig, kriminel parasit! Simon From er formodentlig et navn, vi kommer til at læse om i avisen i fremtiden  ;o)
Avatar billede simon1978 Nybegynder
27. marts 2008 - 22:53 #7
Det var sørgme noget af et sjov indlæg der kom fra Olebole, hvad end det har med mit spørgsmål at gøre?:) - anyways, jeg gider ikke bruge tid på den slags, så det må folk selv bedømme. Jeg kender så rigeligt til lovgivningen, forretningsmodeller m.m.
Anyways, jeg søger stadig programmøren, som kan hjælpe mig og mit team med at programmere crawler iht. mit spm ovenfor. Du kan kontakte mig på sf@daicon.dk
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester