Notifikationer

Markér alle som læst Log ud

simon1978 Nybegynder

17. februar 2008 - 19:58 Der er 7 kommentarer

Crawling / screen scraping

Jeg skal lave et jobsite, hvor vi crawler jobs fra en stripe sites, lige som www.jobindex.dk gør.

Jeg søger derfor en programmør, som kan gøre dette.

Lidt på engelsk om dette:

We wanna crawl websites for job ads, showing them on our web/database. Our web/database is based on a Postgreskr database, but as we often have changes in this, it might be we simply wanna place the crawled data into another new database, and when let our system/database extract data from it. Simple.

Some of the websites we wanna crawl:
- eures.dk (http://ec.europa.eu/eures/main.jsp?lang=da&acro=job&catId=482&parentCategory=482)
- jobnet.dk
- etc.
What we wanna scrape:
- Provider name and logo (e.g. Manpower)
- Job title
- Body text/job description
- Location
- Sector
- Date of publicity
, so its going to look like others doing so, like www.jobindex, www.simplyhired.com etc.

Requirements:
- It shall be possible to hide some of the information in our database. E.g. if we wanna hide provider and contact information, and put our contact information instead.
- It shall not be possible for the web we are crawling, to track this (hide/change IP address)
- The information being crawled shall be updated at least every second day.
- No doublet jobs/data – meaning we don’t wanna crawl jobs from e.g. 2 different websites, having the same job, so the system shall be able to track and remove doublet data/jobs.
- No errors (?; o)

Wishes:
- Translation of job ads in different languages (e.g. using http://www.google.com/translate_t API http://googlified.com/2006unofficial-google-translate-api/)
- Possible search agent, letting users/jobseekers create a job agent, sending them relevant jobs as they will appear in the database.

Possible software:
- E.g. using http://www.screen-scraper.com/, standard software, paying the programmer for each robot (crawler made crawling a website). E.g. www.botcode.com in India (who can make robots for 60 USD/robot, using standard software) or a Danish programmer.
- many other standard software like http://lucene.apache.org/nutch/about.html, http://www.velocityscape.com/Products/WebScraperLite.aspx etc. could be used.

Sig venligt til, hvis du er den rette, eller kan henvise til den rette.

Mvh
Simon

Synes godt om

ph0071 Nybegynder

17. februar 2008 - 20:29 #1

http://lucene.apache.org/nutch/about.html er jo blot nogle generelle java-klasser. Du skal vel have et specifikt program; det svarer til at Swing kan lave brugergrænseflader eller at httpsocket kan lave internetapplikationer.

Det lyder meget rodet det, som du har gang i. Burde du ikke skrive en meget specifik kravsspecifikation, og så sætte nogle rigtige udviklere igang ?

Synes godt om

olebole Juniormester

18. februar 2008 - 00:02 #2

<ole>

Der er folk på dette site, der driver den slags tjenester, du ønsker at leeche - ligesom der er folk, der bl.a. lever af at kode for firmaer, som driver den slags tjenester. Det er nok ikke det mest begavede sted at lede efter hjælp til at nasse sig til indhold, man ikke selv gider/evner at arbejde for.

Professionelle webfolk er ikke venligt stemt overfor parasitter - men på den anden side ... hvem er det?!

/mvh
</bole>

Synes godt om

simon1978 Nybegynder

18. februar 2008 - 08:38 #3

Som sagt søger jeg en programmør, som kan bygge robotter ved brug af http://www.screen-scraper.com/ eller ligende. Hvis der er nogen der kan hjælpe, er de velkommen til at give en pris per robot. Min email hedder sf@daicon.dk. Til dem der ikke kan eller vil hjælpe, ønsker jeg dem blot en god dag.

Mvh
Simon

Synes godt om

olebole Juniormester

18. februar 2008 - 14:24 #4

Jeg efterlyste såmænd blot en smule begavet omtanke ... blot et lillebitte skrabet minimum!

Synes godt om

nielle Nybegynder

22. februar 2008 - 23:02 #5

Og lad os endelig ikke snakke alt for højt om copyright og den slags ting...

Synes godt om

olebole Juniormester

23. februar 2008 - 15:21 #6

Spørgeren i denne tråd har ikke fattet det første af, hvad lovgivning er - eller hvordan jobindex's forretningsmodel ser ud. Han er blot en ynkelig, kriminel parasit! Simon From er formodentlig et navn, vi kommer til at læse om i avisen i fremtiden ;o)

Synes godt om

simon1978 Nybegynder

27. marts 2008 - 22:53 #7

Det var sørgme noget af et sjov indlæg der kom fra Olebole, hvad end det har med mit spørgsmål at gøre?:) - anyways, jeg gider ikke bruge tid på den slags, så det må folk selv bedømme. Jeg kender så rigeligt til lovgivningen, forretningsmodeller m.m.
Anyways, jeg søger stadig programmøren, som kan hjælpe mig og mit team med at programmere crawler iht. mit spm ovenfor. Du kan kontakte mig på sf@daicon.dk

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Se alle it-kurser fra Computerworld Kurser

IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Se alle it-kurser

Flere spørgsmål fra Småopgaver kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Negativ billeder på samsung Af ALICE i Småopgaver	2	16/01/202610:29	16/01/202618:31
Flytte mappe fra stationær til bærbar Af valby i Småopgaver	20	07/05/202520:51	10/05/202513:43
Hjælp til DC motorstyring Af axel21 i Småopgaver	7	06/03/202522:34	10/03/202518:51
Gode råd til kommende supporter Af SilentSloth i Småopgaver	4	31/12/202423:10	01/01/202515:09
Udregning af vinkel på brædder. Af Peter i Småopgaver	14	11/12/202415:12	13/12/202415:40

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS

10/07

Stortest af robotplæneklippere: Governator-maskine til krævende og store plæner

10/07

EU: Facebook og Instagram skal straks skrue ned for 'doom scrolling'-funktioner, der gør folk bimmelim

10/07

Nørgaard: Chok! Et offentligt it-system er kommet skidt fra start

10/07

Microsoft lukker for kendt funktion efter næsten 20 år

10/07

Mortens hjemmebyggede AI-løsning indsamler data om hans høns og koster kun én krone om dagen

10/07

Microsoft melder ud: Derfor kan du forvente langt flere Windows-opdateringer fremover

10/07

It-beredskabet sejler fuldstændigt hos Nets: Får skrappe påbud efter store nedbrud har lammet Danmark

10/07

Digital suverænitet: Derfor er kortlægning helt central - sådan bør du gribe det an

10/07

Danmarks Statistik satser tungt på open source i stort projekt til 270 millioner kroner: Disse open source-løsninger er i spil

10/07

En lang, gribende og dødelig gåtur baseret på den første bog Stephen King skrev

10/07

Metas egen AI-chip er udviklet på rekordtid: Vil øge regnekraft med svimlende høje tal

Vis flere artikler

IT-JOB

Region Midtjylland

Kan du som leder styrke sammenhængen mellem hospital, teknologi og mennesker?

Forsvaret

F-35 dataanalytiker ved Fighter Wing Skrydstrup

Forsvaret

Projektkoordinator til operative kapacitetsprojekter

Region Midtjylland

IT-specialist – teknik, koordinering og samarbejde - 1-årigt vikariat

TV2

Software Engineer til News Planning & Publishing

Vis flere jobs

Seneste spørgsmål Seneste aktivitet

I går 22:40	Nye toldregler = nye svindelmuligheder Af nu_igen i Andet software
09/0715:37	Et wifi net til en kolonihave uden wifi Af Andershoegh i Andet hardware
09/0714:29	IIS Kan ikke Redirecte til anden side Af bsn i Webservere
09/0714:19	ESET Af hkprofil i Backup- & Antivirus
09/0712:16	diskpart - slet harddisk Af Uvanga i Windows

White papers

De spørgsmål 200+ danske virksomheder stiller om print – samlet i én guide
Konica Minolta
Undgå at printeren bliver svageste led i sikkerheden
Konica Minolta
Samarbejde mellem AI og mennesker styrker sikkerheden
Konica Minolta
Dine data ligger i Europa – men hvem har reelt kontrollen?
Keepit

Flere white papers »