Script som skrapar data från hemnet till ett excelark?

Permalänk
Medlem

Script som skrapar data från hemnet till ett excelark?

Hej Swec!

Jag har fått en lite seg statistikuppgift. Jag ska bygga en regressionsmodell utifrån 60 hus från hemnet.se. Just nu är min plan att göra ett excel-ark och copy pastea in pris, boarea, pris osv. Är det någon som har ett bättre sätt att få ner datan från hemnet? All information finns ju i källkoden till varje annonssida. Exempelvis har varje annons

<dt>Bostadstyp</dt> <dd> Friliggande villa </dd> <dt>Boarea</dt> <dd>139 m²</dd> <dt>Biarea</dt> <dd>33 m²</dd> <dt>Tomtarea</dt> <dd>4 922 m²</dd> <dt>Antal rum</dt> <dd>5 rum</dd> <dt>Driftkostnad</dt> <dd>20 400 kr/år</dd>

Vilket är alla information jag behöver för varje hus. Hur skulle ni gått till väga för att få ner denna data till ett hanterbart format, exempelvis excel-ark? Jag frågar inte efter hur jag ska göra regressionen by the way!

Mvh Tifius

Visa signatur

MBP: 13" - M1
Stationär: Win11 - Ryzen 5900X - 128GB - GTX 4080
Server: Ubuntu - i5 4670k - 32GB - 4x5TB Raid-Z
Server: Rpi4 8GB, 1TB USB SSD

Permalänk
Inaktiv

Till att börja med, vad kan du för språk?

Jag hade kört på C++, curl och tinyxml för att skrapa allt, sen spara allting i något vettigt format.

Permalänk
Medlem

Om inte Hemnet är ett krav, så har Booli.se ett API: http://www.booli.se/api/

Visa signatur

as far as we can tell, the massacre went well...

Permalänk
Medlem

Jag skulle använt mig av "regular expression".

Permalänk
Medlem

Om datan måste skrapas skulle jag använda Perl med WWW-Mechanize, en enkel DOM parser t.ex. XML-Simple och någon spreadsheet writer modul t.ex. Spreadsheet-Write.

Permalänk
Medlem

Lätt att göra i PHP med en bra parser, kontakta mig i PM så kan jag kanske hjälpa

Permalänk
Hedersmedlem
Skrivet av tifius:

Hej Swec!

Jag har fått en lite seg statistikuppgift. Jag ska bygga en regressionsmodell utifrån 60 hus från hemnet.se. Just nu är min plan att göra ett excel-ark och copy pastea in pris, boarea, pris osv. Är det någon som har ett bättre sätt att få ner datan från hemnet? All information finns ju i källkoden till varje annonssida. Exempelvis har varje annons

<dt>Bostadstyp</dt> <dd> Friliggande villa </dd> <dt>Boarea</dt> <dd>139 m²</dd> <dt>Biarea</dt> <dd>33 m²</dd> <dt>Tomtarea</dt> <dd>4 922 m²</dd> <dt>Antal rum</dt> <dd>5 rum</dd> <dt>Driftkostnad</dt> <dd>20 400 kr/år</dd>

Vilket är alla information jag behöver för varje hus. Hur skulle ni gått till väga för att få ner denna data till ett hanterbart format, exempelvis excel-ark? Jag frågar inte efter hur jag ska göra regressionen by the way!

Mvh Tifius

Har du en lista på Hemnet-ID-nummer eller URL:er för de hus du vill kolla på? Posta den här isf.

Visa signatur

Nu med kortare användarnamn, men fortfarande bedövande långa inlägg.

Permalänk
Medlem

Tack för alla svar! Nu har jag redan copy-pasteat alla men tack för bra förslag! Efter att jag blev klar fick jag tag på python-kod till en scraper. Är dock inte säker på vem som skrivit den och om den får spridas.

Visa signatur

MBP: 13" - M1
Stationär: Win11 - Ryzen 5900X - 128GB - GTX 4080
Server: Ubuntu - i5 4670k - 32GB - 4x5TB Raid-Z
Server: Rpi4 8GB, 1TB USB SSD

Permalänk
Medlem

Om det är någon som fortfarande hamnar på den här tråden så bör ju nämnas att Python har utmärkt stöd för att skrapa data från webbsidor – däribland Scrapy – går väldigt snabbt att koma igång med (ingen kompilering => inga Make-filer eller CMake-filer behövs, bara skriptfiler) och har en bra pakethanterare som gör det lätt att installera nya bibliotek (Scrapy installerar man bara med "pip install scrapy" från kommandoraden).

Edit: Finns det någonting som Python inte har utmärkt stöd för?

Visa signatur

Don't worry, be happy <°)))><