cepharum @cepharum

user8e8f87e @user8e8f87c@berlin.social

Kennt sich hier jemand mit WebScraping aus?

Ich will alle Urls von dieser Seite bekommen, dafür muss man ein paar mal den ›Weitere Ergebnisse laden‹-Button unten drücken. Ich versuche es mit #Python (cfscraper/requests und #BeautifulSoup), aber ich bekomme die richtige POST-Anfrage nicht hin, um alle die Seite mit allen Ergebnissen zu haben.

Jemand Ideen?

Hier ist die Seite: https://www.neubaukompass.de/neubau-immobilien/berlin-region/

Udpate: Hab das Problem gelöst, hab die POST-Anfrage aus Firefox übernommen.

neubau kompassNeubau-Immobilien Großraum Berlin: Wohnung oder Haus kaufen in Großraum BerlinFinden Sie jetzt Ihre Wunschimmobilie in Großraum Berlin! Neubau Wohnungen und Häuser in Großraum Berlin bei neubau kompass.

Jul 06, 2024, 06:38 PM··Tuba

8boosts·4favorites

**Leon Wolf** @LeonWolfg@mstdn.social · Jul 6, 2024

Jul 6, 2024

Leon Wolf @LeonWolfg@mstdn.social

@user8e8f87c
Wget?

**user8e8f87e** @user8e8f87c · Jul 6, 2024

Jul 6, 2024

user8e8f87e @user8e8f87c

@LeonWolfg

Wenn Du mir sagst, wie ich mit wget alle Ergebnisse auf der Seite laden kann, hätte ich nichts dagegen.

**Leon Wolf** @LeonWolfg@mstdn.social · Jul 6, 2024

Jul 6, 2024

Leon Wolf @LeonWolfg@mstdn.social

@user8e8f87c
Ein bisschen was kannst du auch tun. Wget ist sehr gut dokumentiert.

**user8e8f87e** @user8e8f87c · Jul 6, 2024 *

Jul 6, 2024 *

user8e8f87e @user8e8f87c

@LeonWolfg

Warum sollte ich wget benutzen, wenn cfscraper und BeautifulSoup benutze? Mit wget komme ich doch noch nicht einmal an CloudFlare vorbei. Wenn mich die Dokumentation und Tutorials im Internet weitergebracht hätten, hätte ich hier übrigens nicht gefragt.

Ich frage, weil ich an der Stelle, wie im Ausgangspost erwähnt, nicht weiterkomme.

**awakenting** @awakenting@bildung.social · Jul 6, 2024

Jul 6, 2024

awakenting @awakenting@bildung.social

@user8e8f87c Man könnte die Filterfunktion nutzen um kleinere Ergebnislisten zu erzielen. Die Filterparameter kann man in der Url im Browser ablesen. Man könnte z.B. den Preis in viele Bereiche Unterteilen und über die dann iterieren. Etwas umständlich aber müsste funktionieren und man kann gleich ein paar Metadaten mitspeichern.

Eine Alternative wäre das package Selenium um den Browser programmatisch zu steuern, braucht aber etwas mehr Aufwand zur Installation.

Hoffe das hilft :)

**user8e8f87e** @user8e8f87c · Jul 6, 2024

Jul 6, 2024

user8e8f87e @user8e8f87c

@awakenting

Ah, keine schlechte Idee!
Du meinst, die POST-Anfrage für den Mehr-laden-Button bekommt man mit requests nicht irgendwie nachgebaut?
Auf Selenium wollte ich eigentlich verzichten, aber zur Not nehm ich auch das.