Python: scrape waarde uit website (met vertraging)

henri2500 · 31 dec 2022

Hallo allemaal,

Thuis gebruik in Home Assistant, hiervoor bestaan enkele mooie integraties die het scrapen van data van websites mogelijk maakt. Helaas loop ik tegen een issue aan, omdat de website die ik wil scrapen eerst HTML inlaad, en vervolg switched naar de berekende waarde die ik wil.

Het gaat om de volgende URL (de URL is dynamisch, en het antwoord is dus afhankelijk van de opgegeven waarden in de URL):
https://www.thomasberger.be/pv/pvca...&peakw2=0&temp_coeff2=0&max2=0&res_type=csday

In Home Assistant kun je Python scripts mee laten werken; zou Python een oplossing bieden voor mijn probleem? Kan iemand me een zoekrichting geven of is dit sowieso hopeloos?

Alvast bedankt!

bron · 31 dec 2022

Dit zie ik op een website over je vraag.
Package ‘BeautifulSoup’ van Python

henri2500 · 31 dec 2022

Die heb ik inderdaad voorbij zien komen; maar niet concreet of je een vertraging voor je 'scrape' kan inbouwen, zodat eerst de hele website wordt geladen

bron · 31 dec 2022

omdat de website die ik wil scrapen eerst HTML inlaad, en vervolg switched naar de berekende waarde die ik wil.

De gehele website pagina wordt niet geladen als de website een API heeft die json (of xml) teruggeeft op de opgegeven url

henri2500 · 1 jan 2023

bron zei:
De gehele website pagina wordt niet geladen als de website een API heeft die json (of xml) teruggeeft op de opgegeven url

Heb je de link bekeken? Dan snap je wat ik bedoel

. Ik zie namelijk wel een flits van de hele website. Als ik scrapers gebruik in Home Assistant krijg ik ook de html terug van de website ipv het getal wat enkele sec daarna verschijnt.

Aar · 1 jan 2023

Dat getal komt waarschijnlijk uit een AJAX request.

bron · 1 jan 2023

Wat Aar aangeeft lijkt te kloppen. In bestand /pv/pvcalc/scripts/st-xmlhttp.js staan algemene ajax GET functies (met prehistorische code maar het werkt). Vanwaar dit wordt aangeroepen is zoekwerk.

Aar · 1 jan 2023

Gebruik de network-debugger tool van je browser om je AJAX-request in te zien.

bron · 2 jan 2023

Nog even gekeken, geen idee vanwaar het resultaat komt. Dit geeft de website terug

Code:

<html><head></head><body>
{"csday":12027}
</body></html>

henri2500 · 3 jan 2023

Dank voor de toelichting. Ik ben helaas totaal onbekend met AJAX. Omdat de bron niet te herleiden is gaat het lastig zijn om deze op te vangen?

bron · 3 jan 2023

Omdat de bron niet te herleiden is gaat het lastig zijn om deze op te vangen?

Als de ajax api gedocumenteerd zou zijn dan kan ik je helpen maar nu helaas niet. Het is heel erg tijdrovend om terug te gaan zoeken in alle scripts hoe het nu gedaan wordt.

henri2500 · 3 jan 2023

Snap ik helemaal; bedankt voor deze info in ieder geval!

Python: scrape waarde uit website (met vertraging)

henri2500

Gebruiker

bron

Moderator

henri2500

Gebruiker

bron

Moderator

henri2500

Gebruiker

Aar

Inventaris

bron

Moderator

Aar

Inventaris

bron

Moderator

henri2500

Gebruiker

bron

Moderator

henri2500

Gebruiker

Nieuwste berichten

Wij waarderen jouw privacy