Controle of url bestaat

Status
Niet open voor verdere reacties.

Sander32

Gebruiker
Lid geworden
26 jul 2012
Berichten
65
Via mijn MS Access Applicatie moet ik soms gegevens ophalen uit een website.
Heeft iemand code of betreffende url bestaat want soms kan betreffende website niet bestaan en deze url's zijn dynamisch dus kunnen iedere keer veranderen.
Ook ben ik benieuwd of er een script is waarmee je kan opvragen welke sub url's aanwezig zijn.
Bijv: www.timmerbedrijfjansen.nl rolt misschien wel duizend sub url (pagina's) zoals timmerbedrijfjansen.nl/contact.html, timmerbedrijfjansen.nl/strategie.html, timmerbedrijfjansen.nl/misse.html, etc...
 
Via mijn MS Access Applicatie moet ik soms gegevens ophalen uit een website. [.....]
soms kan betreffende website niet bestaan
Dit klinkt als onzin, je moet soms gegevens ophalen uit een niet bestaande website.......

Misschien moet je dat toch maar eens beter omschrijven, want dit snap ik niet.


soms kan betreffende website niet bestaan en deze url's zijn dynamisch dus kunnen iedere keer veranderen.
Dan heb je een probleem.
Ik begin me wel af te vragen welke gegevens of wat voor soort gegevens je op moet vragen.

Bovendien: gegevens vraag je meestal op uit een database.
Dan leg je eerst verbinding met de database en vervolgens voer je een query uit en ontvang je gegevens.
Wat is er in jouw geval aan de hand?
 
Laatst bewerkt:
haha ja sorry dat ik wat onduidelijk overkom.
Ik moet gegevens ophalen uit diverse websites echter sommige websites bestaan niet meer of hebben een andere subpagina.
Om nog duidelijker te zijn.
Stel ik moet gegevens vandaan halen uit website www.timmerbedrijfjansen.nl/contact.html echter heeft timmerbedrijf jansen een nieuwe website incl structuur en vanaf nu heet het www.timmerbedrijfjansen.nl/bedrijfsgegevens.html
In eerste situatie zou ik de gegevens willen ophalen uit: www.timmerbedrijfjansen.nl/contact.html
Echter kan de subpagina veranderd zijn, zo ja is er dan een script die de subpagina's van www.timmerbedrijfjansen.nl op kan halen?
Uit een reeks subpagina's zal dan de zg contactpagina's opgezocht moeten worden.

Ja er is een database waar de url's staan echter kunnen deze gegevens weer verouders zijn en dan is er behoefte deze gegevens bij te werken.
In bovenstaande voorbeeld zal record: www.timmerbedrijfjansen.nl/contact.html veranderd worden in www.timmerbedrijfjansen.nl/bedrijfsgegevens.html.
Enige wat je zou moeten hebben is synoniemnamen voor contact pagina's zoals bedrijfsgegevens.html

Begrijp je me nu een beetje?
 
Dan zul je een crawler moeten schrijven die alle URLs probeert te indexeren. Je kunt die info namelijk niet gewoon even opvragen bij een webserver. Aanvullende vraag is hoe je tussen alle URLs gaat detecteren welke pagina de contactinformatie bevat?

Wil je dit betrouwbaar opzetten dan zul je met de eigenaren van de pagina's een opzet moeten maken die uniform en herkenbaar is. Dan kun je er mogelijk nog iets mee. Al het andere blijft gokken, met uiteindelijk een vervuilde database als resultaat. En daar heb je dus niks aan.
 
Hier mijn antwoorden:
Je kunt die info namelijk niet gewoon even opvragen bij een webserver.
Weet je dat heel zeker?
Als ik op get subpages wordpress intikt in Google vind ik diverse oplossingen alleen kan ik deze niet vinden voor vba.
Dacht misschien had iemand dit al ontwikkelt in vba.

Aanvullende vraag is hoe je tussen alle URLs gaat detecteren welke pagina de contactinformatie bevat?
Dit is eigenlijk vrij simpel, gewoon synoniemnamen beheren van contactpagina's.
Als je er honderd gedaan hebt, dan kan je vrijwel bijna alle pagina's tackelen.


Hoop je meer info verschaft te hebben maar aan je antwoorden te lezen verwacht ik niet dat je me kan helpen.
 
@Sander32
Je gaat een oplossing zoeken die in wordpress gebruikt wordt en wilt dan een equivalent voor VBA?
Daar zijn twee dingen mis mee:
  1. Wordpress is een CMS en VBA is een progreammeertaal.
  2. Wordpress-oplossingen die je vind met jouw zoektermen gaan uit van een oplossing binnen een met WP gebouwde site. Ja, dan kun je uiteraard alle interne pagina's vinden.


Los van de discussie over een script wat je zou willen hebben,
vraag ik me af wat je nu eigenlijk wilt bereiken en of dat niet anders kan.

Mijn indruk:
  • je wilt adresgegevens van allerlei bedrijven uit een bepaalde bedrijfstak
  • je hebt geen directe toegang tot de bedrijven zelf of een overkoepelende organisatie, daarom ga je gegevens van websites afhalen

Als je de contactgegevens wilt gebruiken voor een zinvolle toepassing, die ook door anderen gebruikt kan worden,
is het dan niet handig om contact te zoeken met de branche en te proberen om op een meer directe manier al deze gegevens geleverd te krijgen?

Als je de contactgegevens alleen voor eigen gebruik wilt, kun je dan niet beter een adressengids aanschaffen
en anders is het misschien zinvol om op Google te zoeken naar documenten waarin adressen verzameld zijn.


Het probleem in deze draad is dat je een vraag stelt over een mogelijke oplossing,
terwijl we in het duister tasten over de achterliggende omstandigheden.
Misschien is datgene wat jij wilt bereiken wel niet de meest logische oplossing.
 
Ik begrijp je echter zijn er ook php oplossingen hierover bekend dus ik heb een verkeerde voorbeeld gebruikt in Google te zoeken.
Een adressengids aanschaffen is geen optie omdat websitestructuur vrijwel via synoniemnamen te tackelen is.
Ik kan ook gaan raden wat evt de contactpagina van een website is, echter zou ik het netter vinden wanneer ik uit een lijst subpagina's mag kiezen.
Ook in deze, heb jij kennelijk de syntaxis niet.
Wel bedankt voor je commentaar en advies alleen hoop ik dat iemand wel ooit dit probleem heb getackeld.
Lijk me toch interessante zoekactie welke subpagina's bestaan in een website.
 
Beste Sander32. Als je al niet wilt luisteren naar onze tips, waarom dan een vraag stellen.


Beredeneer je vraag eens andersom. Een accurate en actuele lijst met bedrijfsgegevens is (veel) geld waard. Als dit wat jij wilt zo simpel was, dan was het al lang toegepast door slimme bedrijven. Dacht je nou werkelijk dat die makkelijk geld lieten schieten.
 
Ik begrijp even niet waarom je zo reageert.
Het is echt niet erg wanneer je geen antwoord op een vraag weet.
In de php omgevingen zijn deze oplossingen al bekend, enige wat ik vroeg en op hoopte is dat er een creatieveling dit in vba had ontwikkeld.
Wat is hier nou complex aan.
Ik werk met vba en ga niet in 1 keer alles omgooien naar php of een andere ongeving op zelfs naar een handmatig oplossing.
Het had mooi geweest dat er iemand was die dit probleem had opgelost, tja en dat jij daar geen oplossing weet te bedenken hoef je toch niet gelijk de vrager aan te vallen.
Echt, check op Google, in php omgevingen zie ik veel oplossingen anders had ik het hier niet gevraagd.
 
Stel:
  • Er is een website met (bedrijfs-)contactgegevens.
  • Er is geen toegang tot de database van de website zelf.
  • Er is geen duidelijkheid over de url van de pagina met contactgegevens.

Verwijs eens naar een door jou gevonden goede php-oplossing om in bovenstaande omstandigheden de contactgegevens te bemachtigen
Als je een voorbeeld geeft van een goede php-oplossing dan kunnen we misschien aan de hand daarvan beginnen te raden wat je nu eigenlijk wilt.
Want concrete vragen beantwoorden doe je niet, alleen vaststellen dat anderen het antwoord ook niet weten.
 
Kijk hier heb ik wat aan.
Uitgaande dat veel databases te benaderen zijn, kan je deze subpaginas dus opvragen.
Ik heb iets van drie uur zitten zoeken op Google en mijn php kennis is nul te noemen, zeker wanneer ze over eigenschappen en functies hebben, weet ik niets.
Ik weet niet hoe vaak kleine bedrijven hun database beveiligen echter zag ik op Google dat deze subpagina's op te vragen zijn vandaar dat ik hem hier stelde.
Terug te komen op de contact pagina. Wanneer je 100 websites bekijkt en naar de contact pagina vraagt kan je deze synoniemnamen bewaren en bij iedere websiteoopvraag nalopen of deze bestaat.
Dus de Plan B heb ik ook alleen vind ik een lijst met subpagina's chiquer.

Heb jij toevallig een betere script dan onderstaande om een website te checken of deze bestaat.
Ik doe het met een wat trage oplossing namelijk:
Code:
fh = FreeFile
Set msXML = CreateObject("Microsoft.XMLHTTP")
msXML.Open "GET", strWebsite, False
msXML.setRequestHeader "Content-type", "text/xml"
msXML.send
strpageContent = msXML.responseText    
If InStr(strpageContent, "Geen resultaten voor") > 0 Then
     MsgBox "Pagina bestaat niet!", vbExclamation + vbOKOnly, "Geweigerd pagina te bekijken"
End If

Ik zag her en der dat er betere scripts bekend zijn.
 
Laatst bewerkt door een moderator:
Het verhaal wordt er niet simpeler van

Ik probeer nog steeds te doorgronden wat je nu eigenlijk doet:

Het gaat je om de contactgegevens.
En ik maak uit je verhaal op dat je een bestand bijhoudt van URL's.

Maar sla je de contactgegevens ook op bij een eerste bezoek aan een pagina
of ga je steeds opnieuw naar een pagina om de contactgegevens te bekijken?


Als je een eigen database hebt met contactgegevens gekoppeld aan de URL waar ze op staan
hoef je toch niet steeds die pagina te bekijken?
Of wil je telkens de gegevens controleren?

Dat laatste is juist het zwakke punt in je verhaal, denk ik.
Zolang je niet rechtstreeks uit de bron gevoed wordt (bedrijven geven zelf mutaties door)
zul je altijd achter de feiten aan blijven lopen.
Of je nu een mooi script hebt of niet.

Voor de rest:
Uitgaande dat veel databases te benaderen zijn, kan je deze subpaginas dus opvragen.
BS, ga er maar van uit dat die databases never nooit niet te benaderen zijn.
En dan nog: als een database te benaderen is, ga je geen subpagina's opvragen......

Ik heb iets van drie uur zitten zoeken op Google en mijn php kennis is nul te noemen, zeker wanneer ze over eigenschappen en functies hebben, weet ik niets.
Desondanks durfde je het volgende te beweren:
In de php omgevingen zijn deze oplossingen al bekend, [....] Wat is hier nou complex aan. [....]Echt, check op Google, in php omgevingen zie ik veel oplossingen anders had ik het hier niet gevraagd.


Van het script dat je postte (VBA??) heb ik geen verstand, dus ook geen oordeel over de kwaliteit van het script.
 
Contactpagina wordt o.a. gebruikt of telefoonnummer nog bestaat.
De ene contactpagina toont wel een telefoonnummer en de andere niet.
Het is een extra check wat uiteindelijk een tijdbesparing oplevert.
Aangezien deze check door een programma wordt gedaan kost het de klant vrijwel niets.
Punt is dat mijn klant een grote database heeft aan bedrijven waarvan men alleen de url heeft maar niet de url van de contactpagina.
Ik wil dit automatiseren en vandaar mijn vragen.

Maar het is zonde van onze tijd of ik nou goed of fout mijn vraag heb gesteld, belangrijk punt wat we wel weten is dat jij mij jammer genoeg niet kan helpen.
In ieder geval dank voor je moeite en je tijd!
 
Geef eens een link naar een url die jij als 'contactpagina' beschouwt.
 
Hier voorbeelden:
http://www.timmerbedrijf-arts.nl/contact.htm
http://www.ankertimmerbedrijf.nl/contact.php
http://www.timmerbedrijfpors.nl/pagina5.html (gebruikt pagina5 als contactpagina)
http://www.timmerbedrijfkievit.nl/?p=5e67ca&mitem=4&lang=NL (gebruikt parameters in url string)

Vaak gaat /contact.htm, /contact.html, /contact.php, /contact.aspx op.
Nogmaals de inhoud wordt van deze website opgehaald en aangezie het telefoonnummer zeker de netnummer bekend is kan er snel een controle plaatsvinden of dit bedrijf nog actief is.
De bedrijfsgegevens zelf komt uit een database en er is een url bekend van betreffende bedrijf.
Alleen de contactpagina levert een verbeterde controle aangezien met niet hoeft te controleren of bedrijf nog bestaat.
Telefoonnummers kan je soms ook zien op andere pagina's maar voor de hand liggend is de contactpagina.
 
Is dus gewoon een commerciele opdracht. Waar mag ik mijn factuur naartoe sturen?
 
Zorg nou eerst dat je met een oplossing komt ipv alleen maar adviezen en commentaar plaatsen waar jij en ik allebei niets aan hebben.
Ik besteed veel aandacht en tijd op iedere keer serieus en correct te antwoorden maar je blijft maar met niets komen.
Met alle respect, ik wil dolgraag dat je me helpt, maar kan je dat niet, probeer dan iemand anders te helpen.
 
Uit de consistentie van de voorbeelden die je plaatste ontstaat het antwoord op je vraag.
 
Zoals ik eerder al aangaf had ik een plan B.
Chiquer zou zijn dat je de subpagina's kon opvragen want in bepaalde gevallen zoals: http://www.timmerbedrijfpors.nl/pagina5.html (gebruikt pagina5 als contactpagina)
kan je niet de contactpagina vinden tenzij je het handmatig vooraf had uitgezocht.
Juist dit handmatige wilde ik automatiseren.

Maar goed, in ieder geval allemaal dank voor jullie hulp.
Ook achterkomen dat het niet kan wat ik wil is ook een oplossing!
Oja heeft iemand een script waar ik kan controleren of een website bestaat, die van mij werkt wat traag en de missie van deze script is niet onderzoeken of website bestaat maar de inhoud opvragen/ophalen.
Het is een oplossing maar niet de beste.
 
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan