Zoekrobots detecteren berichten op gesloten forum met aparte permissies: Hoe kan dat?

Status
Niet open voor verdere reacties.

everhart

Gebruiker
Lid geworden
4 jan 2005
Berichten
385
Ik heb een oud maar nog nuttig forum van Messageboard (voorgeprogrammeerde gratis fora) wat BESLOTEN is. De forumonderdelen/onderwerpen/berichten zijn alleen zichtbaar voor geregistreerden.
Ik heb een vraag over de werking van zoekrobots (geen spamrobots):

als er ergens een bericht wordt geplaatst, kan ik in het beheerderspaneel zien, dat een zoekrobot (Google, MSN) onmiddellijk reageert met dat ie heeft ingelogd én het betreffende forumonderdeel, waar het bericht in is geplaatst, heeft 'gezien'.
Kennelijk.

OK, denk ik dan: hij registreert automatisch en hopla, zit binnen.
Moet ik de CAPTCHA-code vermoeilijken?

Maar 't gekke is, als ik BINNEN het forum alles nog eens in een aparte groep plaats, en alle leden lid van die groep maak, zodat alleen die groepsleden alles kunnen zien, reageert zo'n robot NOG STTEEDS op nieuwe berichten.
Mijn vraag is: hoe kan dat? Dat moet dan toch niet meer mogelijk zijn?

Het doel van mijn vraag: ik wil NIET, dat tekst van berichten in zoekresultaten verschijnen van Google etc..
 
Je bedoeld deze dingen Everhart.



WebSpider of WebCrawler.

InfoSpace

View a Web Page as 'Googlebot'

Er is veel info op het internet voor webmasters ,de eerste 2 vragen heb je zelf al beantwoord een oplossing (script) om er iets tegen te doen kijk op internet wat voor jou forum goed is.
b.t.w Je bedoeld geen spambot die zich bij je regstreert om spam te kunnen posten maar een WebCrawler die de berichten kan oppakken als je ze upload naar je webpagina.;)
 
Bedankt voor je al essentieel verhelderende antwoord...:thumb:....
....voordat ik hier helemaal in ga duiken...alvast de hamvraag:

leest zo'n webcrawler dus berichten, die onderweg zijn naar forum en kunnen die vervolgens in de zoekresultaten komen?
Ook al komen die berichten op een BESLOTEN forum te staan? Ja of nee? Graag even duidelijkhied hierover.:thumb:

Ik snap trouwens niet welke twee vragen ik al beantwoord heb, want dat is er volgens mij maar één.
 
Ja hoor het zijn er twee kijk maar, hoe kan dat? Dat moet dan toch niet meer mogelijk zijn? ,Ik heb een vraag over de werking van zoekrobots

Ik durf over de exacte werking van zo'n WebCrawler niet zo veel te vertellen, de ontwikkeling van de techniek met name op het internet kan wel zo erg gaan dat het zelfs voor mij het wel eens gaat op de manier van ,wat ik vandaag niet weet dat kan ik meschien al morgen.
Dat zal je beslist gaan merken als je hier helemaal in ga duiken en in de richting gaat komen van professional cloaking.

Je bent zelf al heel erg duidelijk hierover door dat je heel goed oplet als ik zo je posting lees.:thumb:

als er ergens een bericht wordt geplaatst, kan ik in het beheerderspaneel zien, dat een zoekrobot (Google, MSN) onmiddellijk reageert
reageert zo'n robot NOG STTEEDS op nieuwe berichten.

Een techniek die ik ken als monitoring en sniffing.
Wat er op neer komt dat hij in de gaten heeft wanneer er data naar je forum toe gaat.

Wij kunnen ook zoiets in die richting met behulp van een sniffer.
WireShark maakt het meschien wat duidelijker.
 
Laatst bewerkt:
Okay.:thumb:
Maar toch even voor ALLE duidelijkheid een antwoord op deze vraag:

Komen COMPLETE berichten bestemd voor een BESLOTEN forum, door die crawlers tóch in de zoekresultaten te staan? Ja of nee? Graag even duidelijkhied hierover.
 
Tja Everhard die zie zelf toch ook niet in de normale zoekresultaten staan.
Wat die Crawlers verzamelen zijn delen van je site en komen in een database ,het zijn niet complete berichten google maak gebruik van trefwoorden.
Het probleem is dat je met gerichte opdrachten in google informatie uit die database kan halen die normaal niet zichtbaar zijn.
Van gevoelige informatie over de werknemers van een bedrijf tot de wachtwoorden van je besloten forum en zo kan iemand aan je complete berichten komen die niet voor hem bestemd zijn.
Als de zaak niet goed heb beveiligd.

De meester op dat gebied is Johnny Long
Bezoek zijn database (GHDB) of lees zijn boek

:thumb:
 
Tja Everhard die zie zelf toch ook niet in de normale zoekresultaten staan.[/
Wat die Crawlers verzamelen zijn delen van je site en komen in een database ,het zijn niet complete berichten google maak gebruik van trefwoorden.
Het probleem is dat je met gerichte opdrachten in google informatie uit die database kan halen die normaal niet zichtbaar zijn.
Van gevoelige informatie over de werknemers van een bedrijf tot de wachtwoorden van je besloten forum en zo kan iemand aan je complete berichten komen die niet voor hem bestemd zijn.
Als de zaak niet goed heb beveiligd.

De meester op dat gebied is Johnny Long
Bezoek zijn database (GHDB) of lees zijn boek

:thumb:
 
Tja Everhard die zie zelf toch ook niet in de normale zoekresultaten staan.
Hier heb je het woordje 'je' vergeten, dus moet staan:

Tja Everhard die je zie zelf toch ook niet in de normale zoekresultaten staan
, neem ik aan?


Wat die Crawlers verzamelen zijn delen van je site en komen in een database ,het zijn niet complete berichten google maak gebruik van trefwoorden.
Het probleem is dat je met gerichte opdrachten in google informatie uit die database kan halen die normaal niet zichtbaar zijn.
Van gevoelige informatie over de werknemers van een bedrijf tot de wachtwoorden van je besloten forum en zo kan iemand aan je complete berichten komen die niet voor hem bestemd zijn.
Als de zaak niet goed heb beveiligd.

De meester op dat gebied is Johnny Long
Bezoek zijn database (GHDB) of lees zijn boek

:thumb:

Het blijft mij een mistig geheel.
Enerzijds zeg je: nee, anderszijds wordt het door je uitleg zo ongeveer weer: JA.

Ik vraag mij af of er iemand is, die een werkelijk concreet Ja of Nee zou kunnen geven.
 
Het kan zijn dat de forumsoftware toestaat dat de pagina's gecrawld worden, is dan ook wel uit te zetten, neem ik aan.
 
Hoi Everhard

Ja je heb helemaal gelijk met het woordje vergeten ik moet zeker wat beter gaan typen ,of beter gezegt de snelheid tussen de gedachte en het typen beter op elkaar afstemmen.

Als je een direct antwoord op die vraag wil dan is het antwood JA !

Ook een tijd nadat de berichten uit een gesloten forum zijn verwijderd is het nog zichtbaar.
Hoe ,door in de google zoekmachine trefwoorden te typen zoals de forum naam van een poster en een trefwoord wat in zijn posting voorkomt te typen ,google laat je dan het betreffende forum zien in de lijst van gevonden web-pagina's en geef je de optie cache ,als je daar op klikt dan krijg je een pagina te zien van die poster met een aantal postings.
Die cache veranderd weer op het moment als de pagina opnieuw wordt gecrawld.
Ik heb het net even met een ander forum gedaan waar ik een lange tijd lid van ben door naar mijn eigen berichten met google te zoeken zonder in te loggen en dit staat er dan boven.(forum naam heb ik aangepast)

Dit is Google's cachegeheugen van een forum. Dit is een momentopname van hoe de pagina eruitzag op 2 aug 2010 13:22:46 GMT. De huidige pagina kan in de tussentijd veranderd zijn. Meer informatie
Deze zoekwoorden zijn gemarkeerd:

Een punt voor een compleet antwoord blijft natuurlijk wel het is maar 1 pagina en je heb de trefwoorden of zoekwoorden nodig.

Meschien dat ik zo een beetje licht in de mist heb kunnen brengen.:)
 
Hoi everhart,
Euw, ik begin hier weinig van te snappen... :rolleyes:
Als je in de head van je pagina's hebt staan:
HTML:
<meta name="robots" content="noindex, nofollow" />
dan zouden die pagina's niet in Google's hitlijst mogen voorkomen, dacht ik.
(met zonder streepje tussen no-index en no-follow; dat zie je wel vaak, maar dat is fout, zegt W3C).

Er kunnen ook nog beschermingen ingebouwd worden via een robots.txt bestand. Zie bv.: http://www.google.com/support/webmasters/bin/answer.py?answer=156449. Veel info is ook weg te halen via: http://www.google.com/support/webmasters/bin/topic.py?topic=19494.

Maar nog even terug naar af:
Het doel van mijn vraag: ik wil NIET, dat tekst van berichten in zoekresultaten verschijnen van Google etc..
Nu mijn vraag:
  • Verschijnen er bij jou dan ongewenste teksten van berichten in zoekresultaten van Google, en kan je dan doorklikken naar dat bericht?
Mijn ervaring: soms ben ik op zoek naar een antwoord op een bepaalde vraag, en werp ik de vraag in Google. Dan krijg ik soms een hit naar een pagina op een forum - en als ik de 1,5 regel Google-beschrijving van die pagina lees, dan denk ik "Ha, kassa! - Dat is precies wat ik zoek!". Maar helaas, als ik op de link (of de cache-link) in de Google-resultaten klik, kom ik geen steek verder... Ik krijg het vriendelijke verzoek of ik even wil inloggen.
Bij sommige sites zit daar er ook het vriendelijke verzoek bij, of ik even wil betalen om het antwoord op een FAQ te zien.
En (heel) soms schakelt de Google-cache wel door naar de vollegige pagina (ha! zegt mijn portemonnee), maar meestal ook niet.
Of er zit helemaal geen aanklikbare Google-cache in de resultatenlijst - ook dat kan je verhinderen, zie bv. http://www.edwords.nl/kennisbank/handleidingen/informatie-verwijderen-uit-google/; dat was de eerste Google-hit, ik weet niet of die info klopt; anders even verder Google'en op [Google-cache uitschakelen]. :d

Met vriendelijke groet,
CSShunter
 
Status
Niet open voor verdere reacties.

Nieuwste berichten

Terug
Bovenaan Onderaan