GELÖST : Wie sperre ich einen Crawler aus?
GELÖST : Wie sperre ich einen Crawler aus?
Seit ein paar Wochen spidert ein Crawler der Business Intelligence Group meinen Blog 24/7 rauf und runter. Ich habe schon alles probiert. Die IP wechselt desöfteren, der Name des Crawlers wird nicht übertragen, der Servername (crmcrawling.intelligence- group.com) ist das einzige, was in den Stats auftaucht.
Hat jemand eine Idee, wie ich das nervige Ding los werde?
Hat jemand eine Idee, wie ich das nervige Ding los werde?
Last edited by Farlion on Sun Oct 09, 2011 11:32 pm, edited 1 time in total.
Mit S9Y erstellt:
Nichts mehr.
Nichts mehr.
Re: Wie sperre ich einen Crawler aus?
wie wärs mit der robots.txt? (wenn er sich dran hält!)
Regards,
Ian
Serendipity Styx Edition and additional_plugins @ https://ophian.github.io/ @ https://github.com/ophian
Ian
Serendipity Styx Edition and additional_plugins @ https://ophian.github.io/ @ https://github.com/ophian
Re: Wie sperre ich einen Crawler aus?
Ignoriert er, sonst hätte ich hier nicht gefragt.
Mit S9Y erstellt:
Nichts mehr.
Nichts mehr.
-
- Core Developer
- Posts: 30022
- Joined: Tue Sep 16, 2003 9:45 pm
- Location: Cologne, Germany
- Contact:
Re: Wie sperre ich einen Crawler aus?
Hi!
Ggf. mal versuchen die Crawler-Betreiber zu kontaktieren? Sonst hilft eine .htaccess wo man den HTTP User-Agent ausschließt? Ich schätze darin steht der Hostname...?
Wenn der Crawler gerade aktiv ist kannst du ja mal in die erste zeile der index.php ein
einfügen und dann schauen auf was für Variablen du zugreifen kannst die den crawler identifizieren?
GRüße,
Garvin
Ggf. mal versuchen die Crawler-Betreiber zu kontaktieren? Sonst hilft eine .htaccess wo man den HTTP User-Agent ausschließt? Ich schätze darin steht der Hostname...?
Wenn der Crawler gerade aktiv ist kannst du ja mal in die erste zeile der index.php ein
Code: Select all
<?php
$lf = fopen('crawler.log', 'a');
fwrite($lf, print_r($_SERVER, true) . "\n" . print_r($_REQUEST, true));
fclose($lf);
GRüße,
Garvin
# Garvin Hicking (s9y Developer)
# Did I help you? Consider making me happy: http://wishes.garv.in/
# or use my PayPal account "paypal {at} supergarv (dot) de"
# My "other" hobby: http://flickr.garv.in/
# Did I help you? Consider making me happy: http://wishes.garv.in/
# or use my PayPal account "paypal {at} supergarv (dot) de"
# My "other" hobby: http://flickr.garv.in/
Re: Wie sperre ich einen Crawler aus?
Danke, werde ich mal testen.
Der Betreiber des Crawlers antwortet leider nicht auf Mails.
Der Betreiber des Crawlers antwortet leider nicht auf Mails.
Mit S9Y erstellt:
Nichts mehr.
Nichts mehr.
Re: Wie sperre ich einen Crawler aus?
Hallo Garvin,
dank deiner Code-Zeilen konnte ich zumindest einige Informationen über den Crawler bekommen. Allerdings sehe ich da ein paar Probleme:
1. Die Remote-Address wechselt öfter, also keine feste IP.
2. Der User-Agent gibt sich als Mozilla/4.0 aus, kann ich also darüber schlecht aussperren.
Was ich habe ist der Remote Host. Lässt sich darüber etwas machen? Der trägt nämlich immer den gleichen Namen.
Hier mal der Auszug aus dem Log:
dank deiner Code-Zeilen konnte ich zumindest einige Informationen über den Crawler bekommen. Allerdings sehe ich da ein paar Probleme:
1. Die Remote-Address wechselt öfter, also keine feste IP.
2. Der User-Agent gibt sich als Mozilla/4.0 aus, kann ich also darüber schlecht aussperren.
Was ich habe ist der Remote Host. Lässt sich darüber etwas machen? Der trägt nämlich immer den gleichen Namen.
Hier mal der Auszug aus dem Log:
Code: Select all
Array
(
[REDIRECT_UNIQUE_ID] => Ton@HFUNkQEAAFVr5R8AAAAA
[REDIRECT_GEOIP_ADDR] => 212.42.229.4
[REDIRECT_GEOIP_CONTINENT_CODE] => EU
[REDIRECT_GEOIP_COUNTRY_CODE] => DE
[REDIRECT_GEOIP_COUNTRY_NAME] => Germany
[REDIRECT_STATUS] => 200
[UNIQUE_ID] => Ton@HFUNkQEAAFVr5R8AAAAA
[GEOIP_ADDR] => 212.42.229.4
[GEOIP_CONTINENT_CODE] => EU
[GEOIP_COUNTRY_CODE] => DE
[GEOIP_COUNTRY_NAME] => Germany
[HTTP_COOKIE] => s9y_a60f4e1135e9e32a6fe53902ea6cc257=e762042eb0aa0357cb45cb4cdfb1414a; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=018cb124e7f243ab3df05e79e37cd5ea; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=dd2a39c8a89bd7a97283a29f40754188; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=ab9ebd924250399cc5bdcae879d4555b; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=d99b21a7aa11af3b020bf25a7190693f; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=5d5f42fed096ede3521e2ef0dfb946b8; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=2a02c05423b1ca3bcd0ed39d23ef1d2b; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=81a0db18bc1160cd26401b6e639313c3; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=c2b3911a5ec07efdf9c1204326b654f9; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=0a39b7ba457aa2a4fb618ecd85612310; path=/,,s9y_a60f4e1135e9e32a6fe53902ea6cc257=17a485ca35f4d39278b2b6cc26e64620; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=8643ea3ec90c764f062756d317cfe236; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=81b82b0f684c1d0cbad4a16c69d11f61; path=/
[HTTP_USER_AGENT] => Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
[HTTP_HOST] => farlion.com
[PATH] => /usr/local/bin:/usr/bin:/bin
[SERVER_SIGNATURE] =>
[SERVER_SOFTWARE] => Apache
[SERVER_NAME] => farlion.com
[SERVER_ADDR] => 85.13.145.1
[SERVER_PORT] => 80
[REMOTE_HOST] => crmcrawling.intelligence-group.com
[REMOTE_ADDR] => 212.42.229.4
[DOCUMENT_ROOT] => /www/htdocs/w0084676/
[SERVER_ADMIN] => webmaster@farlion.com
[SCRIPT_FILENAME] => /www/htdocs/w0084676/index.php
[REMOTE_PORT] => 18055
[REDIRECT_QUERY_STRING] => /archives/240-Was-wir-aktuell-haben....html
[REDIRECT_URL] => /archives/240-Was-wir-aktuell-haben....html
[GATEWAY_INTERFACE] => CGI/1.1
[SERVER_PROTOCOL] => HTTP/1.1
[REQUEST_METHOD] => GET
[QUERY_STRING] => /archives/240-Was-wir-aktuell-haben....html
[REQUEST_URI] => /archives/240-Was-wir-aktuell-haben....html
[SCRIPT_NAME] => /index.php
[PHP_SELF] => /index.php
[REQUEST_TIME] => 1317666332
[argv] => Array
Mit S9Y erstellt:
Nichts mehr.
Nichts mehr.
-
- Core Developer
- Posts: 30022
- Joined: Tue Sep 16, 2003 9:45 pm
- Location: Cologne, Germany
- Contact:
Re: Wie sperre ich einen Crawler aus?
Hi!
Also theoretisch müsstest Du jede dieser Variablen per mod_rewrite auch blocken können, das geht irgendwie über %ENV{REMOTE_HOST} Parameter oder so. Die Syntax müsstest Du mal nachschauen, da fehlt mir gerade die Zeit. Das kannst Du jedenfalls einbauen, und dann mit nem RewriteRule auf ne fremde URL (die eigene *g*) umbiegen...
Grüße,
Garvin
Also theoretisch müsstest Du jede dieser Variablen per mod_rewrite auch blocken können, das geht irgendwie über %ENV{REMOTE_HOST} Parameter oder so. Die Syntax müsstest Du mal nachschauen, da fehlt mir gerade die Zeit. Das kannst Du jedenfalls einbauen, und dann mit nem RewriteRule auf ne fremde URL (die eigene *g*) umbiegen...
Grüße,
Garvin
# Garvin Hicking (s9y Developer)
# Did I help you? Consider making me happy: http://wishes.garv.in/
# or use my PayPal account "paypal {at} supergarv (dot) de"
# My "other" hobby: http://flickr.garv.in/
# Did I help you? Consider making me happy: http://wishes.garv.in/
# or use my PayPal account "paypal {at} supergarv (dot) de"
# My "other" hobby: http://flickr.garv.in/
Re: Wie sperre ich einen Crawler aus?
Gute Idee, danke
Werde mir morgen mal die entsprechenden Anweisungen aus einem htaccess-Tut holen und versuchen, den Crawler zu youporn oder so zu schicken.
Werde mir morgen mal die entsprechenden Anweisungen aus einem htaccess-Tut holen und versuchen, den Crawler zu youporn oder so zu schicken.
Mit S9Y erstellt:
Nichts mehr.
Nichts mehr.
-
- Regular
- Posts: 765
- Joined: Tue Oct 17, 2006 2:36 pm
- Location: Vienna/Austria
- Contact:
Re: Wie sperre ich einen Crawler aus?
oder schick ihn zu google, da hat er viele links zu crawlen
Re: Wie sperre ich einen Crawler aus?
Anhand des Firmenprofils denke ich mal, dass es sich um einen Mailadressen-Spider handelt.
Mit S9Y erstellt:
Nichts mehr.
Nichts mehr.
Re: Wie sperre ich einen Crawler aus?
Code: Select all
deny from crmcrawling.intelligence-group.com
Code: Select all
deny from 212.42.228.0/23
Re: Wie sperre ich einen Crawler aus?
Die allow/deny-Methode hat fantastisch funktioniert, der Crawler ist futsch.
Nachschlag:
Ein Freund hat sich gerade um die Umleitungsmethode gekümmert:
REMOTE_IP kann man auch durch REMOTE_HOST ersetzen und schon wird google vom Mailadressencrawler abgegrast.
Nachschlag:
Ein Freund hat sich gerade um die Umleitungsmethode gekümmert:
Code: Select all
# (mod_rewrite muß in der Serverkonfig aktiv sein!)
<IfModule mod_rewrite.c>
# Wenn die folgende Zeile schon woanders steht, kannst du sie weglassen.
RewriteEngine On
# Bitte die Oktette durch entspr. Werte ersetzen
# Dito für die exakte Google-Adresse
RewriteCond %{REMOTE_IP} ^111\.222\.333\.444$
RewriteRule * http://www.google.com/search?q=deine+mudda [L,R=301]
</IfModule>
Mit S9Y erstellt:
Nichts mehr.
Nichts mehr.
Re: GELÖST : Wie sperre ich einen Crawler aus?
Eine Umleitung mag ja sehr lustig sein, doch ist Google dafür verantwortlich deine Site in ihren Index aufzunehmen. Sollten sie je auf den Trichter kommen (zb mit dem REFERER), wer ihnen die Spinne auf den Hals gehetzt hat, wirst du viel Freude mit Goggles Blacklist bekommen. Ich für meinen Teil würde mir solche Gelüste für non-humans einfach sparen.
Regards,
Ian
Serendipity Styx Edition and additional_plugins @ https://ophian.github.io/ @ https://github.com/ophian
Ian
Serendipity Styx Edition and additional_plugins @ https://ophian.github.io/ @ https://github.com/ophian
Re: GELÖST : Wie sperre ich einen Crawler aus?
Keine Sorge, das war nur der Beispielcode. Ich hab ihn gestern noch auf die Seite eines bekannten Porn-Spammers geleitet.
Mit S9Y erstellt:
Nichts mehr.
Nichts mehr.