Page 1 of 1

GELÖST : Wie sperre ich einen Crawler aus?

Posted: Wed Sep 28, 2011 9:57 pm
by Farlion
Seit ein paar Wochen spidert ein Crawler der Business Intelligence Group meinen Blog 24/7 rauf und runter. Ich habe schon alles probiert. Die IP wechselt desöfteren, der Name des Crawlers wird nicht übertragen, der Servername (crmcrawling.intelligence- group.com) ist das einzige, was in den Stats auftaucht.

Hat jemand eine Idee, wie ich das nervige Ding los werde?

Re: Wie sperre ich einen Crawler aus?

Posted: Thu Sep 29, 2011 9:23 am
by Timbalu
wie wärs mit der robots.txt? (wenn er sich dran hält!)

Re: Wie sperre ich einen Crawler aus?

Posted: Thu Sep 29, 2011 9:46 am
by Farlion
Ignoriert er, sonst hätte ich hier nicht gefragt. ;)

Re: Wie sperre ich einen Crawler aus?

Posted: Thu Sep 29, 2011 9:49 am
by garvinhicking
Hi!

Ggf. mal versuchen die Crawler-Betreiber zu kontaktieren? Sonst hilft eine .htaccess wo man den HTTP User-Agent ausschließt? Ich schätze darin steht der Hostname...?

Wenn der Crawler gerade aktiv ist kannst du ja mal in die erste zeile der index.php ein

Code: Select all

<?php
$lf = fopen('crawler.log', 'a');
fwrite($lf, print_r($_SERVER, true) . "\n" . print_r($_REQUEST, true));
fclose($lf);
einfügen und dann schauen auf was für Variablen du zugreifen kannst die den crawler identifizieren?

GRüße,
Garvin

Re: Wie sperre ich einen Crawler aus?

Posted: Sat Oct 01, 2011 9:34 pm
by Farlion
Danke, werde ich mal testen.
Der Betreiber des Crawlers antwortet leider nicht auf Mails.

Re: Wie sperre ich einen Crawler aus?

Posted: Mon Oct 03, 2011 9:04 pm
by Farlion
Hallo Garvin,

dank deiner Code-Zeilen konnte ich zumindest einige Informationen über den Crawler bekommen. Allerdings sehe ich da ein paar Probleme:

1. Die Remote-Address wechselt öfter, also keine feste IP.
2. Der User-Agent gibt sich als Mozilla/4.0 aus, kann ich also darüber schlecht aussperren.

Was ich habe ist der Remote Host. Lässt sich darüber etwas machen? Der trägt nämlich immer den gleichen Namen.
Hier mal der Auszug aus dem Log:

Code: Select all

Array
(
    [REDIRECT_UNIQUE_ID] => Ton@HFUNkQEAAFVr5R8AAAAA
    [REDIRECT_GEOIP_ADDR] => 212.42.229.4
    [REDIRECT_GEOIP_CONTINENT_CODE] => EU
    [REDIRECT_GEOIP_COUNTRY_CODE] => DE
    [REDIRECT_GEOIP_COUNTRY_NAME] => Germany
    [REDIRECT_STATUS] => 200
    [UNIQUE_ID] => Ton@HFUNkQEAAFVr5R8AAAAA
    [GEOIP_ADDR] => 212.42.229.4
    [GEOIP_CONTINENT_CODE] => EU
    [GEOIP_COUNTRY_CODE] => DE
    [GEOIP_COUNTRY_NAME] => Germany
    [HTTP_COOKIE] => s9y_a60f4e1135e9e32a6fe53902ea6cc257=e762042eb0aa0357cb45cb4cdfb1414a; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=018cb124e7f243ab3df05e79e37cd5ea; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=dd2a39c8a89bd7a97283a29f40754188; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=ab9ebd924250399cc5bdcae879d4555b; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=d99b21a7aa11af3b020bf25a7190693f; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=5d5f42fed096ede3521e2ef0dfb946b8; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=2a02c05423b1ca3bcd0ed39d23ef1d2b; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=81a0db18bc1160cd26401b6e639313c3; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=c2b3911a5ec07efdf9c1204326b654f9; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=0a39b7ba457aa2a4fb618ecd85612310; path=/,,s9y_a60f4e1135e9e32a6fe53902ea6cc257=17a485ca35f4d39278b2b6cc26e64620; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=8643ea3ec90c764f062756d317cfe236; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=81b82b0f684c1d0cbad4a16c69d11f61; path=/
    [HTTP_USER_AGENT] => Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
    [HTTP_HOST] => farlion.com
    [PATH] => /usr/local/bin:/usr/bin:/bin
    [SERVER_SIGNATURE] => 
    [SERVER_SOFTWARE] => Apache
    [SERVER_NAME] => farlion.com
    [SERVER_ADDR] => 85.13.145.1
    [SERVER_PORT] => 80
    [REMOTE_HOST] => crmcrawling.intelligence-group.com
    [REMOTE_ADDR] => 212.42.229.4
    [DOCUMENT_ROOT] => /www/htdocs/w0084676/
    [SERVER_ADMIN] => webmaster@farlion.com
    [SCRIPT_FILENAME] => /www/htdocs/w0084676/index.php
    [REMOTE_PORT] => 18055
    [REDIRECT_QUERY_STRING] => /archives/240-Was-wir-aktuell-haben....html
    [REDIRECT_URL] => /archives/240-Was-wir-aktuell-haben....html
    [GATEWAY_INTERFACE] => CGI/1.1
    [SERVER_PROTOCOL] => HTTP/1.1
    [REQUEST_METHOD] => GET
    [QUERY_STRING] => /archives/240-Was-wir-aktuell-haben....html
    [REQUEST_URI] => /archives/240-Was-wir-aktuell-haben....html
    [SCRIPT_NAME] => /index.php
    [PHP_SELF] => /index.php
    [REQUEST_TIME] => 1317666332
    [argv] => Array

Re: Wie sperre ich einen Crawler aus?

Posted: Tue Oct 04, 2011 10:16 am
by garvinhicking
Hi!

Also theoretisch müsstest Du jede dieser Variablen per mod_rewrite auch blocken können, das geht irgendwie über %ENV{REMOTE_HOST} Parameter oder so. Die Syntax müsstest Du mal nachschauen, da fehlt mir gerade die Zeit. Das kannst Du jedenfalls einbauen, und dann mit nem RewriteRule auf ne fremde URL (die eigene *g*) umbiegen...

Grüße,
Garvin

Re: Wie sperre ich einen Crawler aus?

Posted: Wed Oct 05, 2011 12:06 am
by Farlion
Gute Idee, danke :)
Werde mir morgen mal die entsprechenden Anweisungen aus einem htaccess-Tut holen und versuchen, den Crawler zu youporn oder so zu schicken. ;)

Re: Wie sperre ich einen Crawler aus?

Posted: Wed Oct 05, 2011 1:34 pm
by kleinerChemiker
oder schick ihn zu google, da hat er viele links zu crawlen ;)

Re: Wie sperre ich einen Crawler aus?

Posted: Wed Oct 05, 2011 3:54 pm
by Farlion
Anhand des Firmenprofils denke ich mal, dass es sich um einen Mailadressen-Spider handelt.

Re: Wie sperre ich einen Crawler aus?

Posted: Thu Oct 06, 2011 4:06 pm
by Freudi

Code: Select all

deny from crmcrawling.intelligence-group.com
oder "etwas" streuender

Code: Select all

deny from 212.42.228.0/23
in der .htaccess wäre eine Möglichkeit.

Re: Wie sperre ich einen Crawler aus?

Posted: Sun Oct 09, 2011 10:07 pm
by Farlion
Die allow/deny-Methode hat fantastisch funktioniert, der Crawler ist futsch. :)

Nachschlag:

Ein Freund hat sich gerade um die Umleitungsmethode gekümmert:

Code: Select all

# (mod_rewrite muß in der Serverkonfig aktiv sein!)

<IfModule mod_rewrite.c>
	# Wenn die folgende Zeile schon woanders steht, kannst du sie weglassen.
	RewriteEngine On
	
	# Bitte die Oktette durch entspr. Werte ersetzen
	# Dito für die exakte Google-Adresse
	RewriteCond %{REMOTE_IP} ^111\.222\.333\.444$
	RewriteRule * http://www.google.com/search?q=deine+mudda [L,R=301]
</IfModule>
REMOTE_IP kann man auch durch REMOTE_HOST ersetzen und schon wird google vom Mailadressencrawler abgegrast. :)

Re: GELÖST : Wie sperre ich einen Crawler aus?

Posted: Mon Oct 10, 2011 9:06 am
by Timbalu
Eine Umleitung mag ja sehr lustig sein, doch ist Google dafür verantwortlich deine Site in ihren Index aufzunehmen. Sollten sie je auf den Trichter kommen (zb mit dem REFERER), wer ihnen die Spinne auf den Hals gehetzt hat, wirst du viel Freude mit Goggles Blacklist bekommen. Ich für meinen Teil würde mir solche Gelüste für non-humans einfach sparen.

Re: GELÖST : Wie sperre ich einen Crawler aus?

Posted: Mon Oct 10, 2011 12:46 pm
by Farlion
Keine Sorge, das war nur der Beispielcode. Ich hab ihn gestern noch auf die Seite eines bekannten Porn-Spammers geleitet. ;)