GELÖST : Wie sperre ich einen Crawler aus?

Hier können Probleme und alles andere in Deutscher Sprache gelöst werden.
Post Reply
User avatar
Farlion
Regular
Posts: 200
Joined: Sun Nov 05, 2006 3:27 pm
Contact:

GELÖST : Wie sperre ich einen Crawler aus?

Post by Farlion » Wed Sep 28, 2011 9:57 pm

Seit ein paar Wochen spidert ein Crawler der Business Intelligence Group meinen Blog 24/7 rauf und runter. Ich habe schon alles probiert. Die IP wechselt desöfteren, der Name des Crawlers wird nicht übertragen, der Servername (crmcrawling.intelligence- group.com) ist das einzige, was in den Stats auftaucht.

Hat jemand eine Idee, wie ich das nervige Ding los werde?
Last edited by Farlion on Sun Oct 09, 2011 11:32 pm, edited 1 time in total.
Mit S9Y erstellt:
Nichts mehr.

User avatar
Timbalu
Regular
Posts: 4598
Joined: Sun May 02, 2004 3:04 pm

Re: Wie sperre ich einen Crawler aus?

Post by Timbalu » Thu Sep 29, 2011 9:23 am

wie wärs mit der robots.txt? (wenn er sich dran hält!)
Regards,
Ian

Serendipity Styx Edition and additional_plugins @ https://ophian.github.io/ @ https://github.com/ophian

User avatar
Farlion
Regular
Posts: 200
Joined: Sun Nov 05, 2006 3:27 pm
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by Farlion » Thu Sep 29, 2011 9:46 am

Ignoriert er, sonst hätte ich hier nicht gefragt. ;)
Mit S9Y erstellt:
Nichts mehr.

User avatar
garvinhicking
Core Developer
Posts: 30020
Joined: Tue Sep 16, 2003 9:45 pm
Location: Cologne, Germany
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by garvinhicking » Thu Sep 29, 2011 9:49 am

Hi!

Ggf. mal versuchen die Crawler-Betreiber zu kontaktieren? Sonst hilft eine .htaccess wo man den HTTP User-Agent ausschließt? Ich schätze darin steht der Hostname...?

Wenn der Crawler gerade aktiv ist kannst du ja mal in die erste zeile der index.php ein

Code: Select all

<?php
$lf = fopen('crawler.log', 'a');
fwrite($lf, print_r($_SERVER, true) . "\n" . print_r($_REQUEST, true));
fclose($lf);
einfügen und dann schauen auf was für Variablen du zugreifen kannst die den crawler identifizieren?

GRüße,
Garvin
# Garvin Hicking (s9y Developer)
# Did I help you? Consider making me happy: http://wishes.garv.in/
# or use my PayPal account "paypal {at} supergarv (dot) de"
# My "other" hobby: http://flickr.garv.in/

User avatar
Farlion
Regular
Posts: 200
Joined: Sun Nov 05, 2006 3:27 pm
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by Farlion » Sat Oct 01, 2011 9:34 pm

Danke, werde ich mal testen.
Der Betreiber des Crawlers antwortet leider nicht auf Mails.
Mit S9Y erstellt:
Nichts mehr.

User avatar
Farlion
Regular
Posts: 200
Joined: Sun Nov 05, 2006 3:27 pm
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by Farlion » Mon Oct 03, 2011 9:04 pm

Hallo Garvin,

dank deiner Code-Zeilen konnte ich zumindest einige Informationen über den Crawler bekommen. Allerdings sehe ich da ein paar Probleme:

1. Die Remote-Address wechselt öfter, also keine feste IP.
2. Der User-Agent gibt sich als Mozilla/4.0 aus, kann ich also darüber schlecht aussperren.

Was ich habe ist der Remote Host. Lässt sich darüber etwas machen? Der trägt nämlich immer den gleichen Namen.
Hier mal der Auszug aus dem Log:

Code: Select all

Array
(
    [REDIRECT_UNIQUE_ID] => Ton@HFUNkQEAAFVr5R8AAAAA
    [REDIRECT_GEOIP_ADDR] => 212.42.229.4
    [REDIRECT_GEOIP_CONTINENT_CODE] => EU
    [REDIRECT_GEOIP_COUNTRY_CODE] => DE
    [REDIRECT_GEOIP_COUNTRY_NAME] => Germany
    [REDIRECT_STATUS] => 200
    [UNIQUE_ID] => Ton@HFUNkQEAAFVr5R8AAAAA
    [GEOIP_ADDR] => 212.42.229.4
    [GEOIP_CONTINENT_CODE] => EU
    [GEOIP_COUNTRY_CODE] => DE
    [GEOIP_COUNTRY_NAME] => Germany
    [HTTP_COOKIE] => s9y_a60f4e1135e9e32a6fe53902ea6cc257=e762042eb0aa0357cb45cb4cdfb1414a; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=018cb124e7f243ab3df05e79e37cd5ea; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=dd2a39c8a89bd7a97283a29f40754188; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=ab9ebd924250399cc5bdcae879d4555b; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=d99b21a7aa11af3b020bf25a7190693f; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=5d5f42fed096ede3521e2ef0dfb946b8; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=2a02c05423b1ca3bcd0ed39d23ef1d2b; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=81a0db18bc1160cd26401b6e639313c3; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=c2b3911a5ec07efdf9c1204326b654f9; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=0a39b7ba457aa2a4fb618ecd85612310; path=/,,s9y_a60f4e1135e9e32a6fe53902ea6cc257=17a485ca35f4d39278b2b6cc26e64620; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=8643ea3ec90c764f062756d317cfe236; path=/,s9y_a60f4e1135e9e32a6fe53902ea6cc257=81b82b0f684c1d0cbad4a16c69d11f61; path=/
    [HTTP_USER_AGENT] => Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
    [HTTP_HOST] => farlion.com
    [PATH] => /usr/local/bin:/usr/bin:/bin
    [SERVER_SIGNATURE] => 
    [SERVER_SOFTWARE] => Apache
    [SERVER_NAME] => farlion.com
    [SERVER_ADDR] => 85.13.145.1
    [SERVER_PORT] => 80
    [REMOTE_HOST] => crmcrawling.intelligence-group.com
    [REMOTE_ADDR] => 212.42.229.4
    [DOCUMENT_ROOT] => /www/htdocs/w0084676/
    [SERVER_ADMIN] => webmaster@farlion.com
    [SCRIPT_FILENAME] => /www/htdocs/w0084676/index.php
    [REMOTE_PORT] => 18055
    [REDIRECT_QUERY_STRING] => /archives/240-Was-wir-aktuell-haben....html
    [REDIRECT_URL] => /archives/240-Was-wir-aktuell-haben....html
    [GATEWAY_INTERFACE] => CGI/1.1
    [SERVER_PROTOCOL] => HTTP/1.1
    [REQUEST_METHOD] => GET
    [QUERY_STRING] => /archives/240-Was-wir-aktuell-haben....html
    [REQUEST_URI] => /archives/240-Was-wir-aktuell-haben....html
    [SCRIPT_NAME] => /index.php
    [PHP_SELF] => /index.php
    [REQUEST_TIME] => 1317666332
    [argv] => Array
Mit S9Y erstellt:
Nichts mehr.

User avatar
garvinhicking
Core Developer
Posts: 30020
Joined: Tue Sep 16, 2003 9:45 pm
Location: Cologne, Germany
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by garvinhicking » Tue Oct 04, 2011 10:16 am

Hi!

Also theoretisch müsstest Du jede dieser Variablen per mod_rewrite auch blocken können, das geht irgendwie über %ENV{REMOTE_HOST} Parameter oder so. Die Syntax müsstest Du mal nachschauen, da fehlt mir gerade die Zeit. Das kannst Du jedenfalls einbauen, und dann mit nem RewriteRule auf ne fremde URL (die eigene *g*) umbiegen...

Grüße,
Garvin
# Garvin Hicking (s9y Developer)
# Did I help you? Consider making me happy: http://wishes.garv.in/
# or use my PayPal account "paypal {at} supergarv (dot) de"
# My "other" hobby: http://flickr.garv.in/

User avatar
Farlion
Regular
Posts: 200
Joined: Sun Nov 05, 2006 3:27 pm
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by Farlion » Wed Oct 05, 2011 12:06 am

Gute Idee, danke :)
Werde mir morgen mal die entsprechenden Anweisungen aus einem htaccess-Tut holen und versuchen, den Crawler zu youporn oder so zu schicken. ;)
Mit S9Y erstellt:
Nichts mehr.

User avatar
kleinerChemiker
Regular
Posts: 765
Joined: Tue Oct 17, 2006 2:36 pm
Location: Vienna/Austria
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by kleinerChemiker » Wed Oct 05, 2011 1:34 pm

oder schick ihn zu google, da hat er viele links zu crawlen ;)

User avatar
Farlion
Regular
Posts: 200
Joined: Sun Nov 05, 2006 3:27 pm
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by Farlion » Wed Oct 05, 2011 3:54 pm

Anhand des Firmenprofils denke ich mal, dass es sich um einen Mailadressen-Spider handelt.
Mit S9Y erstellt:
Nichts mehr.

Freudi
Regular
Posts: 97
Joined: Thu Nov 23, 2006 6:29 am
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by Freudi » Thu Oct 06, 2011 4:06 pm

Code: Select all

deny from crmcrawling.intelligence-group.com
oder "etwas" streuender

Code: Select all

deny from 212.42.228.0/23
in der .htaccess wäre eine Möglichkeit.

User avatar
Farlion
Regular
Posts: 200
Joined: Sun Nov 05, 2006 3:27 pm
Contact:

Re: Wie sperre ich einen Crawler aus?

Post by Farlion » Sun Oct 09, 2011 10:07 pm

Die allow/deny-Methode hat fantastisch funktioniert, der Crawler ist futsch. :)

Nachschlag:

Ein Freund hat sich gerade um die Umleitungsmethode gekümmert:

Code: Select all

# (mod_rewrite muß in der Serverkonfig aktiv sein!)

<IfModule mod_rewrite.c>
	# Wenn die folgende Zeile schon woanders steht, kannst du sie weglassen.
	RewriteEngine On
	
	# Bitte die Oktette durch entspr. Werte ersetzen
	# Dito für die exakte Google-Adresse
	RewriteCond %{REMOTE_IP} ^111\.222\.333\.444$
	RewriteRule * http://www.google.com/search?q=deine+mudda [L,R=301]
</IfModule>
REMOTE_IP kann man auch durch REMOTE_HOST ersetzen und schon wird google vom Mailadressencrawler abgegrast. :)
Mit S9Y erstellt:
Nichts mehr.

User avatar
Timbalu
Regular
Posts: 4598
Joined: Sun May 02, 2004 3:04 pm

Re: GELÖST : Wie sperre ich einen Crawler aus?

Post by Timbalu » Mon Oct 10, 2011 9:06 am

Eine Umleitung mag ja sehr lustig sein, doch ist Google dafür verantwortlich deine Site in ihren Index aufzunehmen. Sollten sie je auf den Trichter kommen (zb mit dem REFERER), wer ihnen die Spinne auf den Hals gehetzt hat, wirst du viel Freude mit Goggles Blacklist bekommen. Ich für meinen Teil würde mir solche Gelüste für non-humans einfach sparen.
Regards,
Ian

Serendipity Styx Edition and additional_plugins @ https://ophian.github.io/ @ https://github.com/ophian

User avatar
Farlion
Regular
Posts: 200
Joined: Sun Nov 05, 2006 3:27 pm
Contact:

Re: GELÖST : Wie sperre ich einen Crawler aus?

Post by Farlion » Mon Oct 10, 2011 12:46 pm

Keine Sorge, das war nur der Beispielcode. Ich hab ihn gestern noch auf die Seite eines bekannten Porn-Spammers geleitet. ;)
Mit S9Y erstellt:
Nichts mehr.

Post Reply