Spider ..

Started by Feline, 2018 February 26, 09:09:47 pm

previous topic - next topic

0 Members and 1 Guest are viewing this topic.

Feline

*
2018 February 26, 09:09:47 pm
Wie wir in den Logs gesehen habe, sind einige Spider sehr aggressiv (sehr viele Seitenzugriffe) unterwegs.
Solche Spider haben wir ausgeschlossen ...

Wie kann man das machen?
Sehr einfach .. über die .htaccess Datei (die ohnehin vorhanden sein muss, wenn SEF genutzt wird).

Zu dem Zweck einfach folgende Zeilen (am Anfang der Datei) hinzufügen:
Code Select
# Stop these bots
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|Barkrowler|MJ12bot|BLEXBot|BUbiNG|YandexBot|YandexImages|SemrushBot|Baiduspider|seznambot|DnyzBot) [NC]
RewriteRule .* - [F,L]
#

Damit laufen die Bots auf einen 403 Error ..
Und schon ist ruhe  ;)

Fel
Many are stubborn in relation to the way, but less in relation to the target.

hartiberlin

*
#1
2018 February 27, 02:33:05 pm
Hmm, aber kann es sein, dass man dann auch weniger Backlinks von diesen Websites der Spiders hat ?
Kann das negativ fürs SEO  Ranking bei Google sein ??

Danke.

Gruss, Stefan.

Feline

*
#2
2018 February 27, 02:54:16 pm
Google wird ja nicht geblock.

Das sind vornehmlich Spider aus dem Asiatischem Raum ..
Die machen einen derart heftigen Traffic .. mehr als 200 Seitenzugriffe und die kommen alle 10 Minuten vorbei ..
Aber wir lassen ja dem Anwender die Entscheidung, welche Spider geblockt werden und welche nicht.
Wenn der Spider nicht in der .htaccess drin steht, kann er auch die Seiten indizieren.

Wer nicht geblock ist, kommt automatisch in die Spider Liste, wenn er noch nicht drin steht.
Mit anderen Worten .. wir verwenden eine List aller Weltweit operierenden Spider/Bots.
Und wenn einer kommt der noch nie da war, wird automatisch zur Spiderliste hinzugefügt.
Sprich .. die Spider liste füllt sich im laufe der Zeit .. da muss nicht von Hand hinzugefügt werden.

Fel
Many are stubborn in relation to the way, but less in relation to the target.

hartiberlin

*
#3
2018 March 31, 04:13:19 am
Kann man den Spider-403 Code in der .htaccess Datei auch z.B. für Wordpress benutzen ?
Müsste eigentlich gehen, oder ?
Danke.

Feline

*
#4
2018 March 31, 07:00:35 am
Quote from: hartiberlin, 2018 March 31, 04:13:19 amKann man den Spider-403 Code in der .htaccess Datei auch z.B. für Wordpress benutzen ?
Müsste eigentlich gehen, oder ?
Danke.
Kann ich nicht sagen, da ich Wordpress nicht kenne.
Ausserdem .. wird das in der kommenden Version nicht mehr über die .htaccess gemacht, sondern das wird intern abgehandelt.
In der Spiderliste gibt es dann eine Checkbox über die ein Spider geblockt werden kann.
Der Spider sieht dann ein 403 Forbidden ..

Fel
Many are stubborn in relation to the way, but less in relation to the target.

* Shouts

Feline
2018 Aug. 21, 08:10:46 pm
Today we update our Forum to the Version 1.45
Feline
2018 Jun. 09, 07:54:13 pm
Today we update our Forum to Version 1.4
This release is full compatible with the EU GDPR
Feline
2018 Mar. 28, 11:56:21 am
Update for PortaMx 1.54 ecl released.
With this updates the Portal works with PHP 7.x and SMF 2.0.15
Feline
2018 Mar. 17, 10:35:03 pm
PortaMx Forum 1.3
released !

*
Feline
2017 Dec. 10, 04:30:54 am
Today we switched to PHP 7.2 and activate Opcode caching.
Fast .. Very fast *
Feline
2017 Mar. 03, 11:54:35 pm
Today we upgrade our old SMF 2.0 Forum to PortaMx Forum *

* Calendar

Su
Mo
Tu
We
Th
Fr
Sa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
HolidaysDec 16: 3. Advent (de)