Crawler und Robots, Version 7

Alte Version

Dies ist eine alte Version des Inhalts in unserem Archiv. Besuchen Sie die aktuelle Version dieser Seite.

Diese Version wurde von sinanispp am 17. März 2010 um 13:44 Uhr erstellt.
Bemerkung des Bearbeiters: euagelia

Änderungen gegenüber vorheriger Version anzeigen


Ein Crawler, Spider oder Robot (kurz Bot) ist ein Programm, das automatisch Webseiten durchsucht und Informationen sammelt. Spider werden vor allem von Suchmaschinen benutzt um ihre Suchdatenbanken zu füllen. Sie werden aber auch von Spammern benutzt um Emailadressen zu sammenln.

Große Suchmaschinen

Googlebot

Der Googlebot ist der Crawler für den Suchindex von Google.

flowers kastoria λουλουδια καστορια  
HTML
1
2
3
Googlebot/2.1 (+http://www.google.com/bot.html)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot-Image/1.0

Informationen über den Bot bei Google.

Yahoo! Slurp

 
Text
1
2
3
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) 
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)

Informationen über den Bot bei Yahoo.

MSNBot

Der MSNBot ist der Crawler für den Suchindex der Live Search (MSN Search) Suchmaschine von Microsoft

User-Agent String  
Text
1
2
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
msnbot/0.3 ( http://search.msn.com/msnbot.htm)

Informationen über den Bot bei MSNBot.
Der undercover MSNBot benutzt überverhältnismäßig oft auch einen anderen UA-String. Dieser ähnelt folgendem und verfälscht so Statistiken mit bis zu 2% mehr Traffic.

 
Text
1
mozilla/4.0 (compatible; msie 7.0; windows nt 5.2; .net clr 1.1.4322)

Andere Bots

Kleinere Crawler

Google Adsense Crawler

Google Adsense Crawler  
Text
1
Mediapartners-Google/2.1

HTTrack Open-Source Crawler

HTTrack Open-Source Crawler  
Text
1
2
HTTrack/3.0x
HTTrack Website Copier/3.0x (offline browser; web mirror utility)