Von robots.txt abgelehnt

**izanagi** · 02.09.2014, 10:05

Hallo zusamm,

Google indexiert einige Seiten nicht weil die Ressourcen nur teilweise erreichbar sind.
Von robots.txt abgelehnt heisst es da.

Und zwar sind das Daten die eigentlich öffentlich sind und von der Robot.txt garnicht verboten wurden.

ttp://fonts.googleapis.com/css?family=Yanone%20Kaffeesatz[/url] Stylesheet Von robots.txt abgelehnt
ttp://externedomainblaa.com/work.php[/url] Ressource Von robots.txt abgelehnt
ttp://maps.googleapis.com/maps/api/js/StaticMapService.GetMapImage[/url].... Bild Von robots.txt abgelehnt
ttp://maps.googleapis.com/maps/api/js/AuthenticationService.Authenticate?1shttp%3A%[/url] Skript Von robots.txt abgelehnt
ttp://maps.googleapis.com/maps/api/js/ViewportInfoService.GetViewportInfo?1m6[/url] Skript Von robots.txt abgelehnt

ttp://www.domain.com/system/modules/dlh_googlemaps/html/dlh_googlemaps.css[/url] Stylesheet Von robots.txt abgelehnt
ttp://www.domain.com/system/scripts/781d32d1a90a.css[/url] Stylesheet Von robots.txt abgelehnt
ttp://www.domain.com/system/scripts/e53a815ab435.js[/url] Skript Von robots.txt abgelehnt

Aber auch eine css Datei von meinem eigenen Modul wird abgelehnt. Ich habe keine Ahnung wieso ?!
Jemand ne Idee ?

VG

**Spooky** · 02.09.2014, 12:22

Naja, diese hier sind ja alle klar:

http://fonts.googleapis.com/css?fami...e%20Kaffeesatz Stylesheet Von robots.txt abgelehntelehnt
http://maps.googleapis.com/maps/api/...ce.GetMapImage.... Bild Von robots.txt abgelehnt
http://maps.googleapis.com/maps/api/...ate?1shttp%3A% Skript Von robots.txt abgelehnt
http://maps.googleapis.com/maps/api/...ewportInfo?1m6 Skript Von robots.txt abgelehnt

Das sind externe Ressourcen und deren robots.txt definiert das so (und macht natürlich auch Sinn).

Auch diese hier sind klar:

http://www.domain.com/system/modules...googlemaps.css Stylesheet Von robots.txt abgelehnt
http://www.domain.com/system/scripts/781d32d1a90a.css Stylesheet Von robots.txt abgelehnt
http://www.domain.com/system/scripts/e53a815ab435.js Skript Von robots.txt abgelehnt

weil das tatsächlich so in der Standard robots.txt von Contao drinsteht:

User-agent: *
Disallow: /check/
Disallow: /contao/
Disallow: /system/
Disallow: /templates/
Disallow: /share/index.php
Disallow: /contao-check.php
Disallow: /flash.php
Disallow: /README.md
Allow: /assets/

Macht auch Sinn so (warum würdest du auch CSS oder JS Dateien von Google indexiert haben wollen?).

In diesem Fall:

http://externedomainblaa.com/work.php Ressource Von robots.txt abgelehnt

steht das vermutlich so in der robots.txt von http://externedomainblaa.com/ drin.

**izanagi** · 02.09.2014, 14:45

Ja das ist mir klar und macht auch Sinn. Sorry ich habe meine Frage auch total falsch gestellt.

Wie teile ich Google mit das er das ignorieren soll und die Seite dennoch Fehlerfrei Indexiert ohne ständig Fehlermeldungen auszugeben die ich korrigieren soll.
Bei allen anderen Unterseiten meckert er ja nicht rum. Nur bei den Catalog Item (detail)Seiten macht er so zicken.

Und wozu braucht der Bot Ressourcen ? Das sind doch alles irrelevante Materialien die er garnicht zum indexieren benötigt.

ACH moment mal... ich doof seh gerade die Fehlermeldungen stammen alle aus der profil.xml das ist eine RSS xml die der Catalog generiert für die Catalogitems.
Vielleicht mag er die Links einfach nicht. Ausserdem hat die xml auch garnix im webmaster Tool bei google zu suchen. Geh ich mal von aus oder. Die RSS hat ja ganz anderes Konstrukt.

**tab** · 02.09.2014, 16:34

Der Google-Bot ist alles andere als perfekt. Ich habe momentan auf einer Website auch mehrere "Fehler" bei der Indexierung. Und warum? Weil zwei oder drei andere Websites offenbar nicht in der Lage sind, korrekte Links zu der von mir administrierten Seite zu setzen. Da werden URLs verlinkt, die gab es auf der Seite nie und wird es da auch nie geben, einer z.B. mit www.domain.de/<plz>, wobei <plz> die Postleitzahl der auf der Website angegebenen Firmenadresse ist. Keine Ahnung wer sowas verlinkt. Natürlich bekommt der Bot eine 404 Statusmeldung, wenn er versucht, dem Link zu folgen. Das teilt er mir in den Webmaster-Tools auch brav mit, was in vielen Fällen auch sinnvoll ist, wenn sich einfach mal jemand vertippt hat beim Verlinken. Wenn der Link mir wichtig ist, schalte ich dann in der .htaccess eine Weiterleitung auf die richtige Seite und schreibe gelegentlich den Webmaster der verlinkenden Seite an. Aber bei sowas wie im obigen Beispiel ignoriere ich es einfach, zumal der Link eh nichts wert wäre. Wenn er eventuell von bundeskanzlerin.de käme, dann würde ich es mir überlegen wohin ich den weiterleiten könnte

.

Edit: Eventuell nach https: // www . nsa . gov/

**izanagi** · 09.09.2014, 16:23

Ja das ist wirklich nervig, ich hab auch ständig in eigentlich allen Projekten immer zig unbekannte html Seiten die nie existiert haben.
Die Bots erzeugen auch irgendwie willkürlich Linkverweise die nicht existieren. Stammt vermutlich wiederum von anderen automatisierten Prozessen die Links generieren.

Thema: Von robots.txt abgelehnt

Themen-Optionen

Thema durchsuchen

Von robots.txt abgelehnt

Aktive Benutzer

Aktive Benutzer

Lesezeichen

Lesezeichen

Berechtigungen

Contao

Empfohlene Webdesign-Bücher