Bilder trotz robots.txt auf Google-Bilder-Suche
Hallo zusammen,
seit Mitte Juli habe ich eine robots.txt angelegt, damit meine Bilder in der Bildergalerie nicht mehr in der Google-Bilder-Suche landen. Inzwischen sind 3 Monate rum und immer noch finde ich die Bilder dort.
Webseite: http://www.psvcottbus-schwimmen.de
robots.txt natürlich im Root: http://www.psvcottbus-schwimmen.de/robots.txt
Und der Inhalt der robots.txt
Zitat:
User-agent: *
Disallow: /contao/
Disallow: /plugins/
Disallow: /system/
Disallow: /templates/
Disallow: /typolight/
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /flash.php
Disallow: /share.php
Disallow: /GPL.txt
Disallow: /INSTALL.txt
Disallow: /LGPL.txt
Disallow: /tl_files/content/galerie/
Disallow: /tl_files/content/galerie/*.jpg$
Disallow: /tl_files/content/galerie/*.jpeg$
Disallow: /tl_files/content/galerie/*.JPG$
Disallow: /tl_files/content/galerie/*.JPEG$
Aus dem Suchindex sollen alle Bilder raus, die im Ordner content/galerie/* liegen.
Sucht man jedoch bei Google (https://encrypted.google.com/search?...=psv%20cottbus), dann findet man zahlreiche Bilder, die sich in dem oben genannten Ordner befinden
Beispiel:
https://encrypted.google.com/search?...=psv%20cottbus
Bilder-Url: http://www.psvcottbus-schwimmen.de/t...20%2885%29.JPG
Was mache ich falsch? Wie halte ich die Bilder aus dem Suchindex?
(Bitte keine Diskussion, warum ich sie da raus haben will. Es geht hier klar um Kinder, die zum Teil leicht bekleidet sind. Die Bilder muss man nicht sofort über Google finden)
indexieren der Bilder mit x-robots-tag verbieten
Wenn der Googlebot die Bilder schon mal gecrawlt hatte, wird er durch eine htaccess-Blockierung oder die robots.txt nur davon abgehalten die Bilder nochmal zu scannen. Wann er sie raus nimmt steht in den Sternen. Die letzte Information die der Bot für diese Dateien hatte hieß ja "indexieren", oder zumindest nichts gegenteiliges.
Eine zusätzlicher <head>-Tag in jeder Seitenstruktur sollte dann die Bilder löschen oder gar nicht erst indexieren:
<meta name="robots" content="noimageindex">
Andere Lösung um bei Bedarf nur bestimmte Dateien oder Pfade von der Indexierung auszunehmen ist der x-robots-tag den auch Bing unterstützt:
https://developers.google.com/webmas...obots_meta_tag
Von dieser Seite das Beispiel weiter unten unter "You can use the X-Robots-Tag for non-HTML files like image files" in die Contao .htaccess (".default" muss entfernt sein) unterhalb von "<IfModule mod_headers.c>"einbauen. Den Pfad entsprechend anpassen.
Auf jeden Fall mit einem Tool wie z.B. "Live HTTP headers", "Firebug" (Netzwerk) oder bei Firefox mit rechter Maustaste auf "Element untersuchen / Netzwerk" kontrollieren, ob der x-robots-tag vom Server auch für die einzelnen Bildlinks gesetzt wird.
Dann den bots wieder das scannen dieser Bilder erlauben (zumindest vorübergehend) und die Regeln für die Bilder in der robots.txt entfernen, damit er den x-robots-tag mit dem "noindex" für jedes Bild auch erhält. Gegebenenfalls drei Blöcke für Google/Bing und den Rest der Bots in der robots.txt angeben.
LG windi