Bilder trotz robots.txt auf Google-Bilder-Suche

Druckbare Version

23.10.2013, 20:35
cb-schwimmen

Bilder trotz robots.txt auf Google-Bilder-Suche

Hallo zusammen,

seit Mitte Juli habe ich eine robots.txt angelegt, damit meine Bilder in der Bildergalerie nicht mehr in der Google-Bilder-Suche landen. Inzwischen sind 3 Monate rum und immer noch finde ich die Bilder dort.

Webseite: http://www.psvcottbus-schwimmen.de
robots.txt natürlich im Root: http://www.psvcottbus-schwimmen.de/robots.txt

Und der Inhalt der robots.txt

Zitat:

User-agent: *
Disallow: /contao/
Disallow: /plugins/
Disallow: /system/
Disallow: /templates/
Disallow: /typolight/
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /flash.php
Disallow: /share.php
Disallow: /GPL.txt
Disallow: /INSTALL.txt
Disallow: /LGPL.txt
Disallow: /tl_files/content/galerie/
Disallow: /tl_files/content/galerie/*.jpg$
Disallow: /tl_files/content/galerie/*.jpeg$
Disallow: /tl_files/content/galerie/*.JPG$
Disallow: /tl_files/content/galerie/*.JPEG$

Aus dem Suchindex sollen alle Bilder raus, die im Ordner content/galerie/* liegen.

Sucht man jedoch bei Google (https://encrypted.google.com/search?...=psv%20cottbus), dann findet man zahlreiche Bilder, die sich in dem oben genannten Ordner befinden

Beispiel:
https://encrypted.google.com/search?...=psv%20cottbus
Bilder-Url: http://www.psvcottbus-schwimmen.de/t...20%2885%29.JPG

Was mache ich falsch? Wie halte ich die Bilder aus dem Suchindex?
(Bitte keine Diskussion, warum ich sie da raus haben will. Es geht hier klar um Kinder, die zum Teil leicht bekleidet sind. Die Bilder muss man nicht sofort über Google finden)
24.10.2013, 07:06
Flex

Zur robots.txt

Zitat:

Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen.

Selbst Google zeigt oft solche Seiten noch an, nur dann halt ohne Beschreibung... Insbesondere wenn die Bilder bereits indiziert waren, wirst du sie kaum aus dem Index raus kriegen...

Du könntest Bots per .htaccess aussperren...

Sowas in diese Richtung...

Code:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC] RewriteRule .* - [R=403,L]
28.10.2013, 08:14
MacKP

In den Google Webmaster Tools kann man schon indezierte Seiten raus nehmen. Eventuell geht das auch mit Bildern..
Nen Versuch ist es wert. Ich hab sowas bisher nicht gebraucht, wenn was nicht im Internet sein soll, dann läd man das einfach nicht auf einen Server ;-)

Viele Grüße
28.10.2013, 10:04
Kahmoon

Der Bot für die Bildsuche hat einen eigenen Handler. Diesen gebe ich immer separat an, da ich * nicht vertraue ;)

Code:

User-Agent: Googlebot-Image Disallow: /ein_pfad/

In den Webmastertools kannst du unter Crawling -> Blockierte URLs testen ob alles richtig eingestellt ist

Sobald das korrekt gesetzt ist kannst du eine Löschung für jede einzelne URL zum Bild einreichen.
https://www.google.com/webmasters/tools/removals

Innerhalb von 48 Stunden sollte die URL bzw. das Bild dann aus dem Index sein. Das klappt für sämtliche eigene Inhalte sehr zuverlässig.
28.10.2013, 10:39
windi

indexieren der Bilder mit x-robots-tag verbieten

Wenn der Googlebot die Bilder schon mal gecrawlt hatte, wird er durch eine htaccess-Blockierung oder die robots.txt nur davon abgehalten die Bilder nochmal zu scannen. Wann er sie raus nimmt steht in den Sternen. Die letzte Information die der Bot für diese Dateien hatte hieß ja "indexieren", oder zumindest nichts gegenteiliges.

Eine zusätzlicher <head>-Tag in jeder Seitenstruktur sollte dann die Bilder löschen oder gar nicht erst indexieren:
<meta name="robots" content="noimageindex">

Andere Lösung um bei Bedarf nur bestimmte Dateien oder Pfade von der Indexierung auszunehmen ist der x-robots-tag den auch Bing unterstützt:
https://developers.google.com/webmas...obots_meta_tag

Von dieser Seite das Beispiel weiter unten unter "You can use the X-Robots-Tag for non-HTML files like image files" in die Contao .htaccess (".default" muss entfernt sein) unterhalb von "<IfModule mod_headers.c>"einbauen. Den Pfad entsprechend anpassen.

Auf jeden Fall mit einem Tool wie z.B. "Live HTTP headers", "Firebug" (Netzwerk) oder bei Firefox mit rechter Maustaste auf "Element untersuchen / Netzwerk" kontrollieren, ob der x-robots-tag vom Server auch für die einzelnen Bildlinks gesetzt wird.

Dann den bots wieder das scannen dieser Bilder erlauben (zumindest vorübergehend) und die Regeln für die Bilder in der robots.txt entfernen, damit er den x-robots-tag mit dem "noindex" für jedes Bild auch erhält. Gegebenenfalls drei Blöcke für Google/Bing und den Rest der Bots in der robots.txt angeben.

LG windi
05.03.2014, 20:05
Stranger

Warum steht in der Standard robots.txt eigentlich folgende Zeile?
Disallow: /system/

Das ist doch schlecht, weil dann die Bilder nicht indexiert werden.
05.03.2014, 20:48
Flex

In system liegen ja höchstens verkleinerte Bilder die sich bei jedem Neuaufbauen des Caches ändern könnten...
12.02.2017, 12:49
peterg

Ich habe nochmals eine Frage zu diesem bereits älteren Thema:
-Wie schließe ich einzelne Bilder am einfachsten aus der Indexierung aus?
Geht das nur über robots.txt oder gibt es anderenortes eine individuelle Möglichkeit?
Danke!
12.02.2017, 22:44
Samson1964

Ich habe kürzlich mal eine Seite gefunden wo beschrieben war, wie man für bestimmte Referer die Seite oder Dateien per .htaccess sperrt. Ich kenne aber die URL nicht.

Gesendet von meinem L52 mit Tapatalk