Ergebnis 1 bis 9 von 9

Thema: Bilder trotz robots.txt auf Google-Bilder-Suche

  1. #1
    Contao-Nutzer Avatar von cb-schwimmen
    Registriert seit
    21.04.2011.
    Beiträge
    29

    Standard Bilder trotz robots.txt auf Google-Bilder-Suche

    Hallo zusammen,

    seit Mitte Juli habe ich eine robots.txt angelegt, damit meine Bilder in der Bildergalerie nicht mehr in der Google-Bilder-Suche landen. Inzwischen sind 3 Monate rum und immer noch finde ich die Bilder dort.

    Webseite: http://www.psvcottbus-schwimmen.de
    robots.txt natürlich im Root: http://www.psvcottbus-schwimmen.de/robots.txt

    Und der Inhalt der robots.txt
    User-agent: *
    Disallow: /contao/
    Disallow: /plugins/
    Disallow: /system/
    Disallow: /templates/
    Disallow: /typolight/
    Disallow: /CHANGELOG.txt
    Disallow: /cron.php
    Disallow: /flash.php
    Disallow: /share.php
    Disallow: /GPL.txt
    Disallow: /INSTALL.txt
    Disallow: /LGPL.txt
    Disallow: /tl_files/content/galerie/
    Disallow: /tl_files/content/galerie/*.jpg$
    Disallow: /tl_files/content/galerie/*.jpeg$
    Disallow: /tl_files/content/galerie/*.JPG$
    Disallow: /tl_files/content/galerie/*.JPEG$
    Aus dem Suchindex sollen alle Bilder raus, die im Ordner content/galerie/* liegen.

    Sucht man jedoch bei Google (https://encrypted.google.com/search?...=psv%20cottbus), dann findet man zahlreiche Bilder, die sich in dem oben genannten Ordner befinden

    Beispiel:
    https://encrypted.google.com/search?...=psv%20cottbus
    Bilder-Url: http://www.psvcottbus-schwimmen.de/t...20%2885%29.JPG

    Was mache ich falsch? Wie halte ich die Bilder aus dem Suchindex?
    (Bitte keine Diskussion, warum ich sie da raus haben will. Es geht hier klar um Kinder, die zum Teil leicht bekleidet sind. Die Bilder muss man nicht sofort über Google finden)
    mein erstes Contao-Projekt: http://www.psvcottbus-schwimmen.de - für Anregungen, Kritiken und Tipps bin ich jederzeit dankbar.

  2. #2
    Contao-Urgestein
    Registriert seit
    03.06.2010.
    Ort
    Wuppertal
    Beiträge
    2.149
    User beschenken
    Wunschliste

    Standard

    Zur robots.txt
    Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen.
    Selbst Google zeigt oft solche Seiten noch an, nur dann halt ohne Beschreibung... Insbesondere wenn die Bilder bereits indiziert waren, wirst du sie kaum aus dem Index raus kriegen...

    Du könntest Bots per .htaccess aussperren...

    Sowas in diese Richtung...
    Code:
    RewriteEngine On
    
    RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
    RewriteRule .* - [R=403,L]

  3. #3
    Contao-Yoda Avatar von MacKP
    Registriert seit
    15.06.2009.
    Ort
    Duisburg
    Beiträge
    13.292
    User beschenken
    Wunschliste
    Contao-Projekt unterstützen

    Support Contao

    Standard

    In den Google Webmaster Tools kann man schon indezierte Seiten raus nehmen. Eventuell geht das auch mit Bildern..
    Nen Versuch ist es wert. Ich hab sowas bisher nicht gebraucht, wenn was nicht im Internet sein soll, dann läd man das einfach nicht auf einen Server ;-)

    Viele Grüße
    Contao Pool | C-C-A | MetaModels | [Internetseite -> Mediendepot Ruhr]
    [Arbeitet bei -> Paus Design & Medien]
    "I can EXPLAIN it to you, but I can't UNDERSTAND it for you."

  4. #4
    Contao-Urgestein Avatar von Kahmoon
    Registriert seit
    22.06.2009.
    Ort
    München
    Beiträge
    5.291

    Standard

    Der Bot für die Bildsuche hat einen eigenen Handler. Diesen gebe ich immer separat an, da ich * nicht vertraue

    Code:
    User-Agent: Googlebot-Image
    Disallow: /ein_pfad/
    In den Webmastertools kannst du unter Crawling -> Blockierte URLs testen ob alles richtig eingestellt ist

    Sobald das korrekt gesetzt ist kannst du eine Löschung für jede einzelne URL zum Bild einreichen.
    https://www.google.com/webmasters/tools/removals

    Innerhalb von 48 Stunden sollte die URL bzw. das Bild dann aus dem Index sein. Das klappt für sämtliche eigene Inhalte sehr zuverlässig.
    Geändert von Kahmoon (28.10.2013 um 10:32 Uhr)

  5. #5
    Contao-Nutzer
    Registriert seit
    28.10.2013.
    Ort
    SH
    Beiträge
    5

    Beitrag indexieren der Bilder mit x-robots-tag verbieten

    Wenn der Googlebot die Bilder schon mal gecrawlt hatte, wird er durch eine htaccess-Blockierung oder die robots.txt nur davon abgehalten die Bilder nochmal zu scannen. Wann er sie raus nimmt steht in den Sternen. Die letzte Information die der Bot für diese Dateien hatte hieß ja "indexieren", oder zumindest nichts gegenteiliges.

    Eine zusätzlicher <head>-Tag in jeder Seitenstruktur sollte dann die Bilder löschen oder gar nicht erst indexieren:
    <meta name="robots" content="noimageindex">

    Andere Lösung um bei Bedarf nur bestimmte Dateien oder Pfade von der Indexierung auszunehmen ist der x-robots-tag den auch Bing unterstützt:
    https://developers.google.com/webmas...obots_meta_tag

    Von dieser Seite das Beispiel weiter unten unter "You can use the X-Robots-Tag for non-HTML files like image files" in die Contao .htaccess (".default" muss entfernt sein) unterhalb von "<IfModule mod_headers.c>"einbauen. Den Pfad entsprechend anpassen.

    Auf jeden Fall mit einem Tool wie z.B. "Live HTTP headers", "Firebug" (Netzwerk) oder bei Firefox mit rechter Maustaste auf "Element untersuchen / Netzwerk" kontrollieren, ob der x-robots-tag vom Server auch für die einzelnen Bildlinks gesetzt wird.

    Dann den bots wieder das scannen dieser Bilder erlauben (zumindest vorübergehend) und die Regeln für die Bilder in der robots.txt entfernen, damit er den x-robots-tag mit dem "noindex" für jedes Bild auch erhält. Gegebenenfalls drei Blöcke für Google/Bing und den Rest der Bots in der robots.txt angeben.

    LG windi
    Geändert von windi (29.10.2013 um 07:37 Uhr)

  6. #6
    Contao-Fan Avatar von Stranger
    Registriert seit
    20.06.2009.
    Ort
    Blankenburg
    Beiträge
    746
    Partner-ID
    5635
    User beschenken
    Wunschliste

    Standard

    Warum steht in der Standard robots.txt eigentlich folgende Zeile?
    Disallow: /system/

    Das ist doch schlecht, weil dann die Bilder nicht indexiert werden.
    Du willst dich bei mir bedanken?
    Ich freue mich über Geschenke von meiner Amazon-Wunschliste.

    Contao-Anwender seit 2008
    Contao-Entwickler seit 2013, mehr als 50 Contao Erweiterungen programmiert

    Mein Unternehmen aus Blankenburg (Harz): Fast & Media

  7. #7
    Contao-Urgestein
    Registriert seit
    03.06.2010.
    Ort
    Wuppertal
    Beiträge
    2.149
    User beschenken
    Wunschliste

    Standard

    In system liegen ja höchstens verkleinerte Bilder die sich bei jedem Neuaufbauen des Caches ändern könnten...

  8. #8
    Contao-Nutzer
    Registriert seit
    18.11.2011.
    Beiträge
    61

    Standard

    Ich habe nochmals eine Frage zu diesem bereits älteren Thema:
    -Wie schließe ich einzelne Bilder am einfachsten aus der Indexierung aus?
    Geht das nur über robots.txt oder gibt es anderenortes eine individuelle Möglichkeit?
    Danke!

  9. #9
    Contao-Urgestein Avatar von Samson1964
    Registriert seit
    05.11.2012.
    Ort
    Berlin
    Beiträge
    2.794

    Standard

    Ich habe kürzlich mal eine Seite gefunden wo beschrieben war, wie man für bestimmte Referer die Seite oder Dateien per .htaccess sperrt. Ich kenne aber die URL nicht.

    Gesendet von meinem L52 mit Tapatalk
    Viele Grüße
    Frank

    Seit Mai 2013 Fan von Contao
    Webmaster vom Deutschen Schachbund und Berliner Schachverband
    Mein Blog: Schachbulle
    Meine Erweiterungen bei GitHub
    Meine Videos auf YouTube: Playlist zur Contao-Programmierung/Einrichtung

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •