Dateien aus Google-Indexierung ausschließen?

**Snaky** · 02.03.2010, 22:45

Hallo

Ich habe das Problem, dass meine Downloads automatisch indexiert wurden, worin z.T. Daten stehen die nicht unbedingt an die Öffentlichkeit sollen. Wie kann ich z.B. die Dateien von der Indexierung durch Suchmaschinen ausschließen?

Glg
Michi

**xtra** · 02.03.2010, 22:54

Stichwort: robots.txt

**Snaky** · 02.03.2010, 22:57

Also reicht es einfach

Code:

User-agent: *
Disallow: /tl_files/downloads/

in die robots.txt einzugeben? (bzw. Liste nur mit /tl_files/downloads erweitern?)
Habe die robots.txt grad erst entdeckt im root-Verzeichnis. Hatte nämlich schon eine angelegt gehabt, wusste aber nicht so ganz wohin damit...

***xchs*** · 03.03.2010, 00:29

Und damit Du die betreffenden Links möglichst rasch wieder aus dem Index raus bekommst, kannst Du weiters in den Google Webmaster Tools eine (aktualisierte) Sitemap einreichen und gleichzeitig einen Antrag zum Löschen einer URL einreichen (um damit die obsoleten bzw. ungewollt indizierten Links wieder zu entfernen)

**Thomas** · 03.03.2010, 05:52

Zusätzlich gibt es noch die Möglichkeit, die Seiten mit nofollow, noindex, in der Seitenstruktur, aus zu schließen.

**Snaky** · 03.03.2010, 06:27

Ah okay. Gut zu wissen. Mir reichts es jetzt erstmal für die Downloads hab ich beschlossen

Bei google-Webmaster hatte ich jetzt eine Aktualisierung beantragt gehabt heute Nacht.

das noindex,nofollow könnte ich bei einer memberlist ja gut gebrauchen, da dort auch die Vor- und Nachname aufgezählt sind

Dank euch xtra, xchs und Thomas

**Sebastian** · 03.03.2010, 13:45

HI

du kannst mit dem Schloss die Dateien in der Dateiverwaltung übrigens sperren. Dann kann niemand unbefugtes die Dateien herunterladen, nur über (geschützte) Download-Inhaltselemente geht es noch.

Sebastian

**Snaky** · 03.03.2010, 13:52

Ja okay. Das ist nicht so wichtig für mich, weil ich meine Downloads allen zur Verfügung stellen will, egal ob sie angemeldet sind oder nicht. Nur Google oder andere Suchmaschinen sollten sie halt nicht auflisten, damit die Adressen nicht einfach so per Suchmaschine gefunden werden können.

Glg

**Snaky** · 04.03.2010, 07:12

Jetzt habe ich da aber noch mal eine Frage:
Ich habe jetzt bei Google beantragt gehabt:
http://www.rvfg.de/index.php/downloa...file=tl_files/ (Cache-Löschung)
http://www.rvfg.de/index.php/index.php?id=13&items=11 (Cache-Löschung)
http://www.rvfg.de/index.php/news-re...achmittag.html (Cache-Löschung)
http://www.rvfg.de/tl_files/downloads/ (Entfernen eines Verzeichnisses)

Alle 4 haben nun den Status "entfernt" bei google webmaster tools.
Des weiteren hat google nun meine robots.txt eingelesen und folgendes herausgezogen:

Code:

User-agent: *
Disallow: /plugins/
Disallow: /system/
Disallow: /templates/
Disallow: /typolight/
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /flash.php
Disallow: /GPL.txt
Disallow: /INSTALL.txt
Disallow: /LGPL.txt
Disallow: /tl_files/downloads/

Leider erscheinen die betreffenden Seiten die ich zur Löschung beantragt habe immer noch bei google. (bsp: eingabe lena hartmann rvfg bei google.de). Die Inhalte hatte ich so aktualisiert, dass nun keine Namen mehr im Artikel stehen, und trotzdem werden sie noch aufgeführt

Wie entziehe ich eigentlich TL eine Sitemap die ich dann bei google einreichen kann?

Glg

**Jogibär** · 04.03.2010, 07:23

Moin Saky,

ich meine, du musst dich hier einfach noch etwas gedulden.
Eine Anfrage wird ja i.d.R. nicht unmittelbar danach ausgeführt, sondern erstmal hinten angestellt. Bei der nächsten Aktualisierung des Indexes _kann_ deine Anfrage dann berücksichtigt werden. Aber wann genau, liegt halt im Ermessen von Google.

***xchs*** · 04.03.2010, 11:11

Zitat von Snaky

Wie entziehe ich eigentlich TL eine Sitemap die ich dann bei google einreichen kann?

Du meinst, wie Du mit TYPOlight eine "sitemap.xml" erstellst? Ganz einfach, indem Du in der Seitenstruktur beim "Startpunkt einer Webseite" die enstprechende Option aktivierst und dann den Namen der Sitemap einträgst.

**Snaky** · 10.03.2010, 06:42

Jetzt bekomme ich von google ein abgelehnt:

Ihr Antrag wurde abgelehnt, weil der Webmaster der Website die Indizierung oder Archivierung der Seite durch Google nicht über eine entsprechende robots.txt-Datei bzw. die entsprechenden Meta-Tags blockiert hat.

Wenden Sie sich bitte an den Webmaster dieser Website oder wählen Sie im Tool zum Entfernen von Webseiten eine andere Löschoption aus.

Ein noarchive kann ich in TL nicht auswählen. Nur noindex,nofollow. Aber die Archivierung ist derzeit mein Problem. Weil die wird abgelehnt weil ich keine Metatags häte um diese zu unterbinden und deshalb löscht google das auch nicht aus dem Cache so wie es aussieht.

***xchs*** · 10.03.2010, 07:49

Zitat von Snaky

Jetzt bekomme ich von google ein abgelehnt:

Ihr Antrag wurde abgelehnt, weil der Webmaster der Website die Indizierung oder Archivierung der Seite durch Google nicht über eine entsprechende robots.txt-Datei bzw. die entsprechenden Meta-Tags blockiert hat.

Wenden Sie sich bitte an den Webmaster dieser Website oder wählen Sie im Tool zum Entfernen von Webseiten eine andere Löschoption aus.

Ein noarchive kann ich in TL nicht auswählen. Nur noindex,nofollow. Aber die Archivierung ist derzeit mein Problem. Weil die wird abgelehnt weil ich keine Metatags häte um diese zu unterbinden und deshalb löscht google das auch nicht aus dem Cache so wie es aussieht.

Kommt Zeit - löscht Google. Irgendwann wäre das schon wieder rausgeflogen.
Wenn Du das "noarchiv"-Meta-Tag seitenspezifisch setzen möchtest, dann schau Dir bitte diese Erweiterung an.
Ansonsten wäre einfach das zu machen gewesen, was Dir Google ohnehin auch vorgeschlagen hat - nämlich durch entsprechende Einträge in der "robots.txt"; im Zusammenhang mit einem Löschantrag funktioniert das m.E.n. immer noch am besten/schnellsten.

**Snaky** · 10.03.2010, 09:45

Kann ich in die robot.txt auch einen link oder sowas definieren? Weil bisher weiß ich das nur in Zusammenhang mit Verzeichnissen.
Und in der robots.txt habe ich jetzt /tl_files/downloads eingetragen aber die datei ist immer noch über den google-cache trotz löschung aufrufbar weshalb ich immer noch beschwerden erhalte. Und die Datei hatte ich halt schon vor 1 1/2 Wochen zur Löschung (Cache-Bereinigung) beantragt und die war eigentlich auch bestätigt worden

***xchs*** · 10.03.2010, 12:40

Zitat von Snaky

Kann ich in die robot.txt auch einen link oder sowas definieren? Weil bisher weiß ich das nur in Zusammenhang mit Verzeichnissen.
Und in der robots.txt habe ich jetzt /tl_files/downloads eingetragen aber die datei ist immer noch über den google-cache trotz löschung aufrufbar weshalb ich immer noch beschwerden erhalte. Und die Datei hatte ich halt schon vor 1 1/2 Wochen zur Löschung (Cache-Bereinigung) beantragt und die war eigentlich auch bestätigt worden

Na, Link geht - glaub ich - nicht. Wenn Du das Verzeichnis erst jetzt (heute) in der "robots.txt" eingetragen hast, dann wirst Du schon auch einige Tage warten müssen, bis sich Google die neuen Daten geholt hat und entsprechend darauf reagiert.
Was Du aber zusätzlich machen könntest, wäre, die betreffenden Links in Deiner ".htaccess" (sofern Du die verwendest) mittels

Code:

#Redirect 301 /obsolete.html http://www.domain.tld/new.html

umzuleiten und Google somit einen 301-Statuscode zurückzugeben.
Ich kann jedenfalls von meiner Seite aus sagen, dass ich damit (und im Zusammenhang mit einem Löschantrag in den Google Webmaster-Tools) veraltete Links recht schnell aus dem Index rausbekommen habe. Wie es jetzt in Deinem konkreten Fall mit den gecachten Versionen der Seiten aussieht, kann ich leider auch nicht genau sagen.

**murphyslaw** · 06.06.2011, 19:16

Hallo,

die Checkbox in den Sucheinstellungen beim Erstellen einer neuen Seite sind ja nur für die interne Contao-Suchfunktion oder?

Wie kann man am besten das Indizieren einzelner Seiten für Suchmaschinen wie Google, Bing etc. bestmöglich verhindern?

Ich weiß dass man nicht-öffentliche Daten und Dateien besser gleich ganz sperrt bzw. hinter einem Frontend-Login versteckt.

Manche Seiten müssen aber trotzdem ohne Frontend-Login öffentlich zugänglich sein (wie AGB oder PDFs etc.) und die sollten aber nicht indiziert und per Suchmaschine gefunden werden.

Kann man das auch irgendwo in Contao direkt machen (zusätzliche Tags oder geht das nur über die robots.txt?

**murphyslaw** · 06.06.2011, 19:58

sorry hab ganz vergessen / übersehen dass der noindex, nofollow tag in der Seitenstruktur auf der entsprechenden Seite per selectmenü ausgewählt werden kann.