Contao-Camp 2024
Ergebnis 1 bis 24 von 24

Thema: robots.txt

  1. #1
    Contao-Nutzer Avatar von ErichM
    Registriert seit
    14.11.2011.
    Beiträge
    44

    Standard robots.txt

    Mit der Installation von Contao 4.4.1 wird keine robots.txt mitgeliefert. Wird diese für Contao nicht mehr benötigt, oder kann/soll die bisherige weiter verwendet werden? Wer weiß hier Bescheid.

  2. #2
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.040
    Partner-ID
    10107

    Standard

    Du kannst ohne weiteres eine eigene robots.txt im web/ Ordner benutzen.

  3. #3
    Contao-Nutzer Avatar von ErichM
    Registriert seit
    14.11.2011.
    Beiträge
    44

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Du kannst ohne weiteres eine eigene robots.txt im web/ Ordner benutzen.
    Danke für die schnelle Anwort. Ich gehe also davon aus, dass Contao keine speziellen Einträge in der robots.txt mehr benötigt.

  4. #4
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.075
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Ich denke, es hat eine robots.txt ungefähr genauso nötig wie Contao 3.5.

  5. #5
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.040
    Partner-ID
    10107

    Standard

    Das ist der Inhalt der robots.txt von Contao 3.5.:
    Code:
    User-agent: *
    Disallow: /check/
    Disallow: /contao/
    Disallow: /system/
    Disallow: /templates/
    Disallow: /vendor/
    Disallow: /share/index.php
    Disallow: /build.xml
    Disallow: /composer.json
    Disallow: /composer.lock
    Disallow: /README.md
    Allow: /system/cron/cron.txt
    Allow: /system/modules/*/assets/
    Allow: /system/modules/*/html/
    Manche rules davon könnte man für Contao 4 übernehmen bzw. noch gebrauchen. Andere sind nicht mehr notwendig, da die jeweiligen Pfade von außen nicht (mehr) erreichbar sind.

  6. #6
    Contao-Fan Avatar von mandrake
    Registriert seit
    19.06.2009.
    Ort
    Düsseldorf
    Beiträge
    461

    Standard

    Und was sollen Ratsuchende wie Erich - und sicherlich auch diverse andere Anwender - nun genau mit Euren Kommentaren anfangen?

    Die Frage, die sich mir in diesem Kontext zudem aufdrängt lautet: Warum liefert Contao 4 überhaupt keine robots.txt mehr in - von Contao 3 gewohnter Weise - mehr mit aus?

  7. #7
    Administratorin Avatar von lucina
    Registriert seit
    19.06.2009.
    Ort
    Kiel (DE)
    Beiträge
    7.332
    Partner-ID
    152
    User beschenken
    Wunschliste
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Weil ...

    a) eine bisher mitgelieferte robots.txt nur ein Startpunkt für eigene Konfigurationen sein kann
    b) alle bisher durch die robots.txt pseudo-geschützen Dateien ohnehin nicht mehr zugänglich sind
    c) man nichts erlauben muss wenn man nichts verbietet

  8. #8
    Contao-Fan Avatar von mandrake
    Registriert seit
    19.06.2009.
    Ort
    Düsseldorf
    Beiträge
    461

    Standard

    a) eine bisher mitgelieferte robots.txt nur ein Startpunkt für eigene Konfigurationen sein kann
    Ist dem normalen Anwender sicherlich so schnurz, wie bisher auch.

    b) alle bisher durch die robots.txt pseudo-geschützen Dateien ohnehin nicht mehr zugänglich sind
    Hilft dem normalen Anwender vielleicht tatsächlich etwas weiter - wenn er denn im Thema ist.

    c) man nichts erlauben muss wenn man nichts verbietet
    Eine klare Aussage, die den normalen Anwender hoffentlich zum nachdenken anregen wird.

  9. #9
    Wandelndes Contao-Lexikon Avatar von BugBuster
    Registriert seit
    15.06.2009.
    Ort
    Berlin
    Beiträge
    10.507
    User beschenken
    Wunschliste

    Standard

    Kurz, die ist einfach unnötig :-)
    Wenn jemand manuell dran geschraubt hat zu Contao 3 Zeiten, z.B. um dort den Pfad zu einer sitemap Datei anzugeben, das könnte man natürlich dann übernehmen.
    Oder um bestimmte Bots zu bitten von der Durchsuchung abzulassen.
    Aber dann hatte man ja eh Ahnung was man da tut und weiß dann auch Bescheid ob das in Contao 4 noch nötig ist.
    Grüße, BugBuster
    "view source" is your guide.
    Danke an alle Amazon Wunschlisten Erfüller

  10. #10
    Administratorin Avatar von lucina
    Registriert seit
    19.06.2009.
    Ort
    Kiel (DE)
    Beiträge
    7.332
    Partner-ID
    152
    User beschenken
    Wunschliste
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Zitat Zitat von BugBuster Beitrag anzeigen
    Oder um bestimmte Bots zu bitten von der Durchsuchung abzulassen.
    You made my day.

  11. #11
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.075
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Ich würde mal so sagen: Wenn ein Bot bei einer 3.5 versucht, auf /system zuzugreifen abgesehen von den explizit erlaubten Unterverzeichnissen mit Ressourcen, die der Bot brauchen könnte um die Website komplett zu erfassen, dann frage ich mich, wieso er das eigentlich will. Es ist ja im HTML nichts verlinkt dahin, wozu versucht er es also überhaupt?
    Da sehe ich eigentlich nur zwei Möglichkeiten:

    1. Irgendjemand hat aus Unwisseneit oder Böswilligkeit einen entsprechenden Link dahin auf irgendeiner Website gesetzt, dem der Bot gefolgt ist.
    2. Der Bot will rumschnüffeln in Verzeichnissen und Dateien, die er zum Verstehen der Website nicht braucht. Also sozusagen ein Spion, der alles runterlädt, was ihm zwischen die Finger kommt.


    In beiden Fällen konnte der Bot ohnehin nur runterladen, was nicht durch eine .htaccess geschützt war. Und das waren doch im Wesentlichen sinngemäß die selben Dateien und Verzeichnisse wie bei Contao 4, hier funktioniert nur der Schutz anders. Er funktioniert aber nicht besser oder schlechter als bei Contao 3, nur anders. Besser allenfalls für nginx Webserver, weil bei Contao 4 der Schutz für Apache und nginx gleich funktioniert und man nicht mehr aktiv notwendige Schutzmaßnahmen selbst "nachrüsten" muss. Und im Fall des Spions hilft die robots.txt sowieso nicht, weil er sie ja einfach ignorieren kann und wird.

    Und wenn man einfach den Inhalt bestimmter öffentlich zugänglicher Seiten nicht im Google-Index finden will, dann unterscheidet sich auch in dieser Hinsicht Contao 3 nicht von Contao 4.

  12. #12
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.040
    Partner-ID
    10107

    Standard

    Zitat Zitat von tab Beitrag anzeigen
    Es ist ja im HTML nichts verlinkt dahin, wozu versucht er es also überhaupt?
    Doch, Extensions können ja eigene Assets und Einstiegspunkte mitbringen. Daher auch die Ausnahme in der default robots.txt von Contao 3:
    Code:
    Allow: /system/modules/*/assets/
    Allow: /system/modules/*/html/

  13. #13
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.075
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Genau, hab ich doch geschrieben
    abgesehen von den explizit erlaubten Unterverzeichnissen mit Ressourcen, die der Bot brauchen könnte um die Website komplett zu erfassen
    Edit: Eine system/config/localconfig.php ist ja z.B. nirgends im HTML verlinkt, eben nur die assets.

  14. #14
    Contao-Nutzer
    Registriert seit
    22.06.2017.
    Beiträge
    186

    Standard

    Als ob es einen Bot interessiert, was in der robots.txt steht. Im Gegenteil, genau dort findet er wichtige Infos zum System; also warum diese öffentlich machen?
    Diverse Vul-Scanner suchen genau danach um ihre Infos zu bekommen und dort anzusetzen.

    Was soll auch sinnvolles bis auf einen Verweis zur Sitemap drin stehen?

  15. #15
    Contao-Urgestein Avatar von Samson1964
    Registriert seit
    05.11.2012.
    Ort
    Berlin
    Beiträge
    2.794

    Standard

    Die guten Bots halten sich an die Anweisungen in der robots.txt, weil sonst viel zu viel Unsinn im Index landet. Die bösen Bots interessiert die robots.txt nicht. Die greifen sich eh alles, was nicht geschützt ist.

    Gesendet von meinem L52 mit Tapatalk
    Viele Grüße
    Frank

    Seit Mai 2013 Fan von Contao
    Webmaster vom Deutschen Schachbund und Berliner Schachverband
    Mein Blog: Schachbulle
    Meine Erweiterungen bei GitHub
    Meine Videos auf YouTube: Playlist zur Contao-Programmierung/Einrichtung

  16. #16
    Wandelndes Contao-Lexikon Avatar von BugBuster
    Registriert seit
    15.06.2009.
    Ort
    Berlin
    Beiträge
    10.507
    User beschenken
    Wunschliste

    Standard

    Und dann gibt es die Hacker, die dort einen Disallow reinstellen für eine Datei was nichts mit Contao zu tun hat.
    Geht ein Bot dort drauf ist er als böse markiert und wird per IP für einige Zeit/immer gesperrt :-)
    Grüße, BugBuster
    "view source" is your guide.
    Danke an alle Amazon Wunschlisten Erfüller

  17. #17
    Alter Contao-Hase
    Registriert seit
    20.03.2010.
    Ort
    Hannover
    Beiträge
    1.041

    Standard

    Auf die Idee wär ich nicht mal gekommen.
    Danke für diesen Denkanstoß. Ich bin einfach zu "arglos" :-)

  18. #18
    Contao-Fan
    Registriert seit
    05.11.2009.
    Ort
    Liebschützberg (Sachsen)
    Beiträge
    527

    Standard

    Hallo,
    der Fred ist zwar schon etwas älter aber ich bin gerade in den Logs über diese Meldung gestolpert.

    Code:
    [2018-07-24 12:40:18] request.INFO: Matched route  "contao_catch_all".  {"route":"contao_catch_all","route_parameters":{"_scope":"frontend","_token_check":true,"_controller":"Contao\\CoreBundle\\Controller\\FrontendController::indexAction","_url_fragment":"robots.txt","_route":"contao_catch_all"},"request_uri":"https://www.domain.de/robots.txt","method":"GET"}  []
    [2018-07-24 12:40:18] security.INFO: Attempting SimplePreAuthentication.   {"key":"frontend","authenticator":"Contao\\CoreBundle\\Security\\ContaoAuthenticator"}  []
    [2018-07-24 12:40:18] request.ERROR: Uncaught PHP Exception  Symfony\Component\HttpKernel\Exception\NotFoundHttpException: "Page not  found: https://www.domain.de/robots.txt" at  /var/virtual/xxx/public/vendor/contao/core-bundle/src/EventListener/ExceptionConverterListener.php  line 112 {"exception":"[object]  (Symfony\\Component\\HttpKernel\\Exception\\NotFoundHttpException(code:  0): Page not found: https://www.domain.de/robots.txt at  /var/virtual/xxx/public/vendor/contao/core-bundle/src/EventListener/ExceptionConverterListener.php:112,  Contao\\CoreBundle\\Exception\\PageNotFoundException(code: 0): Page not  found: https://www.domain.de/robots.txt at  /var/virtual/xxx/public/vendor/contao/core-bundle/src/Resources/contao/controllers/FrontendIndex.php:64)"}  []
    wenn in Contao 4 keine robots.txt mehr vorhanden und notwendig ist, warum prüft Contao dann ob diese vorhanden ist!?

    Oder wird diese Meldung durch das Pagespeed-Modul verursacht, welches auf dem Server (Hostingwerk) läuft?

    Steffen Winde

  19. #19
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.040
    Partner-ID
    10107

    Standard

    Contao prüft das nicht. Dieser Log Eintrag erscheint immer dann, wenn irgendjemand diese URL aufruft.

  20. #20
    Contao-Nutzer Avatar von Skipman
    Registriert seit
    13.08.2011.
    Ort
    Nähe St. Pölten / Niederösterreich
    Beiträge
    52
    Contao-Projekt unterstützen

    Support Contao

    Standard Volle Log-Datei erschwert Fehleranalyse

    Zitat Zitat von Spooky Beitrag anzeigen
    Contao prüft das nicht. Dieser Log Eintrag erscheint immer dann, wenn irgendjemand diese URL aufruft.
    Nach meinem bisherigen Verständnis ist die Log-Datei dazu da, Fehler (welche auch immer) aufzuzeigen. Wenn jetzt bei JEDEM Aufruf der Webseite ein Eintrag ins Log erstellt wird, weil keine robots.txt da ist, dann müllt mir diese eine Fehlermeldung das Log so zu, dass mögliche wirkliche Fehler nurmehr schwer auffindbar sind

    Jedenfalls: Seit ich eine robots.txt ins \web Verzeichnis gestellt hab, bleibt das Log-File leer, was ich wesentlich besser finde als täglich mehrere hundert oder 10.000e Einträge (ist ja besucherabhängig) pro Tag zu produzieren.

    Kann man diese eine Fehlermeldung nicht unterdrücken? Und wenn nein: Wäre unter diesem Gesichtspunkt eine einfache robots.txt nicht sinnvoll?
    Geändert von Skipman (29.08.2018 um 19:04 Uhr)
    barrierearmes Webdesign, HTML, CSS, Validierung, CO/BODA, Contao - Webdesign - Hosting - Schulung

  21. #21
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.040
    Partner-ID
    10107

    Standard

    Du kannst ja hier dazu ein Ticket aufmachen: https://github.com/contao/contao/issues

    Du solltest es aber nicht auf die robots.txt beziehen, denn seit Contao 4.6 gibt es eine default robots.txt

  22. #22
    Contao-Nutzer
    Registriert seit
    23.06.2009.
    Beiträge
    200

    Standard

    Die Logs werden z.B. auch bei einem fehlenden favicon.ico File gefüllt, das fragen die meisten Browser auch immer automatisch mit ab.
    Eventuell würde es ja Sinn machen, hier einzelne Files vom Logging ausschließen zu können. Das könntest Du bei der Gelegenheit ja beim Erstellen des Tickets vielleicht gleich mal mit "anregen"

  23. #23
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.040
    Partner-ID
    10107

    Standard

    Ich würde generell hinterfragen, ob 404 überhaupt geloggt werden müssen. Wenn man das braucht, hat man ja meistens das Access Log des Web Servers. Wozu soll die Web Applikation selbst das also auch noch loggen.

  24. #24
    Contao-Nutzer
    Registriert seit
    24.08.2018.
    Ort
    Magdeburg
    Beiträge
    131

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Ich würde generell hinterfragen, ob 404 überhaupt geloggt werden müssen. Wenn man das braucht, hat man ja meistens das Access Log des Web Servers. Wozu soll die Web Applikation selbst das also auch noch loggen.
    Ich finde das super. Ich logge z.B. in einigen Projekten spezielle Anfragen (an WordPress, Joomla usw.) um Bots zu erkenne und um de IP's dann mit Fail2Ban für eine gewisse Zeit zu blockieren.

    Du darfst auch nicht vergessen, dass du nicht bei allen Hostern Zugriff auf das Access-Log hast UND dass diese Logs teils nur ein paar Tage rotieren. Da reicht es dann nicht alle Woche mal das Logfile zu checken. Insofern ist das schon gut, wenn man ein brauchbares 404-Log im CMS hat.

    Btt.: Eine robots.txt versteht sich als guter Ton, den hier werden Infos für die Crawler hinterlegt - darum wird das auch beim PageSpeed usw. mit erwähnt. Leg einfach eine Datei an, schreib rein, welche URL die Sitemap der Seite hat und eventuell fällt dir noch mehr ein btw. bietet es sich hier an die Seite Impressum, Datenschutz, AGB usw. direkt für die großen Suchmaschinen zu verbieten.

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •