Ergebnis 1 bis 5 von 5

Thema: Bingbot spamt Logfiles voll

  1. #1
    Administrator Avatar von Nina
    Registriert seit
    04.06.2009.
    Ort
    Hamburg
    Beiträge
    4.755
    Contao-Projekt unterstützen

    Support Contao

    Standard Bingbot spamt Logfiles voll

    Ich habe jetzt schon bei mehreren Kunden den Effekt erlebt, dass ihre ganze Website oder alle Unterseiten abrauchten. Die Angaben in den Contao-Logs waren unterschiedlich und nicht klar verständlich, erst der Blick in die Server-Logs hat die Ursache klar gemacht: Der Bingbot spielt verrückt.

    Leo Unglaub hatte diesen Bug vor ein paar Monaten gemeldet und die Ursache genauer erklärt. Grob gesagt ist der Ablauf so:
    • Auf der Website wird das Download-Inhaltselement eingesetzt, eine der verlinkten Dateien ist aber nicht mehr vorhanden.
    • Der Bingbot findet diesen nicht mehr vorhandenen Link und versucht ihn aufzurufen.
    • Contao gibt aber eine falsche Servermeldung zurück, was bewirkt, dass der Crawler auf jede Menge vermeintlich echter URLs trifft, die nicht wirklich existieren. Sozusagen die unendliche Geschichte.
    • Schlussendlich führt das dann zu einem ewigen Kreislauf, der die Logfiles vollspammt.
    • Ich konnte bei Kunden beobachten, dass das Logfile in kürzester Zeit mehrere Gigabyte groß wurde und abrauchte (inkl. allem anderen).

    Für Contao 3.x wurde damals eine Lösung gefunden. Die Lösung für Contao 2.11.x ist zwar schon da, aber noch nicht released:

    Das Ticket
    Die damals veröffentlichte Lösung für 3.x
    Die kürzlich erstellte Lösung für 2.11.x

    Spinnt der Bingbot?
    Nein, eigentlich verhält er sich korrekt und folgt verfügbaren Links. Der Fehler lag darin, dass Contao grob gesagt eine unendliche Anzahl "korrekter" Links an den Crawler gemeldet hat. Die genaue Erklärung gibt es in Englisch im Ticket von LU.

    Was tun, wenn man noch eine ältere Version im Einsatz hat?

    Hinweis: Alles auf eigene Verantwortung und NUR wenn ihr davor ein Backup der gesamten Website gemacht habt. Der Idealfall ist natürlich, dass ihr die echte Lösung aus dem oben genannten Ticket einspielt (sofern ihr die passende Contao-Version nutzt). Die hier vorgenommenen Einstellungen sind hingegen nur temporäre Möglichkeiten um die Website überhaupt wieder zum Laufen zu bekommen und etwas Zeit für ein Update zu gewinnen.

    Ich habe Kunden die noch eine ältere Contao-Version im Einsatz haben und aus diversen Gründen nicht mal einfach so updaten können bzw. das erst in einiger Zeit machen können. Hier sind meine bisherigen Zwischenlösungen. Sie sind nicht perfekt, aber sicher besser als unnutzbare Websites.

    A) Checkt die ganze Website und prüft, wo das Download(s)-Inhaltselement im Einsatz ist (oder Module/selbst gebaute Elemente die die gleiche Funktion nutzen). Prüft jeden Download ob er funktioniert. Im Zweifelsfall entfernt das Inhaltselement.

    B) Ladet die robots.txt aus dem Root-Ordner herunter und ergänzt sie am Ende mit diesem Eintrag:
    User-agent: bingbot
    Disallow: /
    Das ist wirklich radikal, da man dadurch den Bingbot komplett von der Website aussperrt (sofern er sich dran hält). Dauerhaft ist das natürlich schlecht, da die Website in der bing-Suchmaschine so nicht auftaucht. Aber in einem Notfall greift man halt zu krassen Mitteln. Das sollte aber wirklich nur temporär eingesetzt werden, bis die eigentliche Lösung (Update) genutzt wird.

    C) Falls unter system/logs/ die Error-Datei riesig ist, könnt ihr sie mit einer gleichnamigen leeren Datei überspeichern. Das macht natürlich erst Sinn, wenn die obigen Einstellungen vorgenommen wurden.

    D) Es zahlt sich auch aus, die Tabelle tl_logs in der Datenbank zu leeren (NICHT löschen), falls sie zu groß ist.

    PS: Ihr könnt hier gerne bessere Vorschläge anbringen. Das waren nur bisherige Notmaßnahmen für die Sonderfälle die in diesen Bug gerauscht sind und sich eben nicht mal eben durch ein Update helfen konnten.

  2. #2
    Maintainer Avatar von xtra
    Registriert seit
    02.07.2009.
    Ort
    Tuebingen
    Beiträge
    2.007
    User beschenken
    Wunschliste

    Standard

    disallowe doch nur die Seite auf der die geloeschten Downloads liegen (deep disallow).
    Dann ist die Seite zumindest noch partiell gelistet.
    Bedenke stets: Wenn Du ungenaue oder unzureichende Angaben machst, so koennte dies die Bearbeitung deiner Frage endlos verzoegern (oder sogar dazu fyhren, dass ich zu viel nachdenken muss und die Antwort vergesse!). Kein Support per PN.

  3. #3
    Wandelndes Contao-Lexikon Avatar von BugBuster
    Registriert seit
    15.06.2009.
    Ort
    Berlin
    Beiträge
    10.521
    User beschenken
    Wunschliste

    Standard

    Ich habe genrell angepasste ce_download(s) Templates wo ich ein
    Code:
    rel="nofollow"
    eingebaut habe im <a href...> Tag.
    Warum soll denn ein Bot meine Zips laden? Bisher hat das geholfen, habs aber schon länger nicht kontrolliert in den Logs.
    Grüße, BugBuster
    "view source" is your guide.
    Danke an alle Amazon Wunschlisten Erfüller

  4. #4
    Contao-Urgestein Avatar von jan.theofel
    Registriert seit
    23.06.2009.
    Ort
    Berlin
    Beiträge
    1.846

    Standard

    Hi,

    das rel="nofollow" bedeutet generell nur, dass die Suchmaschinen den Link nicht für das Ranking werten sollen, nicht jedoch, dass sie ihm nicht folgen (dürfen). Das alleine dürfte also nicht als Maßnahme ausreichen.

    Jan
    Jan Theofel
    Barcamp-Moderator für Corporate-Barcamps und öffentliche Barcamps

  5. #5
    Wandelndes Contao-Lexikon Avatar von BugBuster
    Registriert seit
    15.06.2009.
    Ort
    Berlin
    Beiträge
    10.521
    User beschenken
    Wunschliste

    Standard

    Mag sein, aber bei mir hat das damals definitv was gebracht, wurde auch im Forum diskutiert und von mir daher auch veröffentlicht.
    Mittlerweile hat Google beispielsweise selber festgelegt, diese nicht mehr zu beachten.
    Aber es geht ja hier im Bing Bot, keine Ahnung wie der hier agiert.
    Ich durchsuche mal meine Logs, mal sehen ob ich BingBot als ZIP Sauger finde.

    Tatsache, dieses Mistvieh saugt die ZIPs runter.

    Übrigens, Google dagegen nicht bei mir. Also irgendwas muss dran sein.
    Geändert von BugBuster (20.08.2013 um 20:54 Uhr)
    Grüße, BugBuster
    "view source" is your guide.
    Danke an alle Amazon Wunschlisten Erfüller

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •