Ergebnis 1 bis 3 von 3

Thema: Crawler - Was bedeuten die Logeinträge?

  1. #1
    Contao-Urgestein Avatar von Samson1964
    Registriert seit
    05.11.2012.
    Ort
    Berlin
    Beiträge
    2.794

    Frage Crawler - Was bedeuten die Logeinträge?

    crawl_broken-link-checker_log.csv (Auszug):
    Code:
    Time,Source,URI,"Found on URI","Found on level",Tags,Message
    "2021-01-05 18:30:28.068464","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://twitter.com/Schachbund,https://www.schachbund.de/deutscher-schachbund.html,1,,"Broken link! HTTP Status Code: 400."
    "2021-01-05 18:30:28.175691","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://www.instagram.com/schachbund/,https://www.schachbund.de/deutscher-schachbund.html,1,disallowed-robots-txt,"Broken link! HTTP Status Code: 429."
    "2021-01-05 18:32:31.540723","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://www.schachbund.de/dem2020.html,https://www.schachbund.de/deutscher-schachbund.html,1,,"Broken link! HTTP Status Code: 500."
    "2021-01-05 18:33:15.850379","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://www.schachbund.de/dbem2020.html,https://www.schachbund.de/deutscher-schachbund.html,1,,"Broken link! HTTP Status Code: 500."
    "2021-01-05 18:33:26.770195","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.schach-plattling.de/schach/deutsche_einzel.htm,https://www.schachbund.de/dbem2004.html,2,,"Broken link! HTTP Status Code: 404."
    Was bedeuten die Ausgaben hinter "\BrokenLinkCheckerSubscriber"? Z.B. Eintrag 1:
    Code:
    https://twitter.com/Schachbund
    https://www.schachbund.de/deutscher-schachbund.html
    -
    1
    "Broken link! HTTP Status Code: 400."
    Die 2. URL ist der Startpunkt der Website. Diese URL sollte öffentlich nicht bekannt sein. Wo kommt der also her?

    Eintrag 2:
    Code:
    https://www.instagram.com/schachbund/
    https://www.schachbund.de/deutscher-schachbund.html
    1
    disallowed-robots-txt
    "Broken link! HTTP Status Code: 429."
    Gleicher Fall wie eben. Und was bedeuten die 1 und disallowed-robots-txt?

    Eintrag 3:
    Code:
    https://www.schachbund.de/dem2020.html
    https://www.schachbund.de/deutscher-schachbund.html
    1
    -
    "Broken link! HTTP Status Code: 500."
    Die 1. URL funktionierte nicht, deshalb Status 500. Aber was ist wieder mit dem Startpunkt?

    Eintrag 5:
    Code:
    http://www.schach-plattling.de/schach/deutsche_einzel.htm
    https://www.schachbund.de/dbem2004.html
    2
    -
    "Broken link! HTTP Status Code: 404."
    Der Crawler scheint auch externe Links zu prüfen (wie kann man die ignorieren?), bei schach-plattling.de kommt ein 404. Der Link wurde gefunden auf der 2. URL. Was bedeutet die 2?
    Viele Grüße
    Frank

    Seit Mai 2013 Fan von Contao
    Webmaster vom Deutschen Schachbund und Berliner Schachverband
    Mein Blog: Schachbulle
    Meine Erweiterungen bei GitHub
    Meine Videos auf YouTube: Playlist zur Contao-Programmierung/Einrichtung

  2. #2
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    34.063
    Partner-ID
    10107

    Standard

    Bzgl. der reporteten "broken" Twitter & Instagram Links: führe ein komplette Paketaktualisierung durch.

  3. #3
    Contao-Nutzer
    Registriert seit
    03.03.2010.
    Ort
    82194 Gröbenzell
    Beiträge
    188

    Standard

    Der 5. Eintrag bedeutet auf der Seite https://www.schachbund.de/dbem2004.html gibt es eine Broken-Link zu http://www.schach-plattling.de/schac...che_einzel.htm

    Was auch stimmt.
    schach1.png

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •