crawl_broken-link-checker_log.csv (Auszug):
Code:
Time,Source,URI,"Found on URI","Found on level",Tags,Message
"2021-01-05 18:30:28.068464","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://twitter.com/Schachbund,https://www.schachbund.de/deutscher-schachbund.html,1,,"Broken link! HTTP Status Code: 400."
"2021-01-05 18:30:28.175691","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://www.instagram.com/schachbund/,https://www.schachbund.de/deutscher-schachbund.html,1,disallowed-robots-txt,"Broken link! HTTP Status Code: 429."
"2021-01-05 18:32:31.540723","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://www.schachbund.de/dem2020.html,https://www.schachbund.de/deutscher-schachbund.html,1,,"Broken link! HTTP Status Code: 500."
"2021-01-05 18:33:15.850379","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://www.schachbund.de/dbem2020.html,https://www.schachbund.de/deutscher-schachbund.html,1,,"Broken link! HTTP Status Code: 500."
"2021-01-05 18:33:26.770195","Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.schach-plattling.de/schach/deutsche_einzel.htm,https://www.schachbund.de/dbem2004.html,2,,"Broken link! HTTP Status Code: 404."
Was bedeuten die Ausgaben hinter "\BrokenLinkCheckerSubscriber"? Z.B. Eintrag 1:
Code:
https://twitter.com/Schachbund
https://www.schachbund.de/deutscher-schachbund.html
-
1
"Broken link! HTTP Status Code: 400."
Die 2. URL ist der Startpunkt der Website. Diese URL sollte öffentlich nicht bekannt sein. Wo kommt der also her?
Eintrag 2:
Code:
https://www.instagram.com/schachbund/
https://www.schachbund.de/deutscher-schachbund.html
1
disallowed-robots-txt
"Broken link! HTTP Status Code: 429."
Gleicher Fall wie eben. Und was bedeuten die 1 und disallowed-robots-txt?
Eintrag 3:
Code:
https://www.schachbund.de/dem2020.html
https://www.schachbund.de/deutscher-schachbund.html
1
-
"Broken link! HTTP Status Code: 500."
Die 1. URL funktionierte nicht, deshalb Status 500. Aber was ist wieder mit dem Startpunkt?
Eintrag 5:
Code:
http://www.schach-plattling.de/schach/deutsche_einzel.htm
https://www.schachbund.de/dbem2004.html
2
-
"Broken link! HTTP Status Code: 404."
Der Crawler scheint auch externe Links zu prüfen (wie kann man die ignorieren?), bei schach-plattling.de kommt ein 404. Der Link wurde gefunden auf der 2. URL. Was bedeutet die 2?
Lesezeichen