Contao-Camp 2024
Ergebnis 1 bis 23 von 23

Thema: Crawler zeigt auch defekte Links auf Drittseiten von Zielseiten des Bannermoduls an

  1. #1
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard Crawler zeigt auch defekte Links auf Drittseiten von Zielseiten des Bannermoduls an

    Liebe Community,

    ich nutze das Banner-Modul von bugbuster in der aktuellsten Version und stelle immer wieder fest, dass das Protokoll des Link-Checker-Logs meines Crawlers nach dem Scan nicht nur die Links meiner eigenen Homepage https://die-schreibmaus.de und der Banner meines Banner-Moduls überprüft, sondern anscheinend auch sämtliche Links von den Seiten, auf die meine Banner im Banner-Modul verweisen.
    Während die Links zu den angegebenen Zielseiten der Bannergrafiken immer fehlerfrei sind und die Links funktionieren, scheint das Protokoll aber auch alle defekten Links auszugeben, die von der Zielseite eines Banners weitere Drittseiten adressieren, zumindest scheint das bei externen Links auf Drittseiten der Fall zu sein.

    Ist das beabsichtigt? Machen das alle Crawler so? Oder liegt das an der Programmierung des Banner-Moduls?
    Vielleicht kann mich da mal jemand aufklären.

    Liebe Grüße, grashalm
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  2. #2
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Der Broken Link Checker testet alle Links, die auf deiner Seite gefunden werden.
    » sponsor me via GitHub or PayPal or Revolut

  3. #3
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    hallo spooky,

    ja, das ist mir klar und das weiß ich auch. aber die links, die ich meine, tauchen nirgends auf meiner seite auf, sondern nur auf seiten, auf die ich mittels eines banners verlinke, sind also quasi nur links auf fremden seiten. er scheint also auch diese fremden seiten auf deren verlinkungen hin zu prüfen... und das finde ich seltsam... er macht also quasi mehr, als er eigentlich müsste... und das kann ich mir nicht erklären...
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  4. #4
    Community-Moderatorin & Contao-Urgestein Avatar von mlweb
    Registriert seit
    10.07.2011.
    Beiträge
    6.715
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Wie sieht denn das Protokoll konkret aus, also bespielhaft eine solche Zeile in der "mehr" gecrawlt wurde und Broken Links ausgeworfen wurden.
    Ich habe Dir mit meinen Hinweisen geholfen und Du möchtest Dich bedanken?
    Unterstütze bitte das Contao-Projekt (Button Links)
    Weitere Spendenmöglichkeiten
    ------------------------------------------------------------------------------------------------------
    Contao-Dokumentation: Contao-Handbuch und Contao-Entwickler-Doku
    Contao-Online-Video-Kurse: Contao Academy
    Funktionalität erweitern: Contao-Erweiterungen

    Für Dinge die man mit html5 und css3 lösen kann, braucht man kein javascript.




  5. #5
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    So zum Beispiel:

    Code:
    2022-02-23 22:51:01.044768,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.melhorn.de/Prosalyrik/index.htm%5CIn,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! HTTP Status Code: 404."
    Auf die Seite http://www.melhorn.de/Prosalyrik/index.htm%5CIn wird von der Zielseite des Banners Nr. 16 (https://abenteuer-literatur.de) aus verlinkt.
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  6. #6
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Nein, laut log wird von https://die-schreibmaus.de/bbfebanner/banclicks/bid/16 dort hin verlinkt.
    » sponsor me via GitHub or PayPal or Revolut

  7. #7
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Wie ist das möglich? Als Bannerziel-URL habe ich "https://abenteuer-literatur.de/" eingegeben.
    Liegt das daran, dass ich hinter dem ".de" noch einen Slash habe, der dann einen beliebigen Link dieser Seite noch anhängt???

    All diese URLs kann er auf der Seite Abenteuer-Literatur u.a. nicht finden:

    Code:
    2022-02-23 22:51:36.933713,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.zdf.de/volle-kanne/die-ruhrpottramscher-troedelfreunde-sammeln-schmueckstuecke-24217616.html,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! HTTP Status Code: 404."	
    2022-02-23 22:51:40.920538,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://drive.google.com/open?id=1cPPxUf1WjQzluzwy47IlnQkrqBtXS_cZ,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,disallowed-robots-txt,"Broken link! HTTP Status Code: 404."	
    2022-02-23 22:51:42.290511,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.repage2.de/member/herzensfee,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! Could not request properly: Could not resolve host: www.repage2.de for ""http://www.repage2.de/member/herzensfee"".."	
    2022-02-23 22:51:42.543625,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://abenteuer-literatur.de/unsere-autoren/b%C3%BCcher-unserer-autoren,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! HTTP Status Code: 404."	
    2022-02-23 22:51:48.974392,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.kurt-blaser.magix.net/wesite/,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! HTTP Status Code: 404."
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  8. #8
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Wo ist der Banner zu finden?
    » sponsor me via GitHub or PayPal or Revolut

  9. #9
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Alle Banner sind in einer einzigen Kategorie: "banner im footer" und werden im Footer meiner Seite eingebunden (https://die-schreibmaus.de).
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  10. #10
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Evt. ist die 301 Weiterleitung der Banner URLs das Problem. Da sich die Banner URL jederzeit ändern könnte, wäre vielleicht 302 oder 307 hier besser (das könntest du auf GitHub bei der Extension vorschlagen).

    Zusätzlich könntest du auf GitHub bei Contao vorschlagen, dass der Crawler (oder Broken Link Checker) nicht noch weitere Links analysiert, die sich auf einer Seite nach einer 301 Weiterleitung befinden, wenn sich die 301 Zielseite nicht mehr in der selben Domain befindet.
    » sponsor me via GitHub or PayPal or Revolut

  11. #11
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    den ersten teil deiner antwort verstehe ich noch, das könnte ich in github bei der erweiterung einbringen.
    aber den zweiten teil verstehe ich leider nicht, das ist zu hoch für mich. könntest du da deine vermutung
    zum link-checker eventuell an contao schreiben? wäre das möglich?
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  12. #12
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von grashalm Beitrag anzeigen
    aber den zweiten teil verstehe ich leider nicht, das ist zu hoch für mich. könntest du da deine vermutung
    zum link-checker eventuell an contao schreiben? wäre das möglich?
    Meine Devise ist: immer die Community miteinbeziehen .

    Es sieht so aus als würde der Crawler (oder nur der Broken Link Checker) eine "externe" Seite als "interne" Seite identifizieren (und somit alle Links dort überprüfen), wenn der Crawler per 301 Weiterleitung von einer "internen URL" dorthin gelangt ist.

    Sprich: die Banner URL https://die-schreibmaus.de/bbfebanner/banclicks/bid/21 bspw. wird als interne Seite behandelt (obwohl die tatsächliche URL eigentlich https://www.hangklang.de/index.html lautet) und daher prüft der Broken Link Checker auch ganz normal alle unter dieser URL auftauchenden Links.

    Oder wieder anders gesagt: bei einer permanenten Weiterleitung (= 301 Weiterleitung) ist die ursprüngliche URL gleichwertig wie die Ziel URL (was auch semantisch richtig ist).
    Geändert von Spooky (24.02.2022 um 17:21 Uhr)
    » sponsor me via GitHub or PayPal or Revolut

  13. #13
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Moderation: Thema in das Unterforum der Erweiterung verschoben.
    » sponsor me via GitHub or PayPal or Revolut

  14. #14
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Okay, das verstehe ich etwas besser. Ich will versuchen, das in Github zu melden. Danke für Deine Hilfe!
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  15. #15
    Wandelndes Contao-Lexikon Avatar von BugBuster
    Registriert seit
    15.06.2009.
    Ort
    Berlin
    Beiträge
    10.496
    User beschenken
    Wunschliste

    Standard

    Im Frontend Modul gibt es die Einstellung ob man die Weiterleitung als 301 oder 302 haben will. Das gilt dann für alle Banner.
    Grüße, BugBuster
    "view source" is your guide.
    Danke an alle Amazon Wunschlisten Erfüller

  16. #16
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Hallo Bugbuster,

    danke für Deinen Tipp. Ich habe jetzt im Modul die temporäre Weiterleitung eingestellt (302) und den Crawler noch mal laufen
    lassen. Ergebnis: Er hat zwar 73 Links weniger gecrawlt, bringt im Log aber immer noch einige kaputte Seitenlinks, die er auf
    verlinkten Bannerziel-URL-Unterseiten gefunden hat.

    Code:
    2022-02-25 16:52:10.529011,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",https://www.jakobus-poesi.de/,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! Could not request properly: Error:14094438:SSL routines:ssl3_read_bytes:tlsv1 alert internal error for ""https://www.jakobus-poesi.de/"".."
    2022-02-25 16:52:13.177618,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.abenteuer-literatur/,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! Could not request properly: Could not resolve host: www.abenteuer-literatur for ""http://www.abenteuer-literatur/"".."
    2022-02-25 16:52:13.196995,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.jakobus-poesie.de/,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! Could not request properly: Could not resolve host: www.jakobus-poesie.de for ""http://www.jakobus-poesie.de/"".."
    2022-02-25 16:52:13.835800,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.repage2.de/member/herzensfee,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! Could not request properly: Could not resolve host: www.repage2.de for ""http://www.repage2.de/member/herzensfee"".."
    2022-02-25 16:52:27.593686,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://erdmann-forschung.de/bewusstsein.html,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! HTTP Status Code: 404."
    2022-02-25 16:52:27.594820,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://erdmann-forschung.de/impressum.html,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! HTTP Status Code: 404."
    2022-02-25 16:52:27.615836,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.melhorn.de/Prosalyrik/index.htm%5CIn,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! HTTP Status Code: 404."
    2022-02-25 16:52:27.637072,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://www.melhorn.de/about/index3.htm,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! HTTP Status Code: 404."
    2022-02-25 16:52:30.545384,"Contao\CoreBundle\Crawl\Escargot\Subscriber\BrokenLinkCheckerSubscriber",http://%20www.kerstinschreiber.com/,https://die-schreibmaus.de/bbfebanner/banclicks/bid/16,3,,"Broken link! Could not request properly: Could not resolve host: %20www.kerstinschreiber.com for ""http://%20www.kerstinschreiber.com/"".."
    Das Problem scheint also noch nicht gelöst zu sein.
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  17. #17
    Wandelndes Contao-Lexikon Avatar von BugBuster
    Registriert seit
    15.06.2009.
    Ort
    Berlin
    Beiträge
    10.496
    User beschenken
    Wunschliste

    Standard

    Kurz: der Crawler hat in allen Punkten Recht.
    Das liegt aber nicht am Banner Modul.
    Die Links mit der Fehlermeldung "Could not resolve host" kann mein Rechner auch nicht auflösen, die Links sind also wirklich tot.
    Bei "http://www.abenteuer-literatur/" fehlt was, .de, .com oder was auch immer, kann also nicht funktionieren.
    Der SSL Error muss auch was internes vom Crawler sein oder irgendwas stimmt nicht mit der Zieldomain Verschlüsselung.
    Und der Rest ist auch nachvollziehbar:

    Bildschirmfoto vom 2022-02-25 22-38-16.png
    Die Seite gibt es nicht!

    Und bei "http://%20www.kerstinschreiber.com/" hat sich ein Leerzeichen eingeschmuggelt, kann also nicht gehen.
    Grüße, BugBuster
    "view source" is your guide.
    Danke an alle Amazon Wunschlisten Erfüller

  18. #18
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Hallo Bugbuster,

    ja, ich weiß, dass der Crawler in allem Recht hat, das ist aber auch nicht mein Problem, bzw. nicht meine Nachfrage. Ich will ja wissen, weshalb der Crawler nicht nur die Seitenadressen und Links crawlt, auf die ich mit den Bannern verlinke, sondern dort auch noch alle Links dieser verlinkten Webseiten durchforstet (was meiner Meinung nach ja eigentlich gar nicht mehr seine Aufgabe ist).

    Denn auf meiner Seite https://die-schreibmaus.de gibt es keinen einzigen Link zu einer der unten genannten verlinkten Seiten aus meiner Logdatei. Diese Seitenlinks entspringen allesamt der Seiten-URL https://.abenteuer-literatur.de, auf die ich mit einem Banner hinweise.

    Spooky meinte ja in seinen beiden Posts Nr. 10 und Nr. 12, dass das Problem die Weiterleitung mit 301 sein könnte, und man 302 oder 307 probieren sollte. 302 funktioniert ja wie gesagt auch nicht. Wenn Du sicher bist, dass auch 307 nicht funktionieren wird und es nur am Broken Link Checker liegt, dann schreib mir das noch mal kurz. Dann erweitere ich meinen "Issue" in Github in dem "Contao/Contao"-Repository, wo ich auch etwas zu diesem Problem geschrieben hatte.
    Geändert von grashalm (25.02.2022 um 23:07 Uhr)
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  19. #19
    Wandelndes Contao-Lexikon Avatar von BugBuster
    Registriert seit
    15.06.2009.
    Ort
    Berlin
    Beiträge
    10.496
    User beschenken
    Wunschliste

    Standard

    Der Banner Link ist keine echte Seite sondern führt einen Redirect aus zu der eigentlichen (hier) externen gewollten. Der Crawler folgt diesem.
    In deinem Fall:

    Code:
    https://die-schreibmaus.de/
    hat ein Banner mit Link
    Code:
    https://die-schreibmaus.de/bbfebanner/banclicks/bid/15
    Dieser Link antwortet mit 302 und neuem Ziel
    Code:
    https://www.forschungsprojekt-tourette.de
    Der Broken Link Checker folgt der Verlinkung bis zu einem echtem Ziel, das ist doch seine Aufgabe, sonst weiß man doch gar nicht ob der Link bis zum Ende funktioniert.
    Aus meiner Sicht tut er genau das was er soll.
    Grüße, BugBuster
    "view source" is your guide.
    Danke an alle Amazon Wunschlisten Erfüller

  20. #20
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Ich glaube, Du hast mich noch nicht richtig verstanden.

    Logisch, dass der Broken Link Checker dem Link folgt, bis er zu einem "echten Ziel" gekommen ist (im Falle von Banner-Ziel-URLs (meist) externe Webseiten).

    sonst weiß man doch gar nicht ob der Link bis zum Ende funktioniert.
    Wenn er dieses "Ende" erreicht hat, sollte er aber eigentlich aufhören mit dem Checken dieser einen Bannerziel-URL (wo soll das sonst enden?)

    Deswegen hatte ich ja geschrieben:

    Denn auf meiner Seite https://die-schreibmaus.de gibt es keinen einzigen Link zu einer der unten genannten verlinkten Seiten aus meiner Logdatei. Diese Seitenlinks entspringen allesamt der Seiten-URL https://abenteuer-literatur.de, auf die ich mit einem Banner hinweise.
    Der Crawler crawlt also den Bannerziel-Link bis er von meiner Seite auf https://abenteuer-literatur.de landet. Er stellt fest: Die Seite existiert und funktioniert, also hat er "das Ende" dieses einen Auftrags erreicht. Anstatt aber jetzt mit dem nächsten Link meiner Seite weiterzumachen, checkt er erst noch sämtliche Links, die er auf https://abenteuer-literatur.de findet und stellt fest, dass es da verschiedene Broken Links gibt. Und die zeigt er mir in der Logdatei an. Das heißt, er geht noch viel weiter, als er sollte. Und das kann ja nicht seine Aufgabe sein...

    Und ich weiß nun nicht: Liegt es am Redirect und hat mit der Weiterleitung der Bannerziel-URLs zu einer externen Website zu tun (Banner-Modul), oder ist es eine reine Sache des Crawlers???
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

  21. #21
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von BugBuster Beitrag anzeigen
    Der Broken Link Checker folgt der Verlinkung bis zu einem echtem Ziel, das ist doch seine Aufgabe, sonst weiß man doch gar nicht ob der Link bis zum Ende funktioniert.
    Aus meiner Sicht tut er genau das was er soll.
    Das Problem ist, dass der Broken Link Checker Links auf einer fremden Seite überprüft.
    » sponsor me via GitHub or PayPal or Revolut

  22. #22
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107
    » sponsor me via GitHub or PayPal or Revolut

  23. #23
    Contao-Fan Avatar von grashalm
    Registriert seit
    17.06.2010.
    Ort
    Mainz
    Beiträge
    259
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Ich habe gerade gesehen, dass Du auf Github meinen Beitrag ergänzt hast. Vielen Dank dafür!
    Ich glaube, so versteht der Programmierer besser, was er tun muss, um diesen Bug zu beheben.

    Dann heißt es jetzt einfach abwarten. Danke nochmal für Deine Unterstützung!
    Geändert von grashalm (26.02.2022 um 13:18 Uhr)
    wie gut, dass es contao gibt! wie gut, dass es spooky und euch alle gibt!

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •